中国新闻网-青海新闻
搜 索
新闻热线:0971-6263111 投稿信箱:cns0971@163.com
您所在的位置:主页 > 科教

云藏,从无到有再到优

2018年11月15日 10:34
来源:青海日报

  德青措在海南藏族自治州藏文信息技术研究中心工作多年,是云藏搜索引擎发展的亲历者。从2012年的一个“新点子”,到2016年8月22日的正式上线,再到日均1300万左右的点击量,全球首个藏文搜索引擎的知名度早已不可同日而语。

  专家称云藏搜索的成功研发,缩短了藏文信息化与国内外信息化之间20年的距离。资料显示,云藏搜索上线后成为了我国各大藏文网站的统一入口,以及互联网中藏文信息的主要来源和资源共享中心。访问量和数据量不断增加,获得业界的普遍关注和认可,知名度得到不断提升。

  “云藏从零起步到现在,是一个不断优化、调整、升级的阶段。这种发展,离不开创新与探索。”德青措说。

  新点子,让梦想照进现实

  是什么创造了云藏,答案也许有上百个。但有一个回答一定会引起大家的共鸣——青海湖网。

  开通于2007年11月28日的青海湖网,是一个综合型文化类网站,分藏文版和汉文版,主要为广大网民提供文化动态信息服务和博客平台。

  “2009年,博客的热度持续增加,我们便开通了藏文博客,网民们非常活跃,每天我在后台看到的文章不少于100篇。”海南州藏语办副主任多杰拉旦说。网站火爆的背后,也暴露出一个短板:藏文搜索的需求很大,但没有一个专业的藏文搜索引擎。

  “一般都是借助于百度等搜索引擎,很多资料都没有办法查到,而查到的一些内容也不够全面、准确。”海南州藏文信息技术研究中心主任拉吉卓玛坦言。能不能做一款藏文搜索引擎?

  2012年,面对这样的窘境,一个大胆的念头在海南州藏语文工作委员会办公室党组书记、主任才洛的脑海中萌生。当他将这个想法告诉自己的同事时,所有人都为之一振,太好了!可兴奋过后,冷静下来的众人才开始意识到,对于他们来说,这将是怎样的一项任务。

  “简单地说,缺经验、无案例可考,缺人才、缺资金。”拉吉卓玛掰着手指算起了当年的不足。的确,此时的信息中心不过是个4、5个人的小队伍,藏语委办也只有10个人左右,懂藏文的不懂技术,懂技术的不懂藏文。甚至在他们外出“取经”的时候,反对者不在少数。“这件事应该是国家来做,或者说是由西藏来做,你们的能力,怕是难以实现。”

  可越是这样,才洛和他的团队,越是要走到底。

  2012年4月11日,藏文搜索引擎系统平台建设项目申报工作全面启动;2012年8月2日,为了配合藏文搜索引擎系统平台建设项目及时立项,以及后续的产业衍生,海南州委、州政府将海南州藏语办原青海湖网络信息中心更名为海南州藏文信息技术研究中心,自此藏语办的工作重心从汉藏公文翻译、藏文古籍整理、网站建设逐步转入藏文信息技术研发领域;

  2013年3月22日,藏文搜索引擎建设工作国家工信部正式立项。北京大学、中国标准化委员会、中央民族大学等院校和科研机构的9名教授为藏文搜索引擎建设项目特邀专家,还及时组建了海南州藏文搜索引擎系统平台建设开发工作领导小组。

  2013年5月28日,确定了开发藏文搜素引擎的工作计划、目标思路以及研发团队,形成了校、地、企开发的创新模式;2013年11月1日,海南州藏文信息技术研究中心组织在职人员、临聘人员等近50人组成数据建设组,开展百科、文库和知道系统藏文大数据的翻译、编辑、审核和上传工作;

  2014年8月28日,确定藏文搜索引擎的名称、域名和logo;

  ……

  一路走来,看到的不仅是这个团队的责任和使命,还有海南州不惜斥巨资“打通与世界网络时代对接的最后一公里”的决心,更看到了海南州扩大开放、加快发展、增进民族团结的信念。

  新技术,铸就全球首个

  “云藏”一词是藏文的音译词,有两层含义,其一为“上师”或“老师”,意为有求必应、有问必答;其二是将其分为单字,有“全面抓取、提取”之意。名字的寓意不言而喻,但想要取得这样的成果并非易事。

  走访研发部门,到院校上门“取经”,一次次无功而返,一次次重新来过。“那段日子,几乎每天都在经历失败。”多年后的今天,面对记者的追问,拉吉卓玛再次回忆起那刻骨铭心的研发阶段。“所有人集中在一起工作,一方面是沟通协调,另一方面是在彼此学习,意见不合时,也会发生激烈的争吵。加班加点是常有的事情,但最让人痛苦的是连续很长一段时间都难以实现突破。其实,好几次都差点选择放弃。”说到这,眼前这位举手投足间都透着一股干练劲的“女强人”不由得笑了。面对如今云藏所取得的成功,拉吉卓玛“有种做梦的感觉”。

  资料显示,云藏搜索在建设过程中,成功研发了藏文自动分词和语言智能处理系统,攻克了藏文智能信息处理的核心技术难题,使得藏文进入了搜索时代,推进了藏文分词与词性标注、藏文框架语意等领域的快速发展,实现了藏文自动纠错、藏文相关词搜索、藏文拉丁转写搜索、藏文语义搜索、藏文不同编码间自动转换等功能,填补了藏文信息处理应用领域的多项技术空白,申请获得了网络文化经营许可证和六项计算机软件著作权登记证书。

  “我们根据国家标准制定的《信息处理用藏语词类标记集》和《信息处理用藏文分词规范》两项规范,建立了藏文自动分词和大规模训练语料库,并与藏文搜索引擎系统框架结构进行了集成,实现了完美对接与融合,解决了核心技术难题。同时,填补了藏文信息技术工程领域多项技术空白,及藏文同义词搜索、藏文拉丁文转写搜索、藏文拼写检查系统、藏文语义检索、藏文不同编码自动转换等功能。”谈及团队取得的成绩,才洛如数家珍。

  技术难题的突破点燃了大家创新的热情。

  2015年8月3日,云藏技术工程二期建设全面启动,在一期的基础上,团队利用一年时间重点建设和升级爬虫系统,开发音频搜索、手机移动客户端、云藏舆情检测系统。

  2016年8月22日,云藏藏文搜索引擎正式上线。为广大藏文用户提供一个个性化的网络检索服务。主要包括网页搜索、新闻搜索、图片搜索、视频搜索、音乐搜索、百科系统、文库系统和知道系统等,覆盖了医学、文学、历史、自然、科技和各类词典等。

  正如伴着“云藏”一路走来的才洛所说的那样,“以前想查找藏语文资料,是一件费力劳神的事,现在只需轻轻一点,世界就在眼前,这标志着藏语文从此进入了一个全新的搜索时代。”

  新起点,布局云藏新坐标

  去年8月22日,云藏藏文搜索引擎开通一周年。

  回想起往昔的峥嵘岁月,才洛几句话既是感慨,又充满着骄傲。

  “时至今日,云藏新闻、网页、图片、视频、音乐、百科、文库和知道等八大板块全部已建成,系统数据库已录入政治、文化、经济、社会、艺术、宗教、科学、医学、自然、天文、教育、地理、历史、生活、体育和信息技术等30类资料和数据,录入藏文文献经典近1万部。短短一年的时间里,云藏百科已创建2万余词条,云藏文库已上传1万余文档,云藏知道已解答近2万个问题,云藏搜索用户访问量已突破一亿次,系统注册用户达1万余。”

  时间推进到一年后的今天,目前该搜索引擎用户覆盖中国31个省市自治区,以及美国、德国、法国、加拿大、澳大利亚、印度等70多个国家和地区,日平均点击量为1300万人次左右。

  正在中央民族大学读博的才让扎西是地地道道的青海人,同时也是云藏的忠实粉丝,早在云藏开通之前,他就实地了解过云藏。

  “自己的家乡能开发出全球首个藏文搜索引擎,这对于我们这些来自青海的学生来说,是一件特别自豪、特别骄傲的事情。作为一名藏族大学生,在我平时的学习中,少不了查阅资料、历史文献,在云藏开通之前,这些事儿我都得去图书馆完成,整个过程比较麻烦,但现在,百科、文库都为我的生活带来了很大的便利。”

  才让扎西口中的云藏百科是集自然、文化、教育、地理、历史、生活、社会、艺术、人物、科技、体育、技术等科学知识为一体的、百科全书式的综合性藏文信息搜索引擎平台,为用户提供了全面、准确、客观的多维信息。用户在搜索框中输入相关词条便能搜到所有相关信息,具有便捷、实用、高效的特点,能够满足不同层次用户对藏文信息搜索的需求。

  “云藏百科为用户提供了一个创造性的藏文网络平台,注重用户的参与和奉献精神,充分调动大众的力量,汇聚网民的头脑智慧,不断累积打造全人类共享的开放式资料库和信息咨询平台,致力于为千万藏文用户提供免费、海量、全面、及时的百科信息,通过平台不断改善用户对信息的创作、获取和共享方式。人人可以自由访问并参与撰写、编辑和分享所有知识。”拉吉卓玛说。更好的用户体验,一直是云藏人的追求。

  没有第三方登录功能、音乐播放时的背景颜色不好看、内容更新不及时……每一个用户的反馈,都是他们正在努力的方向。

  路漫漫其修远兮。

  拉吉卓玛告诉记者,下一步团队将延伸开发云藏知识付费系统、云藏语音系统、云藏汉藏在线翻译系统、以及浏览器、输入法等配套工程。

  云藏搜索,阔步向前。(作者:咸文静)

编辑:张海雯