写意中国·说文解“字”丨用大数据破译汉字密码 让“冷门绝学”热起来

图灵汇官网

大家都听说过甲骨文,但真正了解它的又有多少人呢?甲骨文究竟有多少个字符?它们又是什么样的形态?作为古代文字的一种,甲骨文与普通大众的生活距离较远,因此对其活化利用成为了当前亟待解决的重要课题。

2019年,安阳师范学院的刘永革老师及其团队推出了一款名为“殷契文渊”的免费甲骨文大数据平台,这款平台一经发布便引起了广泛关注,大大缩短了甲骨文与普通民众之间的距离。

3000多年前的文字,计算机如何解读?当古老的甲骨文遇到现代科技,如何使这一冷门领域焕发新生?如何以一种大众容易接受的方式展现甲骨文的魅力?

沉睡3000年的甲骨文亟需“唤醒”

2000年,刘永革刚从学校毕业时,两位专注于甲骨文研究的老师建议他从事甲骨文的信息化研究,而他对甲骨文几乎一无所知。然而,从那一刻起,他决心将甲骨文的信息化研究作为自己毕生追求的事业。

谈及自己的研究,刘永革戏称这是“两头堵”的工作:一头是古老的中国文明——甲骨文,另一头则是先进的计算机技术和人工智能技术。

甲骨文最初是在安阳市西北的小屯村被发现的,距今已有3000多年的历史。由于年代久远,这些古老的文字充满了神秘感和未知性,破解甲骨文成为了一个世界级难题。而另一个难题在于,我们无法将甲骨文输入到计算机中。

“甲骨文与现代汉字不同,许多甲骨文字符我们并不认识,因此不能使用拼音输入法。此外,有些甲骨文字符看起来像图画,无法用部首来拆解,以前的输入方法需要记忆大量的编码,这增加了记忆负担和学习成本。”刘永革解释道。

刘永革指出,无论是撰写论文、授课还是进行研究,所有场合都需要用图片粘贴甲骨文字符。因此,开发甲骨文输入法、建立字库,使人们能够轻松输入甲骨文变得尤为重要。

“我们运用计算机技术研究甲骨文的编码、字库、输入法以及数据库建设,为甲骨文专家提供工具,辅助甲骨文研究,这是我们团队的主要任务。”

“殷契文渊”让甲骨文瞬间“活起来”

为了学习最新的研究成果,保持思想的与时俱进,刘永革和团队成员每逢有甲骨文研究专家到访安阳,都会积极请教;对于重要的学术会议,他们即便再忙也会参加。

随着研究的深入,刘永革发现,由于晦涩难懂和研究资料有限,甲骨文与现代技术难以兼容,导致研究效率低下。如何实现甲骨文研究的信息共享,促进全球范围内的资源共享和协作研究呢?刘永革决定利用自己的专业知识,推动甲骨文的发展。

于是,“殷契文渊”项目悄然启动,这是一个旨在通过互联网向全世界提供甲骨文信息的平台,让人们更好地了解、认识和研究甲骨文。经过8年精心打造,2019年,这款世界第一款免费甲骨文数据库“殷契文渊”正式发布。

“例如,如果某个甲骨文字符不认识,用户可以登录‘殷契文渊’,通过点击部首来查询相关信息,甚至可以将字符输入到文档中。”刘永革举例说。

自“殷契文渊”开放以来,平台一直免费向全球用户开放,目前已收录152种文献,成为目前最大的甲骨文数据库。“它不仅服务于全球的甲骨文、考古、历史和文字研究专家,还吸引了古文字爱好者、中小学语文教师及书法爱好者等众多群体。”

过去,甲骨文资料难以获取,即便是甲骨文专家也无法拥有全部资料,“殷契文渊”项目的建成彻底解决了这个问题。

科技创新赋能破译甲骨“文明密码”

最近,刘永革所在的实验室与腾讯公司合作,共同开展人机协同助力甲骨文释读研究和传承活化,该项目主要分为两个部分。

“一方面,我们利用人工智能技术为甲骨文释读提供智能化工具,比如古文字图形检索工具。这些工具将集成在‘殷契文渊’平台上;另一方面,我们借助腾讯的传播平台优势,推广甲骨文文化,例如我们正在开发的微信小程序‘了不起的甲骨文’,旨在向公众特别是中小学生传播甲骨文文化,推动研学活动,从本省扩展到全国,该小程序计划于三月底进行内部测试。”刘永革介绍道。

为了完成甲骨文大数据平台的信息采集和录入工作,每年都有学生从大一开始参与甲骨文信息化课题研究。在刘永革的支持下,学院还开设了《甲骨文信息处理》特色课程。

“我们已经组建了一支跨学科、多领域的甲骨文信息化处理团队,包括甲骨文研究专家、书法专家和信息技术专家等。目前,我们在甲骨文信息化教学和科研方面处于全国领先地位。”刘永革自豪地表示。

“目前,我们与腾讯的合作已取得三项技术突破:一是提出了一种甲骨文全信息数字模型;二是研发了光照变换矩阵的甲骨文高清拍摄技术;三是确立了甲骨三维建模的技术和设备。接下来,我们将进行第一批甲骨三维建模实验。”

“我们致力于传承和发展,把‘殷契文渊’建设好,使安阳成为真正的世界甲骨文数据中心;大胆创新,利用人工智能技术破译甲骨文,让科技赋能研究,用计算机解开甲骨文背后的‘文明密码’,讲好甲骨文的故事。”刘永革说,他希望将甲骨文研究带入一个新的智能化时代。

本文来源: 图灵汇 文章作者: 黄婷