行文加注标点 名词详细注释 文本一键查询 智慧技术“唤醒”珍贵古籍

2022-10-23 09:37:49 来源:北京日报 作者:赵语涵 责任编辑:风华 字号:T|T

  只要键入一个关键词就能搜索到相关古籍文本,晦涩难懂的古文被加上了标点和人名、地名等注释……数字化技术正在“唤醒”古籍,让它们来到更多人的眼前。近日,“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线,应用了AI(人工智能)模型、分词检索技术等,向公众免费开放390部经典古籍。

  AI提速古籍整理

  过去,古籍的数字化整理主要依赖人力。国家图书馆副馆长、国家古籍保护中心副主任张志清说,“在古籍修复领域,‘一万个小时’恐怕出不来一个熟手,‘两万个小时’也未必能造就一个大师。”据统计,全国各高校、社会层面从事古典文献专业研究的人才不足1万人。

  蓬勃发展的人工智能技术正在给古籍整理提速。“北京大学—字节跳动数字人文开放实验室”产品负责人随手打开《论语集解》(何晏编写)中的一张影像版,只见里面不仅存在着生僻字、异体字,文字排版也相对混乱,在《论语》原文的竖行大字后,还穿插排布着竖行小字,是后人对论语的注解。不仅如此,在这页书左下角,还印有两个印章,覆盖在原文上。

  这样复杂的文本如何精准识别?依靠的就是“看图识字”,即COR文本识别技术。上述负责人介绍,首先要给人工智能模型“喂数据”,即用大量数据让它学习古文用词、行文顺序、表达方式等。当模型具有一定的“古文功底”后,会依次进行单个切分、文字识别、顺序识别。

  在文字识别基础上,技术团队还在尝试更进一步。例如,给行文添加标点,对人名、地名、书籍、时间、官职等进行标注。目前,AI已可以支持逗号、句号、问号、感叹号、顿号、冒号、分号等7种标点的添加,准确率达到96%至97%。

  查找引入分词检索

  除了运用AI技术整理古籍,智能搜索技术也在古籍数字化中“一展拳脚”。

  上述负责人键入“学而时习之”做了一个简单演示,只见搜索到的内容有300余条,展示在最前面的是精准包含“学而时习之”这句话的古文内容,后面还有包括“学之”“时习之”“习之”等词的古文内容。

  “好的搜索技术即便不是非常精准地输入了一个词或者一句话,也能搜索出我们大致想要的内容。这是因为采用了分词搜索技术。”这位负责人解释,分词搜索技术已经比较成熟,但应用到古籍检索中,一个难点是要学会古文用词,这样才能准确地进行分词。不仅如此,在给一句话分词后,还需要为每个词设置不同权重。比如,“学而时习之”的“之”,在古文里很常见,所以权重较低,但“学之”“习之”的内容会在更靠前展示。

  有些古籍广为人知的名字,可能并不是它的本名。比如人们常说的《诗经》,本名其实叫《毛诗》。在搜索设置中,要做到用户搜索《诗经》或者《毛诗》,都能显示出这本书。

  还有更大“活化”空间

  目前,“识典古籍”平台已上线390部经典古籍,共计3000多万字,未来还计划完成一万种古籍的智能化整理,并开发手机版本,供公众上传古籍进行智能化整理等。

  古籍“活化”还有着更大的想象空间。因为历史原因,我国一些古籍、画作等流落海外,出现了“史在他邦、文归海外”的遗憾,古籍的数字化回归成为一种更实际的解决方案。例如,2021年,阿里巴巴公益基金会、中国国家图书馆等合作开展的“汉典重光”项目,曾帮助一批收藏于美国加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,首批20万页、3万多字的古籍已完成数字化。

  “如何能让习惯了刷手机的用户也能爱上晦涩难懂的古籍文献?”这是北京大学数字人文研究中心主任王军对古籍数字化更深度的思考。“智能化整理只是第一步,更要去重新诠释。不是一字一句的翻译,而是与当代人生活结合在一起,为当代人精神提供养料。”(北京日报记者 赵语涵)

相关推荐


解读中国 关注民生
扫码关注中国小康网公众号!
ID:chxk365
返回顶部