2019年12月15日,由《儒藏》编纂与研究中心主办的“《儒藏》编纂数字化整理的可行性建议咨询座谈会”在北京大学红二楼三楼会议室召开。来自北京大学与北京地区的相关专家学者十余位嘉宾莅临座谈会。《儒藏》中心相关人员参加了本次座谈会。
《儒藏》中心沙志利老师首先对《儒藏》“精华编”编纂的流程进行了介绍。沙老师特别指出《儒藏》编纂的规模大、参与人员多、工期长,在全本阶段希望在编纂速度上能够加快、质量上有所提高、成本方面有所降低,请专家们提供数字化整理的可行性建议。
与会嘉宾从以下几个方面对《儒藏》的编纂提出了建设性的意见:
1、关于平台建设:古联(北京)数字传媒科技有限公司洪涛总经理结合古联公司已有的古籍整理平台,指出平台在为人员、流程、财务管理等提供方便的同时,也对组织管理方面提出很高的要求。建议平台的开发要在对各个模块的评估基础上进行,评估数字化整理具体能在哪个环节上加快速度与提高质量。
2、OCR技术:专家们指出现在OCR技术已经取得了很大的成就,已经逐步成熟,准确率能达到95%以上,建议未来《儒藏》的编纂一定要用到OCR技术,将古籍原图与文本从一开始就关联起来。北京书同文数字化技术有限公司市场总监张弛宜女士展示了书同文公司的“点字成金”众包平台以及在OCR技术方面取得的成就。她指出,要形成古籍原图与文本的关联的思维方式,只有两者关联起来,才能使得编纂的各个环节连贯起来。北京龙泉寺藏经办公室主任贤超法师也开发了主要用于佛教经典的OCR软件,通过具体佛经校勘的实例,指出只有图文之间关联起来,才能精准回溯,找到每一字的原始位置,为校勘提供便利。中国科学院图书馆孙显斌副研究馆员特别强调书同文独创的“聚类校对”(纵向校对)技术,指出此种校对技术之于一般校对方法的鲜明优点。
3、自动校勘:古联公司的古籍整理平台能够对各个版本进行自动校勘,校记可以批量处理。
4、自动标点技术:航天科工三院三部高级工程师许京奕先生汇报了之前所做的自动标点技术的原理与成果。北京师范大学文学院诸雨辰老师结合自己在古籍整理过程中使用数字化技术的体会,形象生动地说明了他们最近开发的“古诗文断句”是如何在古籍整理过程中提高效率的。贤超法师的团队也有专门的自动标点技术,已经在佛教经典整理的辅助标点方面发挥很大的作用。北京大学软件与微电子学院俞敬松老师也训练有相关模型。
5、专名识别:北京大学信息管理系王军教授汇报了其团队最新命名实体识别的成绩,指出为古籍加上专名,将人物、地点、学派等各种复杂的关系挖掘出来,才能更便于学者们利用。孙显斌老师则通过具体在《资治通鉴》分析系统上命名实体识别实践,指出要建设好儒学研究的数字基础设施,建设中国儒学知识库,如人物、流派、概念等的本体库。
6、对《儒藏》编纂方向的思考:在网络时代,数字媒体越来越普及,数字化阅读与研究正成为时代的潮流。在这样的大环境下,《儒藏》的编纂的成果形式需要重新予以考虑。王军教授肯定数据对于《儒藏》编纂的重要意义,建议未来的编纂工作一定要采用人机协同工作的方式。“机器能做的,我们就别做了;机器做得不好的,我们帮着做;机器做不了的,我们重点做。”俞敬松副教授提出富信息古籍整理的思想,在古籍编纂的过程中,保留古籍原图以及整理过程中各种标注信息。并指出版权保护与开放共享是一体两面,在今天的信息时代,越是开放越能集中各方面的力量,越能成功。许京奕先生强调要从研究目的来寻求技术支持的角度来思考,在“边学边研边用”的过程中开发系统。北京师范大学中文信息处理研究所胡韧奋老师将数据资源的建设比作“土质岩层”,机器学习模型的研发是具体的“设备”,而人机交互的机制则是具体的工作方法。
本次座谈会上午与下午分别由杨韶蓉副主任、沙志利副主任主持。在嘉宾发言结束之后,《儒藏》中心领导与嘉宾们一起对有关数字化整理的细节进行了探讨。中心领导们对嘉宾们的各类建议表示由衷的感谢。