2024年3月25日,北京大学《儒藏》编纂与研究中心“儒藏讲坛”第十期隆重开讲,主讲人为北京大学外国语学院外国语言学及应用语言学研究所苏祺副教授,《儒藏》中心王丰先老师主持。
苏祺老师的讲座题目为“古籍自然语言处理技术:视野与展望”。讲座分为五部分,苏祺教授深入浅出地为与会师生讲解了古籍自然语言处理技术(NLP)的技术发展与应用。第一部分概论自然语言处理与古籍NLP,第二、三部分回顾自然语言处理技术的发展及现行预训练语言模型,第四部分介绍了现有的古籍大模型,第五部分讨论了古籍自然语言处理技术的机遇与挑战。
一、自然语言处理与古籍NLP
本节当中,苏祺老师简介了自然语言处理的概念、用途和古籍自然语言处理技术。自然语言处理(Natural Language Processing, NLP)是人工智能的分支,它的任务是理解和生成文本。自然语言处理任务类型可以分为回归问题、分类问题、匹配问题、结构化预测问题和生成问题。具体在古籍中,自然语言处理技术可以发挥古籍语义表示与理解、古籍文本分类与主题识别、命名实体识别与关系抽取、古籍文本匹配等作用。古籍自然语言处理技术不仅能够理解已有古籍,还能够生成新的古籍文段。苏祺老师指出,古籍自然语言处理技术可以用于生成散文、诗词等新的古籍文本或模仿已有的古籍文本生成符合某种风格的新文本。此外,古籍自然语言处理技术还可以实现古籍文本重构和修复。具体而言是通过分析古籍文本的残缺、破损等情况,对其进行修复和重建,使其完整而可阅读,以及对古籍文本进行图像处理和文本修复,使其恢复原貌。苏老师举出碑文修复中就可以采用古籍自然语言处理技术。
二、自然语言处理技术发展
自然语言处理技术的发展大致可以以2003年为界,分为深度学习时代之前和深度学习时代。以古文断句与标点这一任务为例,在深度学习时代之前的自然语言处理技术有如下几种学习方法:通过规则方法进行古文断句与标点、通过统计机器学习方法进行古文断句与标点。前者是让机器学习断句的规则,后者是让机器自己通过大量语料去统计断句规则。2003年开始,自然语言处理技术发生了范式性的转换,随着认知科学的发展,自然语言处理技术进入深度学习时代,基于循环神经网络的古文断句方法产生。不过,苏老师指出这些学习方法之下的断句、标点准确率都不尽如人意。
三、预训练语言模型
2008年之后,自然语言处理技术更新迭代为预训练语言模型。预训练模型是“大数据+大算力+强算法”结合的产物,大模型通常是在大规模无标注数据上进行训练,学习出一种特征和规则。基于大模型进行应用开发时,将大模型进行微调,就可以完成多个应用场景的任务。深度学习模型的架构也在不断变革,从早期的RNN到现今的Transformer,每一次变革都在推动AI的进步。自GPT-3开始,大模型采用prompt实现自然语言处理交互,大大提高了处理任务的能力。苏老师重点介绍了GPT系列预训练语言模型,其技术壁垒表现在硬件成本和数据量。
四、现有的古籍大模型
GPT诞生后,用于各种不同具体用途的大模型层出不穷。这些大模型的基础都是Transformer,但采用了不同的搭建方法。何种搭建方法更优,必须在实践中得到检验。苏老师展示了在“百模大战”中,GPT、GLM、Qwen等不同大模型在通用领域、中文领域的评测排行榜。进而,又有人根据大模型在一般历史知识、短文本理解和长文本理解三个方面的表现评测大模型理解古代汉语的能力,具体以多义词、通假字、命名实体、断句等方面的识别能力为评测标准。苏老师介绍了第一个古籍大模型“荀子”的基座模型、对话模型及采用的数据。北京师范大学开发的“AI太炎”相比“荀子”增加了古汉语专业知识的书籍,因此该大模型在字词释义、文白翻译上的表现更佳。苏老师详细为大家演示了如何使用北京大学数字人文研究中心研发的“吾与点”智能标注平台进行古籍文本数据标注以及其中集成的多种古籍智能处理模型。
五、古籍自然语言处理技术的机遇与挑战
古籍自然语言处理技术有其特殊之处,也蕴含着独特的研究问题,建模技术还有进一步创新的空间。苏老师强调问题意识的重要性,指出古籍自然语言处理技术可以与人文学者碰撞出新的研究问题。这方面的实例是古文献溯源平台,古文献溯源平台可以检索出文本互见关系,而通过文本互见关系便可以发现文献所反映思想的传承演变发展。最后,苏老师再次强调了高质量数据的重要性。
在自由讨论阶段,与会老师和同学们围绕大模型的应用、大模型的可信赖度、《儒藏》点校本与大模型结合前景等问题,进行了热烈讨论,苏老师一一做了回应。北京大学哲学系、《儒藏》中心李中华教授、魏常海教授及《儒藏》中心老师、博士生同学参与了本次讲坛活动。
(秦玥 整理)