儒藏学衡讲座（3）纪要│杨浩：数字人文时代古籍整理的机遇与挑战-北京大学《儒藏》编纂与研究中心

《儒藏》讲座

讲座纪要

当前位置：首页 >> 《儒藏》讲座 >> 讲座纪要 >> 正文

儒藏学衡讲座（3）纪要│杨浩：数字人文时代古籍整理的机遇与挑战

发布时间：2017-03-27 作者：杨浩浏览次数：

2017年3月25日（周六）下午，由北京大学《儒藏》编纂与研究中心主办、学衡微信公众号协办的“儒藏学衡讲座”第三讲在北京大学理教213教室举行。本次讲座的主讲人为北京大学《儒藏》编纂与研究中心杨浩助理教授，题目是“数字人文时代古籍整理的机遇与挑战”。以下特摘编杨浩老师的部分讲稿，以分享给诸位对古籍数字化感兴趣的朋友。

古籍的数字化包括古籍的数字化保存，古籍转为可以检索的文本等，已经大大地改变了人们使用与利用古籍的习惯。为了对古籍进行更好的利用，对古籍进行数字化的整理必将是未来的一个重要课题。目前海内外学者已经在此方面做出了有益的探索，有的甚至已经用计算机实现了这样的初步设想。古籍的数字化整理前景非常广阔，非常值得我们去实现，为中华文明造福。

近些年来，已经有学者撰作了专门的著作，对此问题进行了探讨。比如：

吴洪泽，张家钧《计算机在古籍整理中的应用》，成都：四川大学出版社.2009.

《计算机在古籍整理中的应用》一书简述了古籍的数字化、各种汉字字库、古籍文本的编辑、古籍书版的制作、影印古籍的制作方法等。

王立清《中文古籍数字化研究》，北京：国家图书馆出版社.2011.

《中文古籍数字化研究》一书讨论了古籍数字化的基本理论问题、现状、主体分析、管理模式、影响等。

如果说上述书籍还没有涉及古籍的数字化整理问题，那么值得注意的是另外一套丛书，这套丛书叫“中国文化典籍计算机整理与开发技术研究系列”，有如下书籍：

常娥：《古籍计算机自动校勘自动编纂与自动注释研究》芜湖：安徽师范大学出版社2013（下同）

衡中青：《古籍计算机全文数据库及内容挖掘研究以〈方志物产·广东〉为例》

刘竟：《古籍计算机信息门户自动构建与应用以农史学科为例》

黄建年：《古籍计算机自动断句标点与自动分词标引研究》

王雅戈：《古籍计算机自动索引研究以民国农业文献自动索引为例》

曹玲，薛春香：《农业历史文献数字化建设研究》

我们看到，其中涉及到了古籍整理的绝大部分环节，比如校勘、编纂、标点，此外甚至还有自动注释、自动分词、自动索引等等。

在网上还能够搜索到很多学者撰写了有关的论文以及主持的课题。据本人所见，成熟的产品还没有见到，想必大家都在暗中努力。

古籍数字化整理的应用前景是很大的，上面那套丛书主要是农业方面的古籍，不要说古代文献涉及到严格意义上的古籍整理的，甚至近代文献，即便不需要严格的古籍整理，但也需要类似的整理。

方广锠老师实现了一个基于敦煌文献的整理平台，可以实现某种意义上的自动校勘，非常赞叹。

而且方老师长期做佛教藏外典籍的整理，有系统的构思，也发表了不少论文。

首都师范大学的尹小林老师也称实现了古籍的自动校勘、自动标点、自动排版等功能。但是没有向我们演示，不知道具体实现的如何。尹老师特别宣称他的自动标点已经达到百分之九十九的正确率。

总体上说，古籍数字化整理主要涉及自动校勘、自动标点两大部分，自动排版、自动注释等没有太多技术难度，不予讨论。

一些数字古籍网站

因为有些老师希望了解海内外数字化古籍较为集中的网站，所以今略为介绍如下：

国家图书馆

http://www.nlc.cn/dsb_zyyfw/gj/gjzyk/

国家图书馆有各种数字资源，据说至2017年年底还原其胶片为数字的资源要占到80%，这将极大地丰富我们的电子古籍总量，是古籍界的极大福音。另外，民国的期刊也有数字化的库。

CADAL中美百万册图书数字图书馆

http://www.cadal.zju.edu.cn/

中美百万是一个集各种古籍以及现代文献的大库，据说现代的数量已经超过300万册了，非常丰富。网上流行的各种djvu格式的电子书，据说都是从这个库流出来的。

书格

https://shuge.org/

发展的方向。国图与中美百万的绝大多数是黑白，这个在外来是要淘汰的，但是对于有比没有强的时代，还是非常有价值的。

Chinese Text Project

http://ctext.org/

书格网站的电子书虽然不很多，但是品质很高，高清彩图非常地赞，这样的古籍数字化是未来中国文本电子计划的网站，据说是一个学者制作的，非常厉害。里面可以检索到很多的古籍，也聚集了网站的各种加标点的文本。其中的古籍总量好像在2万以上，太惊叹了。我看到有不少古籍是来自互联网档案馆（www.archive.org），这个网站很神奇，有很多没有版权的各种语种的书籍，西文的很多，梵文的也很多，书都作了OCR，有pdf与djvu版的，而且很多书都把切边之前的彩图放在服务器上任人下载，太强大了。但是国内近几年好像上不了，挺可惜。

搜韵

http://sou-yun.com/eBookIndex.aspx