摘要:1919年,胡适在《新青年》杂志上发起了著名的“整理国故”运动,旨在“研究问题、输入学理、整理国故、再造文明”。一个世纪过去了,整理古籍任务仍然艰巨。书卷浩如烟海,人才门槛高筑,无不令专家感叹:“想完成全部古书的整理,可能得300年。”
1919年,胡适在《新青年》杂志上发起了著名的“整理国故”运动,旨在“研究问题、输入学理、整理国故、再造文明”。一个世纪过去了,整理古籍任务仍然艰巨。书卷浩如烟海,人才门槛高筑,无不令专家感叹:“想完成全部古书的整理,可能得300年。”
而当古老的文化载体遇见最年轻的技术手段,伟大的奇迹或许就会显现。在机器学习和成千上万志愿者助力下,一本本尘封的古书被一一翻开。
近日,“我用AI校古籍——我是‘校书官’古籍大众智能整理计划(2025年)”(以下简称“我是‘校书官’”项目)在武汉大学启动。该项目吸纳了上万名志愿者,预计将在一年内整理数千万字的古籍,并将整理结果在“识典古籍”平台上向大众免费呈现。
如果说修复和整理古籍是与时间赛跑,AI就好比戴宗的“神行甲马”,实现了整理速度的几何级提升。
1、从小作坊到流水线,整理速度提升20倍
华东师范大学古典文献学在读博士生刘帅曾经怀疑过AI。2017年他用过古籍整理软件,感觉其颇为鸡肋。然而,2024年9月,当听到“我是‘校书官’”项目借助“识典古籍”平台,一个月整理了5000多万字的古籍时,他震惊了:“我一年能整理几十万字就很了不起了。”
“识典古籍”整合了国内顶尖AI研发团队的开发能力和北京大学深厚的学术积淀。古籍整理被拆分成许多环节,主要包括文字识别、文字校对、结构整理、标点校对等。这些环节借助AI,大大节省了人力。
打开“识典古籍”平台,上传一张古籍图片后,光学字符识别(OCR)技术将对图片中的人名、地名、书名、时间和职官,平台可以自动标记。对于OCR不确定的字,会用不同颜色标记出来,便于定位这些文字,然后参照底本修改。在文字精校环节,可以匹配两套不同的文本,在文字校勘环节,可以比较差异、撰写数字校勘记……
“识典古籍”阅读平台网页截图。
北京大学数字人文中心副主任杨浩做过测试,AI自动标点准确率超90%,翻译古文也达到专家水平。“古籍标点是一大难点。”刘帅说,如今他遇到疑问,就会去对照“识典古籍”的自动标点——有点像围棋爱好者向AlphaGo学棋。
杨浩说,传统的古籍整理以出版为目的,正确率要求极高,相应门槛也高,即便古籍专业的学生也经常出错,难以独立承担项目。大部分项目都是一个专家负责一种书,从头做到尾,因此效率很低。
现在有了机器学习,AI在阅读大量人类成果后,对古文具备了相当的“语感”。在“我是‘校书官’”项目中,AI先初步整理古籍,逐字校对,再由大众志愿者来校对,最后把难点提交给专家。“AI改变了工作流程,分包制度降低了门槛,传统的手工作坊变成流水线工厂了。”刘帅说。
AI的应用让对古籍感兴趣的人都可以参与进来。“我是‘校书官’”项目依托“识典古籍”平台,由全国22所高校承办,现已有数以万计的学生报名,许多人的专业可能与古籍无关。在去年的“我是‘校书官’”项目中,志愿者按水平被分为大众组和进阶组,前者负责粗校,后者负责精校。大众组已粗校整理了1643部古籍,进阶组精校整理了共计2451万字。
2024年9月,刘帅也参加了“我是‘校书官’”项目,头一个月初步整理出200万字的古籍,这是过去速度的20倍。接下来他每天抽出两三个小时,一个月就整理完一部49万字难度颇大的古籍,而且整理质量很高。整个项目3个月,刘帅校点、标注、排版、审阅的书一共191种,总字数达500万以上。
2、辨识“庐山真面目”,正确率节节攀升
把古籍从图书馆库房搬到电子资源平台,实现整理速度几何级提升,主要归功于AI“识古”的智慧——它能读出黯淡缺损的古书,或解读晦涩难辨的符号。
以前,古书很难数字化。传统的文字识别软件是为打印材料设计的。对于识别古书,机器经常“傻眼”:一个字往往有不同写法,字体风格不一样,书中还有并非汉字的笔画符号。另外,古书经常有折痕和破损缺字,墨迹黯淡,这也是为什么各大图书馆的古籍数字化多年来进度缓慢、严重依赖人工的重要原因。
培育专业“识字匠”往往需要多年时间,但有了机器学习,一些有难度的辨识工作,可由AI代劳。
国际上,AI复原庞贝古卷的成就,让人们对其潜力充满信心。公元79年被火山灰掩埋的赫库兰尼姆莎草卷轴已经碳化,无法展开。通过CT影像,人们得到了卷轴上微弱的墨水痕迹图像,但仍然无法识别。3位年轻人通过机器学习技术,从图像里推断出超2000个字符,连起来是一段与伊壁鸠鲁哲学有关的文字。这一消息2024年发布后,让国际古典学界非常兴奋。
AI辨识那些尘封已久的破旧古籍,有点像AI修复老照片。2024年,“我是‘校书官’”项目采用AI技术修复上千年前的敦煌古卷《汉书·刑法志》。AI学习了原版古籍的文字、笔画风格和页面纹理,把缺损文字按原来的字体、色彩、背景修复还原,最大程度确保与原古卷一致。另一个AI项目则补全了残缺的《兰亭序》清晰样貌,其笔画细节遵照王羲之的技巧风格。
“我们设置了‘追溯原本’功能,有疑问的话可以一键找到原文进行人工比对、校准。”抖音集团企业社会责任部古籍项目产品负责人王宇介绍,他们正在针对识别手写字、异体字、复杂版式、插图等精进算法,力求不断提升正确率。
全国高等院校古籍整理研究工作委员会副秘书长吴国武说,提高AI水平还需要更优质的训练数据。比如,一些已有的整理本,版权在整理者、出版社。“要想提升AI辨识力,需进一步建立共享合作机制,促进数据的开发与利用。”
“识典古籍”阅读平台网页截图。
目前,国内已有针对甲骨文整理识别的AI项目:通过阅读现存的海量甲骨文图像,AI整理出几千个甲骨文字符,并在不同甲骨文材料之间找到联系,为解读工作提供基础。
实际上,越是鲜有人问津的生僻符号,越适合AI展露身手。我国少数民族先后创制和使用过30多种古文字,国务院公布的六批《国家珍贵古籍名录》中,收录了少数民族古籍1133部,国家图书馆收藏的民族古文献就有18个文种,共34000多册件。这些古籍的数字化和整理工作更缺专业人才,也更需要AI的加持。“这些材料的数字化与整理,今后有望大量依靠AI来完成。”王宇说。
3、加快人才培养,让古籍走出“高阁”
国家古籍保护中心调查结果显示,我国现存20多万种古籍,存世50万个版本,古籍数量达3200多万册。我国从20世纪80年代就开始尝试古籍数字化,但受技术、资金、版权等因素限制,海量文献中实现数字化的不超过八万种,而且许多书只是完成了初步的影像扫描,真正实现文本数字化的不足四万种。
吴国武告诉记者,目前全国范围内专业从事古籍整理的人员仅有一万人左右。
海量古籍面前,现有的整理方式如同愚公移山。古籍整理专业人才匮乏,生产力低下,一直是阻碍“整理国故”进程的世纪难题。
百年前胡适痛感,古籍缺乏系统性导致“一般青年,对于中国本来的文化和学术,都缺乏研究的兴趣”,这一问题至今未得到很好解决。古籍研究仍是冷僻的学问,许多古籍从未向大众开放。
2022年,中共中央办公厅、国务院办公厅印发的《关于推进新时代古籍工作的意见》明确提出,推进古籍数字化。全国古籍整理出版规划领导小组印发的《2021—2035年国家古籍工作规划》则将“国家古籍数字化工程”列为四项重大工程之一,对相关工作进行详细规划。
“使用AI完成古籍整理的前期基础工作,效果很好。”吴国武把AI视为合作者,而不是简单的工具。在他看来,AI的加盟让全民得以了解甚至参与古籍整理这件事,可以说是广植“整理国故”的沃土。
例如,“识典古籍”平台已免费上线超16000部古籍资源,累计吸引上亿人次了解和阅读古籍,为1300余个外部团队的古籍整理工作提供帮助。这已成为文献学界近年来最瞩目的大事。
“识典古籍”阅读平台网页截图。
2024年底,著名的古籍整理工程《儒藏》与“识典古籍”平台展开合作。《儒藏》是新中国成立以来最大规模的儒学典籍整理工程,旨在收录自先秦至清末的所有儒学文献,预计总体达到10亿字。它没有采取相对容易的影印方式,而是志在整理出便于现代人阅读的文本,这给参与项目的学者带来了难以想象的工作量。引入AI后,影印文献的整理标注将大大加速,相关整理成果也会公布在“识典古籍”平台上,实现全民共享。
“AI可以帮学者快速定位到需要的材料,还支持同时比对10个以内的校本,让专家把宝贵时间都用来干技术含量高的活儿。”王宇介绍。同时,“我是‘校书官’”项目的进阶组志愿者,也有机会与《儒藏》工程的专家团队交流。这个以在校生为主的项目,或许能使他们中的一些人未来走上“整理国故”的专业道路。
AI的加盟也创新了古籍整理人才培养模式。吴国武介绍,目前高校里古典文献专业大多开设了数字人文相关的交叉培养课程;有7所高校已经申请了数字人文的本科专业,古籍整理也是重要方向。“交叉融合专业培养出来的人才,未来有望填补古籍专业大模型的人才缺口。”
去年以来,国内许多著名图书馆、博物馆也积极引入AI技术,保护和挖掘自己的馆藏古典资源。国家图书馆藏现存最早版本的元大德三山郡庠刻本《通志》、首都图书馆藏《皇朝礼器图》、浙江图书馆藏文澜阁《四库全书》……一系列珍贵典籍,将通过AI的修复,重光临世。
面对这一波热潮,刘帅很兴奋。他希望AI吸引更多的爱好者尝试整理古籍。“公众对古籍的关注、热爱和参与程度,决定了古籍整理的天花板有多高。我觉得自己站在一个时代改变的前夜。”他说。
AI的速度,人类无法企及,刘帅也曾担忧过自己会不会失业。但如今他认为,AI的“识古”基础是人工整理的高质量数据,无论技术如何发展,仍需要人去参透古书的秘密,使文化遗产薪火相传。
“降低古籍的阅读和整理门槛,始终是文献学的核心目的。”刘帅说。
记者手记
AI激活古籍,也激活了慕古之心
杨雪
尽管高中语文不算差,古文阅读仍然让我头疼。阅读试卷上的古文节选都颇为吃力,更不敢研究繁难古奥的原本了。
古籍传播受困于“三重门”:古字难认,古文难懂,古书难寻。可喜的是,AI正在拆除这“三重门”,让沉睡在藏书阁的古书,转化成人人可享用的文化盛宴。
机器的嘀嗒声中,一卷卷斑驳的文卷正被扫描成像,虫蛀严重的刻本被逐帧修复,墨迹深浅与刻本刀痕高度还原……一个古籍修整的黄金时代已经来临。未来几年,将有成千上万册古籍被纳入大众的知识图谱,这必将提升普通人对古老文明的认知与感情。
目前全国古籍修复从业者仅千人。去年,国家图书馆联合抖音集团等推出微短剧《重回永乐大典》,讲述了尘封在古籍中的“书灵”辅助初入行“小白”一路成长为优秀古籍修复师的故事。借微短剧的热度,古籍修复师这个冷门职业被呈现在大众特别是年轻人面前。
“识典古籍”阅读平台网页截图。
古籍修复一般需经过10年以上的专业训练,用毛笔、糨糊、镊子等工具完成“一页一策”的修复,工作很精细,过程很慢。如今,AI的加持打开了古籍整理事业新局面,也希望能够由此让更多人看见古籍修复师“择一事终一生”的匠人精神,给这个人才稀缺的“冷板凳”一些照拂。
AI修复和整理古籍带来的社会效应,让古籍真正走向大众,降低了普通人摩挲中华文脉的门槛。不论是用AI修复敦煌壁画,还是拼接文书残片,不论是机器学习理解甲骨文的占卜逻辑,还是用知识图谱重现《山海经》的地理脉络,抑或是化典籍为视频,这些工作让我们看到《齐民要术》的劳动细节,大宋汴梁城的日常生活……就像钱钟书先生曾说过:“古典诚然是过去的东西,但是我们的兴趣和研究是现代的。”
AI激活了古籍,也种下热爱古老文化的种子。这些种子不再休眠于古老的地层之下,而是长成我们精神家园里的常青藤。
作者:杨雪
来源:京报网