第一批用AI“偷懒”的人，抢救了13亿字古籍-虎嗅网

本文来自微信公众号：凤凰WEEKLY ，作者：何伟，编辑：刘暮，原文标题：《第一批用AI「偷懒」的人，抢救了13亿字古籍》

近期，哈佛燕京图书馆的古籍珍藏在“识典古籍”平台上线。在这批海量数据中，人们得以一睹宋刻《十诵律》、元刻《隋书》、明抄《永乐大典》、清抄《杜诗》等稀世典籍的高清书影，还能检索到齐思和、顾颉刚、容庚、郑德坤等学者留下的校勘痕迹与研究路径。

哈佛燕京图书馆素以馆藏丰富、孤本众多闻名，现藏古籍总数达13300余部（约15万册），包含宋元明清各代刻本及稿抄本。其中，善本数量约4000部，学术价值极高。

馆藏的一大亮点是地方志与丛书：3000余部方志约占中国大陆现存总量的39%，1400余部丛书则涵盖了半部《中国丛书综录》。此外，馆内还珍藏有《永乐大典》两卷、毛氏汲古阁抄本以及大量明清禁书，皆为难得一见的文献珍品。

这批数据的上线，不仅实现了中西文献资源的合璧，更让这笔知识遗产以最高清、最完整的姿态重回中文世界的视野。

为了让这些沉睡的古籍真正活起来，2024年，由全国高等院校古籍整理研究工作委员会、字节跳动公益与北大数字人文中心联合发起“我用AI校古籍”行动。依托技术与平台的力量，将哈佛燕京图书馆7000部珍贵古籍转化为可检索的数字资源，免费向公众开放。

这一盛大的古籍数字化工程背后，是一段跨越百年的学术因缘。2023年，哈佛燕京馆方将全部善本影像无偿捐赠给北大图书馆。而这一举动，是上世纪二十年代“文献双生”制度的跨时空回响。

1928年，燕京大学与哈佛燕京图书馆之间建立了一项特殊的藏书机制：凡由学社经费购置的中文文献皆一式两份，一份留存燕京，一份寄送哈佛。同时，双方藏书建设分工鲜明：燕京侧重西文参考书、西方汉学著作和近代期刊，哈佛则侧重宋元善本、罕见稿本和地方志，以此实现中西文献资源的互补。

遗憾的是，随着战火燃起，这座跨越太平洋的学术之桥一度中断。诸多版本精良的古籍善本，带着未竟的学术使命，留在了大洋彼岸。直到今天，通过数字化的方式，这段跨越百年的裂隙才得以弥合。

然而，单纯的“文献合璧”并不是终点，如何让这浩如烟海的史料真正为人所用，才是更深层的命题。在这个意义上，“识典古籍”平台上所能检索到的每一段文字、每一个条目，不仅是数据的展示，也在赓续着一条更古老、更具奠基意义的学术脉络——“索引”的传统。它让浩瀚如海的典籍可检、可证，让知识从分散的卷帙中焕发新生。

而在中国近现代学术史上，第一个以系统、严谨的方式为古籍建立现代索引体系的人，正是当年推动“文献双生”制度的洪业。他提出：“索引，是古籍之钥”。

洪业，1893年生于福州。青年时期，他远赴美国求学，先后在哥伦比亚大学等学府深造。1922年，洪业受校长司徒雷登邀请，回国担任燕京大学历史学助理教授。

当时的燕京大学，正如彼时中国的学术界：设备简陋，师资匮乏。图书馆除四书五经外，学术参考书寥寥无几。

洪业深感燕京大学需要大量基本参考书而没钱买，便向美国友人募集资金，又争取女院及霍尔遗产的资助，加上校长司徒雷登筹款，燕京图书馆藏书量迅速增长，成为当时全国最完善的学术图书馆之一。

然而，比起购书，洪业更关注知识体系的重建。当时，洪业放眼北京，京师图书馆和琉璃厂的旧书店藏书虽多，但缺乏系统编排，难以查阅。他意识到，如果知识如同散落的珍珠般无法被串联和利用，学术的进步将受到阻碍。他开始思考一个更关键的问题：应该如何把中国古人积累的知识组合起来，让未来的科学家、历史学家能够轻易索取？

他通过各种检字方法，做了几千张卡片，创立了“中国字庋撷法”（“庋撷（guǐxié）”取“放进、抽出”之意）。这套方法不是简单的查字法，而是洪业将西方现代信息科学理念与中国古典文献学结合的产物。

1928年，哈佛燕京学社在美国成立，洪业被聘为学社中国区的主要执行人。他在北平创立“引得编纂处”，并参照哈佛大学图书馆的工作流程，制定了一套严苛的编纂制度：卡片统一规格、编纂校对分离、设互校、复审与排印三道工序。他强调，编纂并非抄录，而是一种“整理学的训练”，要求学者在摘引时具备高度的判断力与准确度。

洪业在《引得编纂计划书》中写下：“凡学术之进步，必赖材料之可检。材料可检，则学术可积。”至今仍被视为中国现代目录学与信息学的思想源头。

洪业的工作并不局限在书斋。他在图书馆制度、课程设置、人才培养等方面也有深度参与：他要求后辈“头脑清楚且独立”，重视外语能力与版本意识；对可造之才，推荐出国深造、再回国主持学科。许多后来在考古、历史、语文学领域卓有成就的学人，都受过这套“引得式训练”。在编撰索引之余，洪业与同事推动了燕京与哈佛之间藏书的互补与共享，使“文献双生”的理念真正落地。

自1930年起，《引得丛刊》出版，累计达64种81册，涵盖经史子集，如《周易》《礼记》《杜诗》等。洪业将自己的理论与经验汇集成专著《引得说》，系统阐述索引理论。他凭借《礼记引得序》厘清两汉礼学渊源，于1937年获得了法兰西儒莲奖（Prix Stanislas Julien）。

抗战胜利后，洪业赴美，担任哈佛燕京学社秘书，兼任讲学与出版策划工作。

1946年，洪业自美国回国，辞去燕京大学行政职务，重建引得编纂处。此后十年，是他学术生涯的第二个高峰。1946至1956年间，他与团队完成了《二十四史引得》《资治通鉴引得》《汉书引得》等大型索引，又陆续推出地名、人名、制度等专题索引，出版总数逾三十种、八十余册，几乎覆盖经、史、子、集诸部，成为20世纪上半叶中国文献学史上最系统的工具书系列。每一部《引得》收录十万至二十万条索引，洪业与同事以手抄卡片记录字词、页码与出处。

这些在常人眼中繁琐的劳动，却在当时搭建起了中国近代学术体系中最早的“数据逻辑”。

这些书的直接影响，是让讨论必须“就章有据”，不再停留于印象式转述；更长远的价值，则是把“可检索、可验证、可复用”变成学术交流的基础。洪业常说：“引得不是结论，是入口。”有了这入口，后来的研究者才能沿着清晰的坐标回到原典，完成比对与复演。

《哈佛亚洲学报》刊登了洪业的著作表，列出他在这一时期完成的四十一种学术成果，其中大多为中文，也有英文著作。可以说，洪业创办的引得编纂体系，是二十世纪上半叶研究中国文化最重要的一系列参考书——它以现代方法重新整理古籍，用索引重建了学术秩序。自此之后，讨论中国人物、典章与制度，不能再含糊带过，必须指明出处；而那些历经千百年沉积的语义与史实，也因“引得”而逐渐澄明，“历史真理”的标准被重新提升。

洪业在学社年报中提出“引得编纂处经验应为中西目录学互通之范”，强调“标准化与国际合作的重要性”。他认为，学术必须被视为“公共基础设施”，不是某个学者的个人事业，而是社会应共同维护的知识系统。他多次在报告中指出：“学问若失其证据，终将沦为意见之争。”

值得庆幸的是，洪业“共同维护”与“保留学问证据”的理念，在今天得以延续。

2022年，字节跳动公益与北京大学数字人文研究中心共建“北京大学——字节跳动数字人文开放实验室”，新一轮古籍数字化合作从这里启动。同年10月，“识典古籍”平台上线，整合古籍影像、文本与智能检索工具，成为国内首个覆盖古籍整理全流程的开放系统，正是延续了洪业倡导的“可检索、可验证、可复用”。

截至目前，平台已收录四万三千余部古籍，支持全文检索、注释、标点与比对，让古籍从“束之高阁”真正走向公众。

2024年，“我用AI校古籍”项目启动。三万四千名高校师生与社会志愿者参与OCR识别与校勘，累计整理古籍一万九千余部，修订文本超十三亿字。他们在AI识别的基础上逐字比对、补录残缺，使洪业当年的“整理学训练”以新的方式传承下来。

AI改变了工作流程，让古籍整理的门槛大幅降低。一部传统古籍需要几个月才能整理完成，而现在只要几周时间。

华东师范大学古典文献学博士生刘帅便是一个典型案例。刘帅曾对古籍整理软件颇为怀疑。然而，2024年9月，他听说“我是‘校书官’”项目，一个月便整理出五千多万字的古籍，感到震惊：“我之前一年能整理几十万字就很了不起了。”

使用识典古籍，勘校速度的提升十分惊人：刘帅头一个月初步整理出200万字的古籍，这是他过去速度的20倍。接下来的三个月里，他校点、标注、排版、审阅的书目达到191种，总字数超500万。刘帅说：“AI在阅读大量人类成果后，对古文具备了相当的‘语感’。”

这种效率的飞跃，源于技术的更新迭代。

目前，平台文字识别准确率超96%，自动标点准确率达94%，命名实体识别（人名、地名、职官）接近98%。AI会用不同颜色标记识别不确定的“疑难字”，提示志愿者对照底本进行修改。

北京大学数字人文中心副主任杨浩指出，现在有了机器学习，AI先初步整理古籍，逐字校对，再由大众志愿者来校对，最后把难点提交给专家。“AI改变了工作流程，分包制度降低了门槛，传统的手工作坊变成流水线工厂了。”

不只是专家学者，普通人同样可以在古籍校对中做出贡献。

九衛是一位机场的调度员。白天，他在机场做安全调度，到了夜晚便走进书房，一头扎进古籍。他从小热爱古籍，虽然听从家人建议选了民航运输专业，但一直没有放弃自己的爱好。成为“校书官”后，他对着古本核对，发现古籍中有些错字代代相传。能揪出这些错误，让他很有成就感。在识典古籍这个精神世界中，九衛得以将世俗压力抛之脑后。同时，在完成多项古籍校勘任务后，他加入了“进阶组”，可以和专家学者们一起探讨、校正。

“识典古籍”以“智能+众包”的模式，使古籍整理从孤立的学者书斋，转化为可协作的公共行动，真正实现了洪业“共同维护知识系统”的理想。

为了激发公众持续的参与热情，平台设计了一套激励机制：志愿者可通过校对贡献，领取不同等级的奖励。前期的奖励是可拼在一起的冰箱贴，象征着知识的累积和协作。最高的荣誉，则是被称为“金典典”的奖杯——贡献需投入1000小时以上。这样高的要求，还是有50人完成了任务。同时，每一个参与校正的人，都会在识典古籍中留下自己的名字。这种将贡献度与奖品挂钩的设计，成功将严谨的学术工作，转变为一场每个人都能参与的文化活动。

〓根据不同勘校贡献度可领取不同奖励

如果说洪业当年的“引得编纂处”，是学者以笔为器、以纸为田的工坊，那么今天的数字平台，正是对这种精神的现代化延续。不同的是，昔日十余人伏案抄录，如今，数万名志愿者与AI模型并肩完成同样的工作。

在这条从纸端到云端的道路上，技术并未取代学术，而是回到了洪业的原点——让知识能够被检、被证、被继。

1979年秋，洪业去世前一年，他与几位老友聚谈，提起故人，他叹道：“过世了，都过世了。杜甫有句诗说，访旧半为鬼，我现在是相知多为鬼。”朋友笑着说：“咱们也老了。”洪业答：“不久都过去了。”

但一切并没有过去。那些他写下的一张张卡片，如今化为数据库里的索引，那些散佚残缺的典籍，在无数人手中被重新点亮。学术的传承不仅只是专家的工作，而是依靠系统的可证与众人的协作——没有仪式，也不喧哗，它只是在人与古籍之间，静静地延续。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

第一批用AI“偷懒”的人，抢救了13亿字古籍

大 家 都 在 搜

大家都在搜