扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
哈佛燕京图书馆古籍数字化项目通过AI技术抢救13亿字古籍,实现中西文献合璧,延续洪业"索引为古籍之钥"的理念,推动知识共享与学术民主化。 --- ## 1. 百年文献合璧的数字化重生 - 哈佛燕京图书馆将7000部珍贵古籍数字化,包含宋元善本、明清禁书等孤本,地方志藏量占中国大陆现存39%。 - 通过"识典古籍"平台免费开放,实现1928年"文献双生"制度中断后的跨世纪弥合,高清影像与学者校勘痕迹首次完整回归中文世界。 ## 2. 洪业索引体系的现代传承 - 洪业创立的"引得编纂处"累计出版64种81册索引,建立中国首个现代学术检索系统,提出"索引是古籍之钥"的核心理论。 - 其《引得说》获法兰西儒莲奖,索引体系使学术讨论必须"就章有据",推动中国学术从印象式转述转向可验证的数据逻辑。 ## 3. AI+众包革新古籍整理效率 - "我用AI校古籍"项目动员3.4万人,OCR识别准确率超96%,13亿字校勘工作量仅用数月完成,效率较传统方法提升20倍。 - 华东师大博士生刘帅三个月完成191种古籍(500万字)校点,AI标记疑难字功能大幅降低专业门槛,形成"智能初审-大众校对-专家终审"流水线。 ## 4. 从学术殿堂到公众参与的范式转变 - 机场调度员九衛等普通志愿者通过平台参与校勘,发现历代传抄错误,贡献超1000小时者可获"金典典"奖杯(已有50人达成)。 - 平台设计拼图式冰箱贴等激励机制,将洪业"知识作为公共基础设施"的愿景落地,使古籍整理从学者书斋走向协作型文化运动。 ## 5. 技术复归学术原点的深层意义 - AI并非取代学术,而是回归洪业"可检、可证、可继"三原则:数据库延续手写卡片功能,智能检索复现引得体系的知识重组逻辑。 - 当前98%的命名实体识别准确率,使《永乐大典》等珍本从"束之高阁"变为可检索、可验证的活态文化遗产。
2025-12-29 09:08

第一批用AI“偷懒”的人,抢救了13亿字古籍

本文来自微信公众号: 凤凰WEEKLY ,作者:何伟,编辑:刘暮,原文标题:《第一批用AI「偷懒」的人,抢救了13亿字古籍》


近期,哈佛燕京图书馆的古籍珍藏在“识典古籍”平台上线。在这批海量数据中,人们得以一睹宋刻《十诵律》、元刻《隋书》、明抄《永乐大典》、清抄《杜诗》等稀世典籍的高清书影,还能检索到齐思和、顾颉刚、容庚、郑德坤等学者留下的校勘痕迹与研究路径。


哈佛燕京图书馆素以馆藏丰富、孤本众多闻名,现藏古籍总数达13300余部(约15万册),包含宋元明清各代刻本及稿抄本。其中,善本数量约4000部,学术价值极高。


馆藏的一大亮点是地方志与丛书:3000余部方志约占中国大陆现存总量的39%,1400余部丛书则涵盖了半部《中国丛书综录》。此外,馆内还珍藏有《永乐大典》两卷、毛氏汲古阁抄本以及大量明清禁书,皆为难得一见的文献珍品。


这批数据的上线,不仅实现了中西文献资源的合璧,更让这笔知识遗产以最高清、最完整的姿态重回中文世界的视野。


为了让这些沉睡的古籍真正活起来,2024年,由全国高等院校古籍整理研究工作委员会、字节跳动公益与北大数字人文中心联合发起“我用AI校古籍”行动。依托技术与平台的力量,将哈佛燕京图书馆7000部珍贵古籍转化为可检索的数字资源,免费向公众开放。


这一盛大的古籍数字化工程背后,是一段跨越百年的学术因缘。2023年,哈佛燕京馆方将全部善本影像无偿捐赠给北大图书馆。而这一举动,是上世纪二十年代“文献双生”制度的跨时空回响。


1928年,燕京大学与哈佛燕京图书馆之间建立了一项特殊的藏书机制:凡由学社经费购置的中文文献皆一式两份,一份留存燕京,一份寄送哈佛。同时,双方藏书建设分工鲜明:燕京侧重西文参考书、西方汉学著作和近代期刊,哈佛则侧重宋元善本、罕见稿本和地方志,以此实现中西文献资源的互补。


遗憾的是,随着战火燃起,这座跨越太平洋的学术之桥一度中断。诸多版本精良的古籍善本,带着未竟的学术使命,留在了大洋彼岸。直到今天,通过数字化的方式,这段跨越百年的裂隙才得以弥合。


然而,单纯的“文献合璧”并不是终点,如何让这浩如烟海的史料真正为人所用,才是更深层的命题。在这个意义上,“识典古籍”平台上所能检索到的每一段文字、每一个条目,不仅是数据的展示,也在赓续着一条更古老、更具奠基意义的学术脉络——“索引”的传统。它让浩瀚如海的典籍可检、可证,让知识从分散的卷帙中焕发新生。


而在中国近现代学术史上,第一个以系统、严谨的方式为古籍建立现代索引体系的人,正是当年推动“文献双生”制度的洪业。他提出:“索引,是古籍之钥”。


洪业,1893年生于福州。青年时期,他远赴美国求学,先后在哥伦比亚大学等学府深造。1922年,洪业受校长司徒雷登邀请,回国担任燕京大学历史学助理教授。


当时的燕京大学,正如彼时中国的学术界:设备简陋,师资匮乏。图书馆除四书五经外,学术参考书寥寥无几。


洪业深感燕京大学需要大量基本参考书而没钱买,便向美国友人募集资金,又争取女院及霍尔遗产的资助,加上校长司徒雷登筹款,燕京图书馆藏书量迅速增长,成为当时全国最完善的学术图书馆之一。


然而,比起购书,洪业更关注知识体系的重建。当时,洪业放眼北京,京师图书馆和琉璃厂的旧书店藏书虽多,但缺乏系统编排,难以查阅。他意识到,如果知识如同散落的珍珠般无法被串联和利用,学术的进步将受到阻碍。他开始思考一个更关键的问题:应该如何把中国古人积累的知识组合起来,让未来的科学家、历史学家能够轻易索取?


他通过各种检字方法,做了几千张卡片,创立了“中国字庋撷法”(“庋撷(guǐxié)”取“放进、抽出”之意)。这套方法不是简单的查字法,而是洪业将西方现代信息科学理念与中国古典文献学结合的产物。


1928年,哈佛燕京学社在美国成立,洪业被聘为学社中国区的主要执行人。他在北平创立“引得编纂处”,并参照哈佛大学图书馆的工作流程,制定了一套严苛的编纂制度:卡片统一规格、编纂校对分离、设互校、复审与排印三道工序。他强调,编纂并非抄录,而是一种“整理学的训练”,要求学者在摘引时具备高度的判断力与准确度。


洪业在《引得编纂计划书》中写下:“凡学术之进步,必赖材料之可检。材料可检,则学术可积。”至今仍被视为中国现代目录学与信息学的思想源头。


洪业的工作并不局限在书斋。他在图书馆制度、课程设置、人才培养等方面也有深度参与:他要求后辈“头脑清楚且独立”,重视外语能力与版本意识;对可造之才,推荐出国深造、再回国主持学科。许多后来在考古、历史、语文学领域卓有成就的学人,都受过这套“引得式训练”。在编撰索引之余,洪业与同事推动了燕京与哈佛之间藏书的互补与共享,使“文献双生”的理念真正落地。


自1930年起,《引得丛刊》出版,累计达64种81册,涵盖经史子集,如《周易》《礼记》《杜诗》等。洪业将自己的理论与经验汇集成专著《引得说》,系统阐述索引理论。他凭借《礼记引得序》厘清两汉礼学渊源,于1937年获得了法兰西儒莲奖(Prix Stanislas Julien)。


抗战胜利后,洪业赴美,担任哈佛燕京学社秘书,兼任讲学与出版策划工作。


1946年,洪业自美国回国,辞去燕京大学行政职务,重建引得编纂处。此后十年,是他学术生涯的第二个高峰。1946至1956年间,他与团队完成了《二十四史引得》《资治通鉴引得》《汉书引得》等大型索引,又陆续推出地名、人名、制度等专题索引,出版总数逾三十种、八十余册,几乎覆盖经、史、子、集诸部,成为20世纪上半叶中国文献学史上最系统的工具书系列。每一部《引得》收录十万至二十万条索引,洪业与同事以手抄卡片记录字词、页码与出处。


这些在常人眼中繁琐的劳动,却在当时搭建起了中国近代学术体系中最早的“数据逻辑”。


这些书的直接影响,是让讨论必须“就章有据”,不再停留于印象式转述;更长远的价值,则是把“可检索、可验证、可复用”变成学术交流的基础。洪业常说:“引得不是结论,是入口。”有了这入口,后来的研究者才能沿着清晰的坐标回到原典,完成比对与复演。


《哈佛亚洲学报》刊登了洪业的著作表,列出他在这一时期完成的四十一种学术成果,其中大多为中文,也有英文著作。可以说,洪业创办的引得编纂体系,是二十世纪上半叶研究中国文化最重要的一系列参考书——它以现代方法重新整理古籍,用索引重建了学术秩序。自此之后,讨论中国人物、典章与制度,不能再含糊带过,必须指明出处;而那些历经千百年沉积的语义与史实,也因“引得”而逐渐澄明,“历史真理”的标准被重新提升。


洪业在学社年报中提出“引得编纂处经验应为中西目录学互通之范”,强调“标准化与国际合作的重要性”。他认为,学术必须被视为“公共基础设施”,不是某个学者的个人事业,而是社会应共同维护的知识系统。他多次在报告中指出:“学问若失其证据,终将沦为意见之争。”


值得庆幸的是,洪业“共同维护”与“保留学问证据”的理念,在今天得以延续。


2022年,字节跳动公益与北京大学数字人文研究中心共建“北京大学——字节跳动数字人文开放实验室”,新一轮古籍数字化合作从这里启动。同年10月,“识典古籍”平台上线,整合古籍影像、文本与智能检索工具,成为国内首个覆盖古籍整理全流程的开放系统,正是延续了洪业倡导的“可检索、可验证、可复用”。


截至目前,平台已收录四万三千余部古籍,支持全文检索、注释、标点与比对,让古籍从“束之高阁”真正走向公众。


2024年,“我用AI校古籍”项目启动。三万四千名高校师生与社会志愿者参与OCR识别与校勘,累计整理古籍一万九千余部,修订文本超十三亿字。他们在AI识别的基础上逐字比对、补录残缺,使洪业当年的“整理学训练”以新的方式传承下来。


AI改变了工作流程,让古籍整理的门槛大幅降低。一部传统古籍需要几个月才能整理完成,而现在只要几周时间。


华东师范大学古典文献学博士生刘帅便是一个典型案例。刘帅曾对古籍整理软件颇为怀疑。然而,2024年9月,他听说“我是‘校书官’”项目,一个月便整理出五千多万字的古籍,感到震惊:“我之前一年能整理几十万字就很了不起了。”


使用识典古籍,勘校速度的提升十分惊人:刘帅头一个月初步整理出200万字的古籍,这是他过去速度的20倍。接下来的三个月里,他校点、标注、排版、审阅的书目达到191种,总字数超500万。刘帅说:“AI在阅读大量人类成果后,对古文具备了相当的‘语感’。”


这种效率的飞跃,源于技术的更新迭代。


目前,平台文字识别准确率超96%,自动标点准确率达94%,命名实体识别(人名、地名、职官)接近98%。AI会用不同颜色标记识别不确定的“疑难字”,提示志愿者对照底本进行修改。


北京大学数字人文中心副主任杨浩指出,现在有了机器学习,AI先初步整理古籍,逐字校对,再由大众志愿者来校对,最后把难点提交给专家。“AI改变了工作流程,分包制度降低了门槛,传统的手工作坊变成流水线工厂了。”


不只是专家学者,普通人同样可以在古籍校对中做出贡献。


九衛是一位机场的调度员。白天,他在机场做安全调度,到了夜晚便走进书房,一头扎进古籍。他从小热爱古籍,虽然听从家人建议选了民航运输专业,但一直没有放弃自己的爱好。成为“校书官”后,他对着古本核对,发现古籍中有些错字代代相传。能揪出这些错误,让他很有成就感。在识典古籍这个精神世界中,九衛得以将世俗压力抛之脑后。同时,在完成多项古籍校勘任务后,他加入了“进阶组”,可以和专家学者们一起探讨、校正。


“识典古籍”以“智能+众包”的模式,使古籍整理从孤立的学者书斋,转化为可协作的公共行动,真正实现了洪业“共同维护知识系统”的理想。


为了激发公众持续的参与热情,平台设计了一套激励机制:志愿者可通过校对贡献,领取不同等级的奖励。前期的奖励是可拼在一起的冰箱贴,象征着知识的累积和协作。最高的荣誉,则是被称为“金典典”的奖杯——贡献需投入1000小时以上。这样高的要求,还是有50人完成了任务。同时,每一个参与校正的人,都会在识典古籍中留下自己的名字。这种将贡献度与奖品挂钩的设计,成功将严谨的学术工作,转变为一场每个人都能参与的文化活动。


〓根据不同勘校贡献度可领取不同奖励


如果说洪业当年的“引得编纂处”,是学者以笔为器、以纸为田的工坊,那么今天的数字平台,正是对这种精神的现代化延续。不同的是,昔日十余人伏案抄录,如今,数万名志愿者与AI模型并肩完成同样的工作。


在这条从纸端到云端的道路上,技术并未取代学术,而是回到了洪业的原点——让知识能够被检、被证、被继。


1979年秋,洪业去世前一年,他与几位老友聚谈,提起故人,他叹道:“过世了,都过世了。杜甫有句诗说,访旧半为鬼,我现在是相知多为鬼。”朋友笑着说:“咱们也老了。”洪业答:“不久都过去了。”


但一切并没有过去。那些他写下的一张张卡片,如今化为数据库里的索引,那些散佚残缺的典籍,在无数人手中被重新点亮。学术的传承不仅只是专家的工作,而是依靠系统的可证与众人的协作——没有仪式,也不喧哗,它只是在人与古籍之间,静静地延续。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: