中国古籍离家百年被AI找回，当初是如何流失的？

栏目：古籍资讯发布：2023-11-01浏览：3收藏

中国古籍离家百年被AI找回，当初是如何流失的？,第1张

我国作为拥有五千年文化的文明古国，从殷墟甲骨、敦煌遗书、西夏文献等等，无论提到哪一件中国的传统文化古籍都是让人羡慕无比的瑰宝。

当阿里达摩院利用数字化技术，在四川大学的文史专家们的牵线搭桥下。终于在汉典重光平台上回归了首批数字化的古籍，包含40余种宋元刻本、写本，共有20万页。让我们不禁看到了新的希望。

我国古籍流失最严重是主要原因是战乱。当时许多所谓的外国科考队趁着混乱的局势，肆无忌惮的盗挖、偷运、走私、贸易。导致殷墟甲骨、敦煌遗书、西夏文献等众多古籍珍本纷纷流落海外。更有甚者连流落何方都无从得知。让国人为此感到心痛不已。

而在全球许多博物馆内都可以看见这些中国古籍的身影。让我国著名学者郑振铎曾经发出无奈的感慨：“史在他邦，文归海外”。国家政府对这些流失海外的古籍也极其高度重视，但是在国际环境影响下，我国想要全部追回这些古籍原件的难度非常大。有很多时候也是凭着爱国人士的一腔热忱通过拍卖、捐赠等方式让古籍回家。

这些古籍都是我们五千年文明的历史见证，是我国发展的历史载体。对我们国家的历史发展研究提供了更详尽清楚的路径。为了避免这些古籍再次流失遭受毁坏。我国许多地方都成立了专门的古籍保护研究院，除了运用传统的修补技艺来修补受损的古籍外。还通过数字化这种科学技术让这些珍贵的古籍得到长久的保存。每一本能传承至今的古籍都是无数前人耗费心血或牺牲生命保留下来的，而我们必须更好的将这些传承给后世子孙们。

海外古籍数字化回归：如何做到“为天下人所用”？

南方周末

原创

2021-6-2 00:09 · 《南方周末》官方账号

陈力和何梦超讨论古籍数字化方法。（达摩院供图/图）

流散海外八十多年后，文澜阁本《四库全书》中的《宋百家诗存》重现大众视野。

在扫描影像中，这本中国古籍上的水浸、虫噬、霉变历历可见，每一处都是历史的风霜。1790年左右，《宋百家诗存》随《四库全书》入藏杭州文澜阁，清咸丰年间在太平军入杭后散失，1861年左右被嘉业堂收藏。抗战时期，部分嘉业堂藏书流落到了上海，可能被日本人收购，并于1949年辗转到了美国，如今藏于加州大学伯克利分校东亚图书馆。

东亚图书馆收藏了大量中国古籍善本，截至2021年5月18日，其中二十万页被扫描影像、读取文字，以数字化形式回归祖国。

这是海外古籍回归项目“汉典重光”的成果之一。这批数字化古籍善本中既有宋元本，也有明清至民国时期著名学者的稿本、抄本，其中一些是以前很少有人见过的珍贵藏本，比如清文澜阁本《宋百家诗存》。

古籍流散海外的原因多种多样，实体回归几乎是不可能的，比较可行的办法是数字化回归。

此前的古籍数字化平台，大多是展示扫描后的古籍，读者只能在这些平台阅读，无法就书中内容进行检索分析。此次汉典重光的数字化团队不仅将古籍扫描，还将扫描下来的识别转化成了电子文字。搜索某一字词，可以跳转到字词所在书本的具体章节段落。

这些古籍资源将向公众免费开放。阿里达摩院院长张建锋表示，汉典重光古籍数字化平台将被捐赠给权威公共机构长期运营。

“让蒙尘的古籍重焕新生”

四川大学历史文化学院教授陈力是汉典重光项目的古籍专家。陈力的父亲是教历史的，1977年，陈力作为恢复高考的第一届考生，填报的所有志愿都与历史、中文、图书馆相关，最后被省内第一志愿四川大学历史系录取，从此“一辈子都在做这个”，对古籍积累下一份深厚的感情。

在汉典重光项目之前，陈力已经参与过古籍数字化项目。他曾经在国家图书馆工作18年，其中一半的时间分管古籍，经手过哈佛大学燕京图书馆的一个古籍数字化回归项目。2009年，燕京图书馆馆长郑炯文专门从美国飞到中国商量相关事宜，目录都筛选完成了，也做完了一部分书的扫描，但项目最终因为资金、技术等没能达到预期而搁浅。

这次未竟的合作在某种程度上成为汉典重光项目的起源。在哈佛大学访问期间，高晓

5月18日，一批珍藏于加州大学伯克利分校的中文古籍善本，以数字化方式回归故土，落地汉典重光古籍平台。借助阿里达摩院的技术，首批20万页古籍已完成数字化，并沉淀为覆盖3万多字的古籍字典，公众可通过汉典重光平台翻阅、检索古籍。据悉，达摩院AI对20万页古籍的识别准确率达到975%。

百度AI在国内属于什么水平？

绝对是一个第一流的前三名啊，这是一点问题没有的。不是传统的这个搜索，现在基本上来讲就是两大块。无人车也是挂在这个人工智能里头的，它剩下的那些边缘的东西基本上都砍掉了，这个公司的市值和你这个公司本身的这个技术水准其实未必是直线挂钩的，尤其是在中国这个市场，你这一个公司说白了，你这个业务线越多，你干的事业部越多，那你表面上，你的这个产值就高，用户人群也高，你不聚焦呀，然后你赶上现在红利期的时候，表面上觉得轰轰烈烈，但是一旦非红利期的时候不就不行了吗？

我国AI发展到什么程度了？

这几年AI企业爆发式增长，具体查查数据显示18年新增的AI企业比17年翻了一倍，达到了19,000家。19年比18年增长了70%达到了3万家，2020年上半年AI企业的数量突破了56万家。这背后AI正在下沉，沉到各行各业，成为传统生产力的一部分。为什么AI公司数量还在爆发式增长，因为现在大量的AI公司其实并不是受投资人追捧，有团队有技术的AI公司，他们更多是深入到各行各业，甚至有可能成为一些人眼里的伪AI公司，他们可能不掌握核心技术，重点是做服务搞商业。但伪AI公司的涌现正在说明在某些方面AI技术的门槛已在降低，基础已经建设到了一定程度。“旧时王谢堂前燕”的AI技术已成为标签元素，进入到了各种寻常百姓家。

中国AI在医疗方面优势巨大。

如今AI进到生物化学，药学，病理学，在这个医疗方面我觉得真的是开启了一个新的时代，在这一块我认为中国有巨大的优势，一种是它的新举国体制，而且他需要调动很多资源，比如说它的临床研究啊，那些医生医学，那需要原来做制药的公司也进来，基因测序的这些公司也进来，然后原来生物化学那些专家也进来，然后ai的人再进来。很少见全世界现在有哪个国家或哪个地方能够有这样的一个能力去调动这些资源，那我是看到中国的确有这样的一个能力，这个能力可能啊，我觉得我们有可能在这个领域可能比美国还要先进。我认为10年时间啊，有可能我们会走美国前面。

这些珍藏在加州伯克利分校的中国古籍之所以能以数字化的方式成功回归，一方面有赖于四川大学教授陈力的奔走联系，另一方面有赖于阿里达摩院技术团队与四川大学专家联手研发的针对古籍识别的Ai系统。

近日，20万页的中国古籍以数字化的形式从加州伯克利分校回归的消息激动人心，根据相关媒体的报道，此次古籍的回归实属不易，其背后有四川大学教授陈力这位63岁的老人长达两年的奔走联系，也有阿里达摩院技术团队与四川大学专家利用先进的机器学习方法研发出超高准确率的古籍识别系统，个人认为，古籍是中国文化中一笔宝贵的财富，此次回归的古籍补充了中国文化的一块空白，应该被好好珍惜。

陈力教授前后联系奔走两年

四川大学教授陈力先生一辈子都在与古籍打交道，许多年来不论岗位如何变迁，一直心系古籍的保护和传承，而正是源于这份发自内心的坚持，这位63岁的老人忘我地前往加州伯克利分校奔走联系长达两年，最终促使20万页的中国古籍回归祖国。

Ai识别系统准确率高达975%

在此次的古籍回归中，先进的Ai识别系统扮演着重要的角色，据了解，该系统是由阿里达摩院技术团队与四川大学专家联手研发，他们针对古籍识别的特点利用先进的机器学习设计了一套边识别古籍、边训练模型的系统，而最终成型的系统准确率高达975%。

古籍是中国文化的一笔财富

许多年前，大量的中国古籍由于各种原因流失到了海外，中国文化因此缺失了宝贵的一部分，此次回归的20万页的中国古籍，填补了中国文化曾经被撕裂开的伤痕，是中国文化的一笔宝贵的财富。

相信很多朋友在这段时间已经看到过一则非常让人震惊的消息，那就是在5月18日的时候，20万页的古籍以数字化的方式回归到了我们的眼前。这让很多网友在表示非常震惊的时候也表示非常的疑惑，究竟这群专家是用怎样的方式来做到这样的地步的，下面小编就带领大家来看一下。

根据网络上相关的信息表明，在世界博物馆日的这一天，海外古籍数字化回归发布会，在中国的科技馆直接进行了相关的发布会。一大批珍藏于加州大学伯克利分校的中文古籍善本以数字化的方式回归到了自己的家乡，并且直接落地在了这样的平台之上。我们可以看到的是首批20万页古籍首先回归到自己的家乡里面，并且通过这样的方式以后可以方便更多的人来去检索和查询这样的书籍。

而在这一切的最后的最大的功臣就是一位七旬的老人。这位老人家就是中央文史馆馆员，四川大学的教授成陈立，这位老人家花费了两年的时间，并且直接奔走联系了加州的大学伯克利分校，希望你用现代化的技术，能够让收藏在这所学校的中文古籍得到相关的修复，并且能够以数字化的方式回归到自己的本土里面。所以这才有我们所看到的一面，才能够最终看到有四十多种宋元真本向公众开放。才能让这一批流失在外面的书籍最终回到自己的家乡，这对我们来说是非常重要的。

通过这样的技术，能够将这些古籍回归到自己的家乡，我觉得是非常了不起的，也是非常的去佩服的。也很佩服这些技术团队和专家，能够联手开发这样的系统识别，这不仅仅是对这批古籍有着非常好的作用，对于以后流失在外国的相关的书籍也有着非常强大的作用。

小编认为这是我国时代进步的结果，同时也表明了我国科技发展在图书管理方面的应用。近期我国古代书籍管理方面有了更新的进展。四川大学联合达摩学院开发了一套古书籍识别系统。这个系统的成功运行直接可以帮助中国找到所有流散在海外的古籍。这个系统的具体工作原理下面小编就和大家一起来聊聊。

一、该系统的文字识别是基于AI技术。

根据专家描述，这个系统是基于AI技术来进行研发，研发的核心就是，他们要整理好所有古籍的字形和字体等，将他们作为基础模型。建立完这些模型库之后就可以运用于实践当中，但是这个项目最大的难点就是收集这些古籍中的字体和字形。

二、该系统已经能识别各种字体和字形的古书。

目前，这个项目已经初见成效。根据专家披露，这个系统已经开始试运行，识别出20万页的古书书籍，同时系统识别出了各种不同的字体和字形，并且准确率高达97%。这个结果也说明这一系统在我国古籍文化方面的运用非常实用。

三、散落在世界各地的古书都可以利用该技术被找回。

根据专家介绍，如今有了这个系统，我国就可以找回很多被遗落在世界各个地方的古典书籍。不用再花费更多的人力和物力去寻找原件，只需要通过网络数字化识别，就能看到古书籍的原貌。

综上所述，从专家的描述，我们能看到这个系统是基于AI识别技术而开发的一个应用系统，它不仅能像我国的文字识别软件一样很快地将古书籍中文字识别并保存。最重要的是在未来这些古书籍还可以和大众见面，让普通老百姓都能看到真正的古籍。这是一项非常进步的科技，也在我国古代文化的传承和宣传中起了很大的作用。不知奥你怎么看待这件事？欢迎评论。