中国古籍离家百年被AI找回,这是怎么做到的?

栏目:古籍资讯发布:2023-08-09浏览:2收藏

中国古籍离家百年被AI找回,这是怎么做到的?,第1张

相信很多朋友在这段时间已经看到过一则非常让人震惊的消息,那就是在5月18日的时候,20万页的古籍以数字化的方式回归到了我们的眼前。这让很多网友在表示非常震惊的时候也表示非常的疑惑,究竟这群专家是用怎样的方式来做到这样的地步的,下面小编就带领大家来看一下。

根据网络上相关的信息表明,在世界博物馆日的这一天,海外古籍数字化回归发布会,在中国的科技馆直接进行了相关的发布会。一大批珍藏于加州大学伯克利分校的中文古籍善本以数字化的方式回归到了自己的家乡,并且直接落地在了这样的平台之上。我们可以看到的是首批20万页古籍首先回归到自己的家乡里面,并且通过这样的方式以后可以方便更多的人来去检索和查询这样的书籍。

而在这一切的最后的最大的功臣就是一位七旬的老人。这位老人家就是中央文史馆馆员,四川大学的教授成陈立,这位老人家花费了两年的时间,并且直接奔走联系了加州的大学伯克利分校,希望你用现代化的技术,能够让收藏在这所学校的中文古籍得到相关的修复,并且能够以数字化的方式回归到自己的本土里面。所以这才有我们所看到的一面,才能够最终看到有四十多种宋元真本向公众开放。才能让这一批流失在外面的书籍最终回到自己的家乡,这对我们来说是非常重要的。

通过这样的技术,能够将这些古籍回归到自己的家乡,我觉得是非常了不起的,也是非常的去佩服的。也很佩服这些技术团队和专家,能够联手开发这样的系统识别,这不仅仅是对这批古籍有着非常好的作用,对于以后流失在外国的相关的书籍也有着非常强大的作用。

特点:

1、纸色苍润,质地坚良,洁白厚实。笺则古香古色,柔韧而极薄,防霉防蛀。

2、墨色香淡,纸上墨色青纯,笺上墨色光泽如漆,虽水润而绝无漂迹。

3、字势生动,字画刻写古雅苍劲,宋刻字体有肥瘦两种。

4、早期宋版大多为白口,墨栏单边,其后双边渐多,分四周双边和左右双边。版心上记载字数、书名、卷第、刊工姓名,书名通常在鱼尾下。行宽字疏,行格多用乌丝栏,行字不等。

5、书中文字大多避皇帝讳,尤其是内府和官府。

海外古籍数字化回归:如何做到“为天下人所用”?

南方周末

原创

2021-6-2 00:09 · 《南方周末》官方账号

陈力和何梦超讨论古籍数字化方法。 (达摩院供图/图)

流散海外八十多年后,文澜阁本《四库全书》中的《宋百家诗存》重现大众视野。

在扫描影像中,这本中国古籍上的水浸、虫噬、霉变历历可见,每一处都是历史的风霜。1790年左右,《宋百家诗存》随《四库全书》入藏杭州文澜阁,清咸丰年间在太平军入杭后散失,1861年左右被嘉业堂收藏。抗战时期,部分嘉业堂藏书流落到了上海,可能被日本人收购,并于1949年辗转到了美国,如今藏于加州大学伯克利分校东亚图书馆。

东亚图书馆收藏了大量中国古籍善本,截至2021年5月18日,其中二十万页被扫描影像、读取文字,以数字化形式回归祖国。

这是海外古籍回归项目“汉典重光”的成果之一。这批数字化古籍善本中既有宋元本,也有明清至民国时期著名学者的稿本、抄本,其中一些是以前很少有人见过的珍贵藏本,比如清文澜阁本《宋百家诗存》。

古籍流散海外的原因多种多样,实体回归几乎是不可能的,比较可行的办法是数字化回归。

此前的古籍数字化平台,大多是展示扫描后的古籍,读者只能在这些平台阅读,无法就书中内容进行检索分析。此次汉典重光的数字化团队不仅将古籍扫描,还将扫描下来的识别转化成了电子文字。搜索某一字词,可以跳转到字词所在书本的具体章节段落。

这些古籍资源将向公众免费开放。阿里达摩院院长张建锋表示,汉典重光古籍数字化平台将被捐赠给权威公共机构长期运营。

“让蒙尘的古籍重焕新生”

四川大学历史文化学院教授陈力是汉典重光项目的古籍专家。陈力的父亲是教历史的,1977年,陈力作为恢复高考的第一届考生,填报的所有志愿都与历史、中文、图书馆相关,最后被省内第一志愿四川大学历史系录取,从此“一辈子都在做这个”,对古籍积累下一份深厚的感情。

在汉典重光项目之前,陈力已经参与过古籍数字化项目。他曾经在国家图书馆工作18年,其中一半的时间分管古籍,经手过哈佛大学燕京图书馆的一个古籍数字化回归项目。2009年,燕京图书馆馆长郑炯文专门从美国飞到中国商量相关事宜,目录都筛选完成了,也做完了一部分书的扫描,但项目最终因为资金、技术等没能达到预期而搁浅。

这次未竟的合作在某种程度上成为汉典重光项目的起源。在哈佛大学访问期间,高晓

1古籍善本异体字识别录入于正形技术。

2基于unicod的ocr中文善本古籍光学字符识别技术。

3古籍善本书籍文献档案全文数字化工程技术。

4古籍文献有的汉字关联的全文检索技术

5古籍文献古籍地名,人名,关联词技术应用。

6生冷僻字显示检索浏览。

7多种形式及内容的保真及还原技术。忠实原文文字版式,随时可切换对应。

8各种数字化产品展现,全文数字化,图文索引,全文本,全图像。

热门文章
    确认删除?
    回到顶部