中国古籍离家百年被Ai找回,这究竟是怎么成功的?

栏目:古籍资讯发布:2023-08-03浏览:4收藏

中国古籍离家百年被Ai找回,这究竟是怎么成功的?,第1张

这些珍藏在加州伯克利分校的中国古籍之所以能以数字化的方式成功回归,一方面有赖于四川大学教授陈力的奔走联系,另一方面有赖于阿里达摩院技术团队与四川大学专家联手研发的针对古籍识别的Ai系统。

近日,20万页的中国古籍以数字化的形式从加州伯克利分校回归的消息激动人心,根据相关媒体的报道,此次古籍的回归实属不易,其背后有四川大学教授陈力这位63岁的老人长达两年的奔走联系,也有阿里达摩院技术团队与四川大学专家利用先进的机器学习方法研发出超高准确率的古籍识别系统,个人认为,古籍是中国文化中一笔宝贵的财富,此次回归的古籍补充了中国文化的一块空白,应该被好好珍惜

陈力教授前后联系奔走两年

四川大学教授陈力先生一辈子都在与古籍打交道,许多年来不论岗位如何变迁,一直心系古籍的保护和传承,而正是源于这份发自内心的坚持,这位63岁的老人忘我地前往加州伯克利分校奔走联系长达两年,最终促使20万页的中国古籍回归祖国。

Ai识别系统准确率高达975% 

在此次的古籍回归中,先进的Ai识别系统扮演着重要的角色,据了解,该系统是由阿里达摩院技术团队与四川大学专家联手研发,他们针对古籍识别的特点利用先进的机器学习设计了一套边识别古籍、边训练模型的系统,而最终成型的系统准确率高达975%。

古籍是中国文化的一笔财富

许多年前,大量的中国古籍由于各种原因流失到了海外,中国文化因此缺失了宝贵的一部分,此次回归的20万页的中国古籍,填补了中国文化曾经被撕裂开的伤痕,是中国文化的一笔宝贵的财富。

可以从纸张的颜色、柔韧度,以及墨色、印痕等来判断。

不过现在作伪书也很多,高手也多,每年的拍场会上假书不断,且有越来越多的趋势。

真要辨别,唯一的路径是多经手,多寓目 。

康熙字典

康熙字典是张玉书、陈廷敬等三十多位著名学者奉康熙皇帝圣旨编撰的一部具有深远影响的汉字辞书。该书的编撰工作始于康熙四十九年(1711),成书于康熙五十五年(1716),历时六年,因此书名叫《康熙字典》。由总纂官张玉书、陈廷敬主持,修纂官凌绍霄、史夔、周起渭、陈世儒等合力完成。字典采用部首分类法,按笔画排列单字,字典全书分为十二集,以十二地支标识,每集又分为上、中、下三卷,共收录汉字47,035个,为汉字研究的主要参考文献之一。

康熙字典共载47,000余字目,书中并按韵母、声调以及音节分类排列韵母表及其对应汉字。

《康熙字典》依据明代《字汇》、《正字通》两书加以增订,成书于康熙五十五年,两书错误之处,《康熙字典》还做过一番“辨疑订讹”的工夫。《康熙字典》有这样三个优点:一、收字相当丰富,共有四万七千零三十五个,在很长一个时期内是我国字数最多的一部字典(直到一九一五年《中华大字典》出版,达四万八千余字,才超过了它)。二、它以二百一十四个部首分类,并注有反切注音、出处、及参考等,差不多把每一个字的不同音切和不同意义都列举进去,可以供使用者检阅。三、除了僻字僻义以外,它又差不多在每字每义下,都举了例子;这些例子又几乎全都是引用了“始见”的古书。

《康熙字典》的版本非常多,有康熙内府刻本,也就是所说的武英殿版本。包括有两种纸本:开化纸和太史连纸两种。康熙内府刻本多是内廷赏赐用的,装订非常豪华,民间很少见到。此外还有道光七年的内府重刊本、其他木刻本,以及清末出现的石印本、铅印本、影印本。清末上海同文书局增篆石印本是发行量最大、最流行的一种版本。康熙四十九年,清圣祖康熙皇帝召集张玉书、陈廷敬等三十位学者,开始了《康熙字典》的编撰工作,在六年的时间里,他们对传统字书进行了大规模的集中整理,并于康熙五十五年完成编辑工作。《康熙字典》吸收了历代字书编纂的经验,全书共分为十二集,从子集到亥集,每集又分为上、中、下三卷,分别排列214个部首。总共收录了四万七千零三十五个字。内容引用了古代诗文以追溯字源,同时还注明了历代的用法以佐证其变迁。《康熙字典》问世后,社会影响巨大。它的文字、音义、书证被广泛引用,它的体例也成为了后世出版字书的蓝本。作为中华文化的重要参考文献之一,《康熙字典》具有极高的研究价值。

1716年成书的《康熙字典》收字四万七千零四十二个,是历代字书的集大成之作,可以满足读者阅读和研究古典文献时查检的基本需要。 本字典以道光王引之订正本《康熙字典》为底本,参校别本,重新横排出版。全书逐句加标点,主要使用逗号、句号、冒号、书名号等。为方便读者使用,在原注音反切、直音后加标汉语拼音和注意符号。原书无篆文,现据徐铉校本《说文解字》,将规范小篆附于正文字头之后。书末新编四角号码索引

《康熙字典》之优点荦荦大端者有以下几方面:首先,收字多,超越以往所有字典, 再次,它差不多将每字不同义项都列举出来,而且每一义项多引用初见于某古籍的例句,这些是本字黄显著特色之一,无疑对读者助益颇大。

参考资料:

http://baikebaiducom/view/32121html

海外古籍数字化回归:如何做到“为天下人所用”?

南方周末

原创

2021-6-2 00:09 · 《南方周末》官方账号

陈力和何梦超讨论古籍数字化方法。 (达摩院供图/图)

流散海外八十多年后,文澜阁本《四库全书》中的《宋百家诗存》重现大众视野。

在扫描影像中,这本中国古籍上的水浸、虫噬、霉变历历可见,每一处都是历史的风霜。1790年左右,《宋百家诗存》随《四库全书》入藏杭州文澜阁,清咸丰年间在太平军入杭后散失,1861年左右被嘉业堂收藏。抗战时期,部分嘉业堂藏书流落到了上海,可能被日本人收购,并于1949年辗转到了美国,如今藏于加州大学伯克利分校东亚图书馆。

东亚图书馆收藏了大量中国古籍善本,截至2021年5月18日,其中二十万页被扫描影像、读取文字,以数字化形式回归祖国。

这是海外古籍回归项目“汉典重光”的成果之一。这批数字化古籍善本中既有宋元本,也有明清至民国时期著名学者的稿本、抄本,其中一些是以前很少有人见过的珍贵藏本,比如清文澜阁本《宋百家诗存》。

古籍流散海外的原因多种多样,实体回归几乎是不可能的,比较可行的办法是数字化回归。

此前的古籍数字化平台,大多是展示扫描后的古籍,读者只能在这些平台阅读,无法就书中内容进行检索分析。此次汉典重光的数字化团队不仅将古籍扫描,还将扫描下来的识别转化成了电子文字。搜索某一字词,可以跳转到字词所在书本的具体章节段落。

这些古籍资源将向公众免费开放。阿里达摩院院长张建锋表示,汉典重光古籍数字化平台将被捐赠给权威公共机构长期运营。

“让蒙尘的古籍重焕新生”

四川大学历史文化学院教授陈力是汉典重光项目的古籍专家。陈力的父亲是教历史的,1977年,陈力作为恢复高考的第一届考生,填报的所有志愿都与历史、中文、图书馆相关,最后被省内第一志愿四川大学历史系录取,从此“一辈子都在做这个”,对古籍积累下一份深厚的感情。

在汉典重光项目之前,陈力已经参与过古籍数字化项目。他曾经在国家图书馆工作18年,其中一半的时间分管古籍,经手过哈佛大学燕京图书馆的一个古籍数字化回归项目。2009年,燕京图书馆馆长郑炯文专门从美国飞到中国商量相关事宜,目录都筛选完成了,也做完了一部分书的扫描,但项目最终因为资金、技术等没能达到预期而搁浅。

这次未竟的合作在某种程度上成为汉典重光项目的起源。在哈佛大学访问期间,高晓

方法一

将中的文字识别出来,所有的OCR(Optical Character Recognition的简称,指光学字符识别技术,是自动识别技术研究和应用中的一个重要领域 )软件都可以做到,例如清华紫光OCR等,一般购买扫描仪的用户大多安装有此类软件。但需要注意,通常OCR软件只能够识别比较规范的印刷体,手写文本目前在识别上仍有困难。

方法二

而在大部分用户都有安装的Office 2003套件中,也附带有OCR功能的组件Microsoft Office Document Imaging。如果您有安装Office 2003,那么可以单击“开始”按钮指向程序组“Microsoft Office”中的“Microsoft Office 工具”选择“Microsoft Office Document Imaging”,即可打开。但Microsoft Office Document Imaging不是Office 2003默认的安装选项,所以在初次启用时如果该组件仍未安装,则需要插入Office的安装光盘进行安装,但整个安装过程将自动完成,您只需要按提示信息操作即可。

安装并打开Microsoft Office Document Imaging之后,只需通过“文件”菜单打开需要识别的,或者选择“扫描新文档”利用扫描仪将印刷品的文字扫描到电脑上,再选择“工具”菜单中的“使用OCR识别文本”或者“将文本发送到Word”,就可以将该上规范的印刷体文字识别出来。如果中的文字是“宋体”等比较常见的字体,并且版面比较整齐,基本上所有的文字都可以正确的识别出来。

另外,由于Microsoft Office Document Imaging只支持MDI、TIF等格式,需要您准备识别的,可能需要利用处理软件转换一下,又或者利用在安装Microsoft Office Document Imaging组件后,系统会自动安装的一个名为“Microsoft Office Document Imaging Writer”的虚拟打印机,将打印成一个MDI文件,然后再使用Microsoft Office Document Imaging识别。

方法三

利用尚书系列软件,它可以把报纸、书本中的文字用扫描仪扫入电脑,然后用这种软件识别成文本,以进一步编辑。

方法四

利用汉王系列软件:汉王文本王是针对机关单位、企业及有文字录入需求的个人用户,在日常的工作中,快速的对书刊、报纸、公文、宣传页等印刷稿件中内容进行录入的应用需求而推出的。 本产品集成了汉王科技顶尖的文字识别技术,对印刷文稿录入的识别率高达995%,能够识别百余种印刷字体和各种中英繁表图混排格式的文本,并具备朗读校对、翻译功能。是理想的文字、表格、图像录入系统。 文豪5300、文豪6450、文豪7600等,应用的软件都是汉王科技最近研发、及时更新的成熟版本,只是在赠送的扫描仪上有所区别,可谓是名副其实的“同胞”;文圣和文海的前身是汉王的“OCR录入工厂”,而文海更是录入工厂的网络版本,最高可达32用户,在面临庞大的批量录入工程时,32个用户可以同时使用一套系统,提高海量工作的共同效率,尽可能的减轻单位用户的工作量,成为图书馆、档案馆等信息化的应用的得力助手。

此次汉王科技文本王产品的全线产品推出,再一次证明了国内OCR技术在经历多年的“小妾”之屈后,不再依附于扫描仪而开发,已经成熟独立起来。汉王科技在去年研发出第一款文本王产品到现在,短短的一年之内,新产品不断的推陈出新,牢牢把握住本行业发展的脉搏,及时主动地进行软件更新,现在已经成为国内OCR领域实力最强的厂商。

方法五

利用我们自己的眼睛,手指以及输入法!一个一个的打上去!较笨,但很准确。很直接!

表面上看,这种主张两全其美,既坚持了简体字,又保留了繁体字。仔细想来,殊无必要。

 试想一下,如果大家写的都是简体字,书刊报纸也都是简体字,认识繁体字又有何必要呢认识了不使用,如同买了一个工具却闲置,久而久之,只能被忘记或者丢弃。有人说,认识繁体字可以读古书,可以传承文化。其实,读古书读的是古人书中道理,而不是他书写的文字。现代人读不懂古人的书不是因为繁体字还是简体字,而是因为不懂古代汉语,包括文字、音韵、训诂、版本、目录,还包括古代文化知识等一大套学问。因此,北京大学著名教授苏培成曾说过:读古书的门槛不在文字,而在语言。语言文字是向前发展变化的,在语言生活发生了很大变化的情况下,以为认识繁体字就能读懂古书的思路未免简单了些。相反,如果一个人懂得古代汉语,即使简体字版的古书,理解起来也不会有阻碍。说到底,能不能读懂古书,关键在自己的学问,不能读不懂就归咎于简体字。

 

当然,我们说汉字应用无需强调“识繁”,并不是反对识繁体字,识字,无论繁简,当然是越广博越好。如果从个人文化修养的角度来讲,认识繁体字,甚至认识小篆、大篆都是非常好的事情。但是在日常语言生活应用中,则无需强调必须认识这些,以免增加不必要的学习负担。

汉字是一种交流工具,工具必然追求更方便合理的使用。简化是汉字自身发展演变的一个客观规律。新中国建立之初,成人文盲率占80%以上,汉字繁难,应当改革,是当时有识之士的共识,推行简化字成为必然。据统计,《简化字总表》第一、二表繁体字的平均笔画数是每字16画,简化后平均笔画数每字为8画。笔画减少后,书写效率明显提高,为当时扫除“文盲”、普及教育起到了积极的推动作用。应当说,简体字在国民教育水平提升及社会生活便利方面功莫大焉。现在,在简体字通行、稳定的使用状况下,提出恢复繁体字或者退一步提倡认识繁体字都是没必要的折腾,除了给学习者带来负担外,还会影响交流,进而可能会对国家的经济、文化、教育、国际交流、信息化等事业的发展产生不利的影响。

备好说文解字,康熙字典,先看一遍古文观止,再看一遍文心雕龙(这两本书是学习古文的必看书哦)

有了这点对于古文的基本认识之后在开始看你的那本书吧,最重要的是康熙字典这类的工具书一定要备齐,建议你看的时候先看看是谁的书,大体上有什么思想,这样便于理解,还要文言基本常识一定要明白

热门文章
    确认删除?
    回到顶部