中国古籍离家百年被Ai找回,这究竟是怎么成功的?
这些珍藏在加州伯克利分校的中国古籍之所以能以数字化的方式成功回归,一方面有赖于四川大学教授陈力的奔走联系,另一方面有赖于阿里达摩院技术团队与四川大学专家联手研发的针对古籍识别的Ai系统。
近日,20万页的中国古籍以数字化的形式从加州伯克利分校回归的消息激动人心,根据相关媒体的报道,此次古籍的回归实属不易,其背后有四川大学教授陈力这位63岁的老人长达两年的奔走联系,也有阿里达摩院技术团队与四川大学专家利用先进的机器学习方法研发出超高准确率的古籍识别系统,个人认为,古籍是中国文化中一笔宝贵的财富,此次回归的古籍补充了中国文化的一块空白,应该被好好珍惜。
陈力教授前后联系奔走两年
四川大学教授陈力先生一辈子都在与古籍打交道,许多年来不论岗位如何变迁,一直心系古籍的保护和传承,而正是源于这份发自内心的坚持,这位63岁的老人忘我地前往加州伯克利分校奔走联系长达两年,最终促使20万页的中国古籍回归祖国。
Ai识别系统准确率高达975%
在此次的古籍回归中,先进的Ai识别系统扮演着重要的角色,据了解,该系统是由阿里达摩院技术团队与四川大学专家联手研发,他们针对古籍识别的特点利用先进的机器学习设计了一套边识别古籍、边训练模型的系统,而最终成型的系统准确率高达975%。
古籍是中国文化的一笔财富
许多年前,大量的中国古籍由于各种原因流失到了海外,中国文化因此缺失了宝贵的一部分,此次回归的20万页的中国古籍,填补了中国文化曾经被撕裂开的伤痕,是中国文化的一笔宝贵的财富。
有的
可以自己制作一个简易的平台
配合质量稍好的数码相机来完成
可以自己压缩 不会很大
扫描后的图像肯定和原书一样泛黄,如果想保存清晰可以通过图像制作软件调整,能在一定程度上改善。至于大小,和保存时分辨率的设置有关系。
我自己不通围棋,想来棋谱应该大部分是图像吧!做PDF的话可以考虑把文字部分用OCR软件识别出来,不过我觉得直接用图的就可以了。
不太要求精度的话,用数码相机,甚至摄像头都能完成,但考虑到是大量的古籍,并且要打印,恐怕还是300DPI扫描比较能满足要求。
KABIS全自动案卷书刊扫描机器人
KABIS是由美国最专业的全自动机器人制造商Kirtas公司最新推出的划时代的扫描机器人产品。其完美的摸拟人手臂真空吸附翻页技术,甚至比人手翻页更加的轻柔。最大程度的减少因为人手的触碰对珍贵原件的损毁。每小时最高达3000页的全自动扫描速度,724小时不停机的完美工业级设计。可以承受最高速和最高强度的数字化工作。KABIS将和您一起迈向数字化40时代。
强大的全自动扫描控制系统包括了更多自动化功能,以最小的干预,最高效精确的处理图像、OCR识别、全自动标注图书案卷索引元数据。
刻本书的鉴定依据 关于印本和写本书的用纸,前人没有系统的调查研究资料可供参考,很多纸不知其名称,而文献中提到的纸又难以与实物相联系,鉴定时所能根据的仅是纸质的精细厚薄,颜色的黄、白或灰以及帘纹宽狭而已。宋代有的浙刻本用白麻纸,纸质较匀净,有韧性;四川刻本也用白麻纸,有些纸质较粗,甚至有透空小孔。南宋初期福建印书所用竹纸,质地细润,纸色较白,但以后多用**竹纸,因而从宋、元到明代,黄纸成为福建印本的特征。明代以棉纸为贵,棉纸有厚薄之不同,纸质细润,白棉纸印书成为明代特色。明末出现了开化纸,纸质细白匀净,清代以开化纸印书最名贵,连史纸、竹纸应用亦多。宋以后,还有用公文纸(公牍纸)和其他册子、信札等旧纸的背面印书的,这些公文纸如载有年月也可借以推断印本的大致时代。总之,书籍的用纸是识别版本的一项依据,但要多作比较,因为有的书刻印于宋代,后世仍可用其书版再印,而区别初印本和后印本,只能从纸张来判别了。
中国古籍离家百年被Ai找回,这究竟是怎么成功的?
本文2023-10-16 03:30:02发表“古籍资讯”栏目。
本文链接:https://www.yizhai.net/article/136082.html