中国古籍离家百年被AI找回,这是怎么做到的?
相信很多朋友在这段时间已经看到过一则非常让人震惊的消息,那就是在5月18日的时候,20万页的古籍以数字化的方式回归到了我们的眼前。这让很多网友在表示非常震惊的时候也表示非常的疑惑,究竟这群专家是用怎样的方式来做到这样的地步的,下面小编就带领大家来看一下。
根据网络上相关的信息表明,在世界博物馆日的这一天,海外古籍数字化回归发布会,在中国的科技馆直接进行了相关的发布会。一大批珍藏于加州大学伯克利分校的中文古籍善本以数字化的方式回归到了自己的家乡,并且直接落地在了这样的平台之上。我们可以看到的是首批20万页古籍首先回归到自己的家乡里面,并且通过这样的方式以后可以方便更多的人来去检索和查询这样的书籍。
而在这一切的最后的最大的功臣就是一位七旬的老人。这位老人家就是中央文史馆馆员,四川大学的教授成陈立,这位老人家花费了两年的时间,并且直接奔走联系了加州的大学伯克利分校,希望你用现代化的技术,能够让收藏在这所学校的中文古籍得到相关的修复,并且能够以数字化的方式回归到自己的本土里面。所以这才有我们所看到的一面,才能够最终看到有四十多种宋元真本向公众开放。才能让这一批流失在外面的书籍最终回到自己的家乡,这对我们来说是非常重要的。
通过这样的技术,能够将这些古籍回归到自己的家乡,我觉得是非常了不起的,也是非常的去佩服的。也很佩服这些技术团队和专家,能够联手开发这样的系统识别,这不仅仅是对这批古籍有着非常好的作用,对于以后流失在外国的相关的书籍也有着非常强大的作用。
采用专业的古籍扫描仪,一般是不会对古籍造成破坏的。以汉龙公司的赛数专业古籍扫描仪为例,采用投射式无眩目冷光源技术,非接触式扫描,可为珍贵的古籍和文献数字化提供极其充分的保护,老旧的古籍不能完全打开也可以高精度扫描。
这些珍藏在加州伯克利分校的中国古籍之所以能以数字化的方式成功回归,一方面有赖于四川大学教授陈力的奔走联系,另一方面有赖于阿里达摩院技术团队与四川大学专家联手研发的针对古籍识别的Ai系统。
近日,20万页的中国古籍以数字化的形式从加州伯克利分校回归的消息激动人心,根据相关媒体的报道,此次古籍的回归实属不易,其背后有四川大学教授陈力这位63岁的老人长达两年的奔走联系,也有阿里达摩院技术团队与四川大学专家利用先进的机器学习方法研发出超高准确率的古籍识别系统,个人认为,古籍是中国文化中一笔宝贵的财富,此次回归的古籍补充了中国文化的一块空白,应该被好好珍惜。
陈力教授前后联系奔走两年
四川大学教授陈力先生一辈子都在与古籍打交道,许多年来不论岗位如何变迁,一直心系古籍的保护和传承,而正是源于这份发自内心的坚持,这位63岁的老人忘我地前往加州伯克利分校奔走联系长达两年,最终促使20万页的中国古籍回归祖国。
Ai识别系统准确率高达975%
在此次的古籍回归中,先进的Ai识别系统扮演着重要的角色,据了解,该系统是由阿里达摩院技术团队与四川大学专家联手研发,他们针对古籍识别的特点利用先进的机器学习设计了一套边识别古籍、边训练模型的系统,而最终成型的系统准确率高达975%。
古籍是中国文化的一笔财富
许多年前,大量的中国古籍由于各种原因流失到了海外,中国文化因此缺失了宝贵的一部分,此次回归的20万页的中国古籍,填补了中国文化曾经被撕裂开的伤痕,是中国文化的一笔宝贵的财富。
古籍的数字化最早是从计算机技术发达的美国开始的。20 世纪 70 年代末,OCLC 和RLIN 先后推出了《朱熹大学章句索引》、 《王阳明传习录索引》、《戴震原善索引》等数据库,到 20 世纪 80 年代以后,中国的台湾、香港和大陆才相继开始了中文古籍数字化项目。 从 20 世纪 80 年代起,大陆地区开始出现了古籍数字化的工作,但是研究和成果少。直至进入 90 年代以后,随着我国计算机的普及网络技术的介入,才有了古籍数字化的雏形。90 年代中期以后,国家图书馆制订了一个庞大的古籍特藏文献数字化计划 ,如碑砧菁华、西夏碎金、敦煌遗珍、数字方志以及甲骨文、永乐大典等。北京大学《中国基本古籍光盘库》,计划收录古籍1万种 。迪志文化出版有限公司、上海人民出版社推出了文渊阁《四库全书》全文检索版。书同文数字化技术有限公司推出了《四部丛刊》的全文检索版。国学公司推出了《国学宝典》等系列产品。截止 2004 年底,网上可见的中文古籍数据库约 70 多个。北京大学主持的 CALIS 项目及南京大学图书馆 CANAL项目古籍子项目已取得阶段性成果。
1 按数字图书馆模式对古籍数字化进行组织
2 建立古籍整理的自动完成集成系统
3 检索系统和支持系统研究将成为重点
4 国家对数字化古籍资源进行整体规划,加大资金投入力度
5 人才培养势在必行
6 古籍数字化项目的国际性合作将是未来发展的目标
文学地图是以地图形式表现文学空间形态、空间分布及流向的文学地理研究方法。一方面,它是近年来人文学科研究数字化、空间化、可视化几大趋势交汇的结果,是当下数字人文风潮中的新路径,显得有些“高大上”。另一方面,文学地图逐渐成为大众了解文学、接触学术的一种方式,十分“接地气”。那么,文学地图到底是“高大上”还是“接地气”呢?
孤立研究方式有了发散性转变
中国文学地图的出现,可以远溯到上古时代。被视为“小说之最古者”的《山海经》,实际是一部据图释文的经典,今已亡佚的《山海经图》即为原始形态的文学地图。20世纪70年代,张爱玲在译注《海上花列传》时,根据作品中的地名等绘制出上海地图附在文本后,成为借助地图解读文学的先导者。21世纪初杨义提出的“重绘中国文学地图”,则将文学地图提升为空间视角下的文学史写作范式。不过,这里的“文学地图”,更多是借喻性用法,目前的文学地图研究则更重视实体形态的地图,这就要求学者不仅需要熟悉文学,还必须掌握相应的地图绘制技术,而它们大多是近年来发展的前沿技术,由此文学地图也比传统的文学研究对象显得“高大上”。
与文学地图关联最密切的技术当属GIS(地理信息系统)。早期的文学地图绘制多依靠人工,应用较为基础简单,往往只能基于个别案例且费时费力,在一定程度上限制了文学地图在文学研究中的应用。GIS技术的发展使文学地图具有了科学、批量绘制的可能,而一个对象也只有成规模应用后,才可能建立独立范式。正如美国空间人文学者戴维·J 博登海默所言,GIS因处理和呈现空间场域数据的空前能力,“使地图的力量被重新发现了”。依托GIS技术,文学地图从静态、固定的纸质形态转化为动态、立体的数字形态,以往传统地图无法呈现的多重图文信息,在数字化地图上可以共存、更替,无需重新绘制。这就大大增加了地图的信息容量和要素维度。更重要的是,在对多重图文信息的交互读取中,一些隐性现象可能被揭示出来。
比如,借助数字化地图平台,无需绘制多幅地图,即可将唐代长安里坊图的底图替换为卫星云图、地形图、当代行政区划图、唐代历史地图等,而且点击各里坊,会弹出相关知识信息;再借助大数据技术,统计唐代小说中长安里坊的复现率,并绘制成热力图,那么不仅可以探析地形、水系、交通等因素对唐长安城空间格局的影响,还可由里坊色度与长安住宅空间分布的对应关系,对唐传奇的文体特征、情节结构的组织逻辑等有更深刻的认识。可以说,在GIS技术辅助下,文学地图不仅能够被快捷方便地绘制出来,而且还使过去孤立的研究方式有了多元化、发散性的转变。
古籍数字化技术在古代文学版本研究中发挥着重要作用,而绘制文学地图所需的文学地理元素,也须依托于古籍数字化技术所提供的大数据。可视性是文学地图的本有属性,因此可视化技术的应用似乎是题中之义。但以往的可视化还较为平面、单一,随着可视化技术的发展,文学地图已经可以用更多元的形态呈现更丰富的信息。例如,法国文学地图研究先锋人物弗兰克·莫莱蒂基于伦敦文学书写的大数据,绘制了叙事情感地图。情感竟然能够可视化,刷新了人们对“地图”的认识。文学地图因具有“文学”与“地图”的双重属性,目前论者各有偏重,尚无统一定义,而在各类技术背景下,地图形式趋向于多模态,将使文学地图的内涵界定更为复杂。
“接地气”的基本内核
文学地图的“接地气”,有两层意思。其一,文学地理学的核心是研究文学与地理的关系,这就使文学研究从与时代的紧密联结转向与地理的深刻融合。作为文学地理学分支的文学地图研究,也延续了这种“接通地气”的基本内核。其二,文学地图的兴起顺应了时代风潮,适应了大众需求,不再是象牙塔的专属。
就第一层意思而言,文学地图的“接地气”与文学地理学其他研究路径的最大不同,是它需要将文学地理要素先转换为可视形态,再由地图元素的空间特征来解读文学现象、揭示文学规律。这种“图本”叙事语言系统不同于传统的文本系统,梅新林称为文学地理学的“第二语言”。但文学地图并不仅仅是示意配图,更基于可视性成为观照文学的一种独特视角。
以文学要素的地理分布为例。文人地理分布是文学地理学的主流研究路径,一般通过表格排列文学数据,再对地理空间分布进行描述。同样的数据,如果用地图呈现,会发生什么变化呢?不仅更直观,还会产生更多的空间信息。除了可以呈现表格所示各地区文人数量,地图还可反映各地区内部的文人分布重心。如果再给地图更换地形、交通等不同底图,还能够反映不同因素对文人空间分布的影响。此外,空间数据由线性排列转换为平面展现后,数据之间的区域就会以空白的形式显示出来,或者说,将“无”可视化了。研究者通常容易注意到“有”而忽略“无”,地图则将“无”变成了探究文学现象的切入点,这实际是对传统研究思维方式的一个重要改变。
就第二层意思而言,文学地图走向大众,仍与其视觉呈现性质密不可分。在“读图”时代,大众更青睐视觉化的文学表达。“图解”文学作品、城市文学地图等新型读物应运而生。不过,真正让文学地图“出圈”的,要算唐宋文学编年地图。它的依托平台是一个大众性的诗词网站,上线当天浏览量就达到110万人次。如此高的单日浏览量当然不是因为大众对学术的膜拜,而是因为文学地图对诗人及作品立体、丰富的呈现,适应了当代人的“读图”需求。
“高大上”与“接地气”的未来融合
不难发现,“高大上”与“接地气”这看似互斥的两者,其实并存于文学地图。不过,目前它们的融合度还并不充分。“高大上”有时意味着“不易接近”。国内GIS平台的建设多针对历史地理,真正的文学地理专题平台少之又少,即使如浙江大学“学术地图发布平台”这样提供大量文学数字地图的平台,仍是以发布诗文学术地图资源偏多,小说相关地图还很缺乏。从技术层面来看,多数平台只提供浏览查询功能,而可自主绘制地图的平台,操作起来又并不简易。绘制文学地图过程中遇到的各种技术性难题,可能是当前文学地图发展的最大瓶颈。一方面,数字化地图平台需要进一步简化操作;另一方面,学者也不能坐等平台建设,而应勇于进行社会科学与自然科学的“跨界”,主动学习ArcGIS、Python等软件,积极开展文学地图研究。
除了技术上的改革,还需要理念上的更新。习近平总书记强调,“把学问写进群众心坎里”。文学地图正在推动这一趋势:学者研究的文人交游,可以变成大众津津乐道的“古人朋友圈”;文学地图揭示的隐藏于文本下的作家精巧构思,可以用“盗梦空间”的形式呈现给大众;唐传奇与宋传奇地图的对比,可让学者从文本地名变化探析传奇文体流变,也可让大众见证唐人“凡尔赛文学”到宋人“平凡的世界”之过程……
(作者系国家社科基金青年项目“文学地图视角下的中国古代小说研究”负责人、中国石油大学(华东)文法学院副教授)
1 缺乏整体规划,重复建设严重
2 文献购置和设备购置成为制约古籍数字化的两大难题
3 古籍整理技术成果未得到充分利用
4 检索技术急待完善
5 数字化文件格式数量多,不统一
6 人才的知识不全面性难以适应古籍数字化
本文2023-08-05 17:22:37发表“古籍资讯”栏目。
本文链接:https://www.yizhai.net/article/23509.html