国外古书能否全部扫描成电子版
海外古籍数字化回归:如何做到“为天下人所用”?
南方周末
原创
2021-6-2 00:09 · 《南方周末》官方账号
陈力和何梦超讨论古籍数字化方法。 (达摩院供图/图)
流散海外八十多年后,文澜阁本《四库全书》中的《宋百家诗存》重现大众视野。
在扫描影像中,这本中国古籍上的水浸、虫噬、霉变历历可见,每一处都是历史的风霜。1790年左右,《宋百家诗存》随《四库全书》入藏杭州文澜阁,清咸丰年间在太平军入杭后散失,1861年左右被嘉业堂收藏。抗战时期,部分嘉业堂藏书流落到了上海,可能被日本人收购,并于1949年辗转到了美国,如今藏于加州大学伯克利分校东亚图书馆。
东亚图书馆收藏了大量中国古籍善本,截至2021年5月18日,其中二十万页被扫描影像、读取文字,以数字化形式回归祖国。
这是海外古籍回归项目“汉典重光”的成果之一。这批数字化古籍善本中既有宋元本,也有明清至民国时期著名学者的稿本、抄本,其中一些是以前很少有人见过的珍贵藏本,比如清文澜阁本《宋百家诗存》。
古籍流散海外的原因多种多样,实体回归几乎是不可能的,比较可行的办法是数字化回归。
此前的古籍数字化平台,大多是展示扫描后的古籍,读者只能在这些平台阅读,无法就书中内容进行检索分析。此次汉典重光的数字化团队不仅将古籍扫描,还将扫描下来的识别转化成了电子文字。搜索某一字词,可以跳转到字词所在书本的具体章节段落。
这些古籍资源将向公众免费开放。阿里达摩院院长张建锋表示,汉典重光古籍数字化平台将被捐赠给权威公共机构长期运营。
“让蒙尘的古籍重焕新生”
四川大学历史文化学院教授陈力是汉典重光项目的古籍专家。陈力的父亲是教历史的,1977年,陈力作为恢复高考的第一届考生,填报的所有志愿都与历史、中文、图书馆相关,最后被省内第一志愿四川大学历史系录取,从此“一辈子都在做这个”,对古籍积累下一份深厚的感情。
在汉典重光项目之前,陈力已经参与过古籍数字化项目。他曾经在国家图书馆工作18年,其中一半的时间分管古籍,经手过哈佛大学燕京图书馆的一个古籍数字化回归项目。2009年,燕京图书馆馆长郑炯文专门从美国飞到中国商量相关事宜,目录都筛选完成了,也做完了一部分书的扫描,但项目最终因为资金、技术等没能达到预期而搁浅。
这次未竟的合作在某种程度上成为汉典重光项目的起源。在哈佛大学访问期间,高晓
怎么识别字体?
可以上传到维权骑士网站识别,输入随机内容,即可寻找原字体。多数字体识别网站功能相似,但有时候很多网站是没有办法正确识别出字体的。因为输入的文字当中有部分文字没有明显特征,可能就会降低识别准确率;或者上传的并非字体,例如:创意字、纯手写文字以及未开发成字体的古籍文字。这些情况都有可能导致字体识别不出来。所以上传的是有要求的,当然选择的识别网站也是非常重要的。
关于维权骑士
维权骑士成立于2015年,是原创内容生态及数据服务机构,一直致力于互联网创作者版权事业,以帮助创作者赋能来提升创作者收益作为运营目标, 在互联网版权领域具有领先地位。
维权骑士是刀豆网络首个面向自媒体创作者的线上版权保护产品。至今,维权骑士已经从原本单纯服务单个平台的创作者维权演变成为一款能够多平台维权且拥有强大内容复合能力的兼容型平台,成为基于人工智能及大数据技术的版权和数据应用服务商。
当下的维权骑士现在已经有授权管理、内容分发管理、确权管理、自媒体能力提升课程、在线原创度检测、新媒体营销变现等服务。
如今OCR文字识别的用途是越来越广泛了,今天就来讲一讲OCR之报纸出版物数字利器。
报纸及出版物数字利器
关键词:OCR文字识别软件中文识别日文识别韩文识别
产品介绍
该软件能够快速地将印刷的文档转化为可供阅读和可编辑的高质量电子文档,进而将电子文档应用到各类数据库、电子出版物、数字图书馆、网络资源等新型资源的建设和再版图书生产中,是行业数字信息化不可或缺的重要组成部分。
主要功能模块
OCR文字识别软件识别核心
OCR文字识别软件内置文通公司最新研发的高性能文字识别引擎,中文识别率高。英文、日文、韩文的识别率居世界前列水平。
OCR文字识别软件UNICODE编码
OCR文字识别软件采用UNICODE国际编码标准。系统可在一个统一的平台下,同时处理包括中文、日文、韩文、英文在内的多种文字的识别和校对修改。
OCR文字识别软件XML技术
OCR文字识别软件系统基于开放式的XML数据结构,可以对数据进行扩充和再定义。支持第三方开发厂商方便地进行文档数据的转换、迁移和再利用。
OCR文字识别软件版面还原
OCR文字识别软件强大的版面还原技术,可将识别后的报刊、杂志、图书等多种形式的文档,通过还原字体、字号、版面位置、字体颜色等信息以原版原式呈现在读者面前,最终生成优质的全息PDF文档。
OCR文字识别软件集字校对集字校对
集字校对是OCR文字识别软件特有的文字校对技术,该技术打破了传统校对工具图像与识别结果文本比对显示的模式,将多篇文档中所有识别结果相同的字符图像集中呈现在一个视图中,给校对人员强烈的视觉冲击,让错字自动“跳”入校对人员的眼中,避免了校对人员因陷入文档的上下文语境而产生视觉疲劳,引起的校对准确率下降。同时,由于常用汉字集中在3000-4000个左右,面对海量文字的校对时,不会因文字量的上升带来相应的校对量的上升,仍只需校对这几千个不同的汉字,明显提高工作效率。
OCR文字识别软件自学习软件
OCR文字识别软件针对古籍、科研等特殊领域文档中经常出现的特殊文字,即使不在国家标准范围以内或者TH-OCR字库中并没有支持,用户也可通过自学习功能,将这些文字的图像学习进入系统,使得调整后的核心可以支持这些文字的识别。
OCR文字识别软件双层PDF批量制作功能
OCR文字识别软件可以实现图像文件到PDF文件的自动转换,生成的PDF文件能够实现全文检索,可以复制粘贴,也可以对某个指定目录进行长期监视,真正实现无人操作。
典型应用
图书馆
中国国家图书馆清华大学图书馆上海交大图书馆天津南开大学图书馆
在数字图书馆领域拥有上百家用户
电力行业
国电信息中心各省市电力设计院各省市电力科学院
在电力标准数字化项目中广泛应用
出版社
商务印书馆中华书局
在古籍识别技术领域得到了客户的首肯
报社
大连日报社深圳特区报南方周末
在生产流程化管理系统已成为报业信息化的首选要素
政府机关
中央办公厅国家安全部九局水利部国家质量技术监督局
网络了最多的政府机关用户
何谓古籍善本?清朝版本目录学家张之洞的解释为:一是足本,没有删节和缺卷;二是精本,精校精注,错误极少;三是旧本,即传世很久的木刻本、传抄本和线装书。当代学者对古籍善本的解释为:一是年代久远而且有文物性;二是印刷插图精美而具有艺术性;三是书籍内容精辟具有学术资料性。国家文物法对古籍善本曾明文规定,凡是乾隆六十年(1795年)以前出品的文物和图书,均受国家法律保护,不得私自出口。于是收藏家们往往将这一时限之前的清代初期或更早期的精刻本和精抄本视为珍宝,因为最起码它的历史文物价值和学术资料价值是显而易见的,从而决定了其收藏和价值也是相当高的。古籍善本由于是纸质品,很容易受到损毁,如水灾、火灾、虫蛀等自然及人为因素的影响,保存几百年甚至更长时间实属不易,这就导致了流传下来的古籍善本十分稀少,许多古书现已绝迹,留存下来的古籍善本中不乏孤品、珍品,有的存世量也不过是寥寥几部,因此,古籍善本的价值珍贵也就不难理解了。
一、评判古籍善本价值的标准
1、文献价值 古书籍所描述记载的史料非常丰富,是研究古代社会不可缺少的第一手材料,因此古籍的价值首先体现于它的文献价值。
2、版本价值 古籍的版本种类很多,一般来说,稿本(作者的原稿)、旧抄本、原刻本、精刻本、初印本以及各类活字印刷本等版本的价值更高。
3、艺术价值 有些古籍字体雕刻精美,印刷水平较高,如精写本、精刻本、各种套印本、红印本、拱花等。
4、学术价值 如名家稿本、精校本以及在某一学术领域有独到见解或较为少见的稿本、写本、批校本、过录本等,都有很高的学术价值。
5、文物价值 有些古书,抄写或刻印本年代久远,流传又稀少,如宋版书存世不多,无论从纸质、墨迹、印刷技能、装帧水平等方面都具有很高的文物考古价值。
二、各种古籍善本的市场价格
近年来,我国古籍善本在拍卖市场上行情十分走俏,价格不断向上攀升。如一册《唐人写经遗墨》以88万元成交,《续华严经疏》以40万元成交,《四库全书珍本》以29万元成交,明代版《陀罗尼经》成交价9万元,清乾隆年间《汪由敦诗翰》成交价165万元,民国版《朱拓千叶莲花造像》成交价055万元等等,可见古籍善本近年来已成为拍卖会的重头戏,购买者十分踊跃。古籍善本现已成为收藏家们苦苦追求的收藏精品。
目前,市场上的古籍善本价格还在不断攀升,特别是宋版书或更早的古籍涨幅更是惊人,眼下一般宋版书都是按页论价,而不是以本论价。一页品相上好的宋版书市场价大致在1 万元左右,换句话说,一册100页左右的宋版书价值可达到100万元左右。由于宋版书十分珍稀,其市场价格有可能还会进一步上升。元版书市场价与宋版书相差不是很大,市场价也随着宋版书的上扬而升值。明版书市场价要比宋版书低不少,其价格目前还比较平稳,但明版书要比以后的清版书的价格昂贵。明代初期的版本因流传下来的比较少,所以明初版本的升值潜力千万不可小视。明代中叶及明未的各种版本由于尚有一定的存世量,在相当一段时期内其市场价格仍将平稳地维持着原状。清版书由于存世量较大,清中叶及晚清的版本,市场价还不是很高。但清初康熙、乾隆年间的版本仍具有很高的收藏和价值。清代图书以木刻为主,晚清时有一部分石印版出现。清代版本尽管目前价格不是很高,但在这部分存世量较大的图书中仍不乏精品善本,这就要看收藏者的识别能力了。此外,民国初期的石印版和二十世纪30年代的一部分铅印版、影印版虽然不属于很珍贵的古籍善本,但也值得者收藏。古籍善本由于近年来在收藏品市场上十分受宠,因而各种伪造的古籍善本也应运而生。
三、古籍善本的几种作伪手法。
1、纸张做旧:纸张是文字的载体,没有纸张就没有书籍,因此判断古籍的真伪,首先要看纸张是否古旧。所以制作古籍伪本必须将纸做旧。将纸做旧有两类:一类是“染纸”,包括用糖水,或用栗子壳熬水,或用茶水,或用其它方法等将纸染成黄褐色,也有用烟将水熏黄的,以求使纸显旧色;二类是用“旧纸新印”,如果作伪者存有古纸,就可在纸上面新印古书内容,然后订成“古籍”,这种作伪方法尽管较少,但却使人很难从纸张上辨别其为赝本。
2、伪造序跋:一些重复刻印本上,除保留有原书的序跋外,又增刻新有序跋,叙述重印的原因,序跋后还著有姓名、年月等。这些都表明了书籍的真实年代。作伪者往往裁掉对其作伪不利的序跋,或涂改其中的年代,也有重新伪造对其作伪有利的序跋。
3、伪造名人题跋,藏章印记。
4、伪造牌记:保留旧牌记,挖掉复刻牌记,或挖补,涂改复刻牌记的年代。
5、裁截目录:将原目录裁去部分或全部,使人不知收全该书究竟有多少卷,以便用残本充当全本。
6、利用著录书:有些著录书的记载是错误的,作伪者便故意以此为据来兜售自己制作的伪本。
总之,古籍善本作伪的手法有多种多样,有时只采用一、两种,有时则可能是各种手法混合应用。收藏者在实际辨别时,应该运用自己掌握的学识和有关资料进行全面考察被鉴定的古籍,并可请专家一起鉴定,应注意去伪取真,才能真正做到所购古籍物有所值。
特点:
1、纸色苍润,质地坚良,洁白厚实。笺则古香古色,柔韧而极薄,防霉防蛀。
2、墨色香淡,纸上墨色青纯,笺上墨色光泽如漆,虽水润而绝无漂迹。
3、字势生动,字画刻写古雅苍劲,宋刻字体有肥瘦两种。
4、早期宋版大多为白口,墨栏单边,其后双边渐多,分四周双边和左右双边。版心上记载字数、书名、卷第、刊工姓名,书名通常在鱼尾下。行宽字疏,行格多用乌丝栏,行字不等。
5、书中文字大多避皇帝讳,尤其是内府和官府。
我就是经常做识别的,我经常用 Adobe AcroPro90,识别率都在90%以上的,你从网上下一个,大小在600多M,这是我用过功能最强的。另外你也可以用紫光ORC和尚书七号,也不错。要是你安装软件安装失败,而不是安装完使用过程中识别率低,那就是你电脑问题了,请重做系统。
另外,如果识别率低或出现乱码,是因为你的像素太低。扫描时请把像素设置在不低于300dpi。格式最好是TIF,这样现在的书籍识别率可达95%以上,当然不包括古籍和繁体字识别。
可以上传到求字体网识别,输入内容,找原字体。还有其他字体识别网站功能相似。识字体目前一次只可以识别一种字体,以免对识别算法进行误判。如果中存在多种字体,只需输入想找的某种字体的文字,其他文字直接忽视。然后依次识别当中其他字体。
有时候很多网站是没有办法正确识别出字体的。因为输入所有文字且当中有部分文字没有明显特征,可能会降低识别准确率或者上传的并非字体,例如:创意字(文字是纯粹设计,或在某个字体的基础上做了较大修改)、纯手写文字,以及未开发成字体的古籍文字。这些情况都有可能导致字体识别不出来。所以上传的是有要求的,当然选择的识别网站也是非常重要的。
使用迅捷文字识别该软件我们在不需要借助扫描仪就可以实现照片扫描、文件扫描、文字提取等工作,让转文字识别校对变得更加简单便捷。对于识别后的文字我们还可以进行在线编辑、内容复制、翻译、实时校对、重新识别、导出。
更多问题欢迎咨询互盾客服!
康熙字典
康熙字典是张玉书、陈廷敬等三十多位著名学者奉康熙皇帝圣旨编撰的一部具有深远影响的汉字辞书。该书的编撰工作始于康熙四十九年(1711),成书于康熙五十五年(1716),历时六年,因此书名叫《康熙字典》。由总纂官张玉书、陈廷敬主持,修纂官凌绍霄、史夔、周起渭、陈世儒等合力完成。字典采用部首分类法,按笔画排列单字,字典全书分为十二集,以十二地支标识,每集又分为上、中、下三卷,共收录汉字47,035个,为汉字研究的主要参考文献之一。
康熙字典共载47,000余字目,书中并按韵母、声调以及音节分类排列韵母表及其对应汉字。
《康熙字典》依据明代《字汇》、《正字通》两书加以增订,成书于康熙五十五年,两书错误之处,《康熙字典》还做过一番“辨疑订讹”的工夫。《康熙字典》有这样三个优点:一、收字相当丰富,共有四万七千零三十五个,在很长一个时期内是我国字数最多的一部字典(直到一九一五年《中华大字典》出版,达四万八千余字,才超过了它)。二、它以二百一十四个部首分类,并注有反切注音、出处、及参考等,差不多把每一个字的不同音切和不同意义都列举进去,可以供使用者检阅。三、除了僻字僻义以外,它又差不多在每字每义下,都举了例子;这些例子又几乎全都是引用了“始见”的古书。
《康熙字典》的版本非常多,有康熙内府刻本,也就是所说的武英殿版本。包括有两种纸本:开化纸和太史连纸两种。康熙内府刻本多是内廷赏赐用的,装订非常豪华,民间很少见到。此外还有道光七年的内府重刊本、其他木刻本,以及清末出现的石印本、铅印本、影印本。清末上海同文书局增篆石印本是发行量最大、最流行的一种版本。康熙四十九年,清圣祖康熙皇帝召集张玉书、陈廷敬等三十位学者,开始了《康熙字典》的编撰工作,在六年的时间里,他们对传统字书进行了大规模的集中整理,并于康熙五十五年完成编辑工作。《康熙字典》吸收了历代字书编纂的经验,全书共分为十二集,从子集到亥集,每集又分为上、中、下三卷,分别排列214个部首。总共收录了四万七千零三十五个字。内容引用了古代诗文以追溯字源,同时还注明了历代的用法以佐证其变迁。《康熙字典》问世后,社会影响巨大。它的文字、音义、书证被广泛引用,它的体例也成为了后世出版字书的蓝本。作为中华文化的重要参考文献之一,《康熙字典》具有极高的研究价值。
1716年成书的《康熙字典》收字四万七千零四十二个,是历代字书的集大成之作,可以满足读者阅读和研究古典文献时查检的基本需要。 本字典以道光王引之订正本《康熙字典》为底本,参校别本,重新横排出版。全书逐句加标点,主要使用逗号、句号、冒号、书名号等。为方便读者使用,在原注音反切、直音后加标汉语拼音和注意符号。原书无篆文,现据徐铉校本《说文解字》,将规范小篆附于正文字头之后。书末新编四角号码索引
《康熙字典》之优点荦荦大端者有以下几方面:首先,收字多,超越以往所有字典, 再次,它差不多将每字不同义项都列举出来,而且每一义项多引用初见于某古籍的例句,这些是本字黄显著特色之一,无疑对读者助益颇大。
参考资料:
本文2023-08-03 17:01:02发表“古籍资讯”栏目。
本文链接:https://www.yizhai.net/article/998.html