求扫描版古籍转文本的工具

栏目:古籍资讯发布:2023-09-23浏览:1收藏

求扫描版古籍转文本的工具,第1张

用office 的Document Imaging OCR文本识别功能,能从扫描文件中识别文字转换成文本或word格式文件;

从开始-程序-office-打开软件

先打开扫描的Tag图像文件格式的文件,点 工具-‘使用OCR识别文本’识别出来,然后另存为文本文件。

赛数专业非接触式古籍扫描仪采用投射式无眩目冷光源,适合所有需要扫描的图书、古籍、档案、地图及各种图纸。低亮度光源为珍贵的古籍和档案资料提供了极其充分的保护,压力自适应调节系统保证扫描原件的安全,高精度真彩色扫描镜头完美再现原稿的真实细节。

古籍书目查询,包括四部丛刊、四库全书、续修四库全书、四库未收书辑刊、四库存目丛书、四库禁毁书、古本小说集成、古本小说丛刊、石刻史料新编1-4辑、中华大藏经、中华道藏、六十种曲、笔记小说大观、丛书集成初编、丛书集成新编等。可查约55万种古籍。

推荐赛数OS Q非接触式扫描仪。赛数OS Q非接触式扫描仪相较于赛数前代扫描仪,在扫描质量和效率上都实现了极大的突破,它可以用短短几秒扫描一张A0幅面档案(600 ppi),同时实现极高的扫描质量,在扫描件上可以清晰地辨别出图中细节的笔触。此外,赛数OS Q非接触式扫描仪在极低到较强的光线下均能正常工作。

海外古籍数字化回归:如何做到“为天下人所用”?

南方周末

原创

2021-6-2 00:09 · 《南方周末》官方账号

陈力和何梦超讨论古籍数字化方法。 (达摩院供图/图)

流散海外八十多年后,文澜阁本《四库全书》中的《宋百家诗存》重现大众视野。

在扫描影像中,这本中国古籍上的水浸、虫噬、霉变历历可见,每一处都是历史的风霜。1790年左右,《宋百家诗存》随《四库全书》入藏杭州文澜阁,清咸丰年间在太平军入杭后散失,1861年左右被嘉业堂收藏。抗战时期,部分嘉业堂藏书流落到了上海,可能被日本人收购,并于1949年辗转到了美国,如今藏于加州大学伯克利分校东亚图书馆。

东亚图书馆收藏了大量中国古籍善本,截至2021年5月18日,其中二十万页被扫描影像、读取文字,以数字化形式回归祖国。

这是海外古籍回归项目“汉典重光”的成果之一。这批数字化古籍善本中既有宋元本,也有明清至民国时期著名学者的稿本、抄本,其中一些是以前很少有人见过的珍贵藏本,比如清文澜阁本《宋百家诗存》。

古籍流散海外的原因多种多样,实体回归几乎是不可能的,比较可行的办法是数字化回归。

此前的古籍数字化平台,大多是展示扫描后的古籍,读者只能在这些平台阅读,无法就书中内容进行检索分析。此次汉典重光的数字化团队不仅将古籍扫描,还将扫描下来的识别转化成了电子文字。搜索某一字词,可以跳转到字词所在书本的具体章节段落。

这些古籍资源将向公众免费开放。阿里达摩院院长张建锋表示,汉典重光古籍数字化平台将被捐赠给权威公共机构长期运营。

“让蒙尘的古籍重焕新生”

四川大学历史文化学院教授陈力是汉典重光项目的古籍专家。陈力的父亲是教历史的,1977年,陈力作为恢复高考的第一届考生,填报的所有志愿都与历史、中文、图书馆相关,最后被省内第一志愿四川大学历史系录取,从此“一辈子都在做这个”,对古籍积累下一份深厚的感情。

在汉典重光项目之前,陈力已经参与过古籍数字化项目。他曾经在国家图书馆工作18年,其中一半的时间分管古籍,经手过哈佛大学燕京图书馆的一个古籍数字化回归项目。2009年,燕京图书馆馆长郑炯文专门从美国飞到中国商量相关事宜,目录都筛选完成了,也做完了一部分书的扫描,但项目最终因为资金、技术等没能达到预期而搁浅。

这次未竟的合作在某种程度上成为汉典重光项目的起源。在哈佛大学访问期间,高晓

据我所知,目前国内应用于档案古籍等纸质文献仿真复制的扫描仪主要有赛数OS14000系列仿真复制扫描仪、OS Q大幅面高精度扫描仪、DSC全能影像采集系统等,这几款扫描仪非常适合于对大幅面文档进行仿真复制采集,并且精度高,速度快,色彩采集层次非常细腻,可获得细微颜色差别的层次,所以在国内仿真复制行业获得了广泛的应用。    

求扫描版古籍转文本的工具

用office 的Document Imaging OCR文本识别功能,能从扫描文件中识别文字转换成文本或word格式文件;从开始-程序-office-打开软件先打开...
点击下载
热门文章
    确认删除?
    回到顶部