求扫描版古籍转文本的工具

栏目:古籍资讯发布:2023-10-10浏览:2收藏

求扫描版古籍转文本的工具,第1张

用office 的Document Imaging OCR文本识别功能,能从扫描文件中识别文字转换成文本或word格式文件;

从开始-程序-office-打开软件

先打开扫描的Tag图像文件格式的文件,点 工具-‘使用OCR识别文本’识别出来,然后另存为文本文件。

在古籍中,正文文字后面的圈圈通常用来表示注释或说明。实心的圈圈通常表示这部分内容是对正文的直接注释,而空心的圈圈则通常表示这部分内容是对正文的间接注释或说明。

对于理解和断句,一般来说,注释部分的文字是对正文的补充解释或者提供背景信息。所以,如果读不懂正文中的某个部分,或者对某个部分有疑问,你可以查找这个部分的注释,以帮助理解。

然而,每个圈圈所代表的含义可能因书籍和上下文的不同而不同。有些书籍可能会用特殊的符号或者格式来表示注释,比如用小字或者不同的字体等等。因此,为了准确地理解和断句,需要参考书籍的前言、跋或者书后的附录等,查看注释部分的说明和标注。

总之,对于古籍中正文文字后面的圈圈,需要根据上下文的具体情况和书籍的标注来进行理解和断句。

古籍书的字没有可以进行修复

书籍的修复基於其特性,在修复过程中,处理准则和一般印刷文件有若干共同点,因为它们的主体都是纸张。不过如果书籍本身是一件艺术品,例如是一部经典文学作品、是一件稀奇罕见之珍品、印刷品质精美特殊、具历史意义价值之文件,美妙的插画艺术、或是装订之特殊技巧等等因素,因而使得书籍变得分外珍贵。书籍修复和一般纸张修复最大的不同点,在於书籍的功能是要被使用,使用如有损坏,让它再恢复成为一本书的样子。书籍不是一件素描作品或是一幅画,可以远远的欣赏。书籍是要在手中触摸,让读者享受翻阅展读的乐趣。修复师面对书籍修复的工作时,虽然也是属於纸张修复,但仍需区分清楚其伤害之异质处。

你说的那个《离骚》版本我不清楚,不知道具体是指哪些错字,不过古代人的错字其实是与文字和印刷的历史有关的。

古籍的错字有有很多原因:

第一,是前面朋友说的,古代与现代文字意义的变迁和增加,这其实不属于“错”的范围,而是语言发展变化的产物。

第二,古籍在文字统一前是根据不同地域而有不同书写习惯的,直到秦始皇统一文字才有了后来文化的普及,当时楚地、秦地、乃至齐鲁燕赵,都有各自的书体,因此在不同国家传播时,认读中出现的错误认识和书写也会延续到后代。

第三,古籍在印刷术发明前,多是以传抄的方式。因此在抄写时就会出现“讹”“夺”“衍”“漏”的情况。

“讹”就是上面说的,错误认字,而后因错就错。

“夺”就是误认某字为其他的字,或者是串行、串篇、串简等情况,抄写时抄错。这也与古书的装订方式有关,一大捧竹简木牍,如果装订绳断脱,重新整理编排次序可是个大问题。

“衍”就是抄写时自己添加了字,而后整篇文章就这样因错就错传给后人。

“漏”是说抄写时脱漏了原文,丢字拉字。

第四,这些问题在传抄和整理成底稿时就已经出了不少问题,当刻于金石、木版上,如果刻工不注意,或者偷懒或者手艺差,或者时间紧,也会出现字的变化和脱漏,比如出现很多异体字、简化字、缺笔字等,如果不及时校对发现,一旦重新拓印成书,就将错误形成固定的模式变成正常的了。

第五,古代君主们经常颁布各种时代的避讳字,一旦遇到就需要以同意字代替原文,后代有时不知道,就误将已代替的当作最早的版本,这样又形成了新的错误。不过明清以后是以缺笔划来处理避讳字,这在认识和考订时就方便不少。

第六,古代名人们也经常会出现自造字,如果后人不察,就会误为错字。

有啊,我学汉语言文学的。

恩《说文解字》是第一部以分析字形入手的字典。它是由许慎编写的。

至于《康熙字典》,它极其详细地分析字形,诠释字义,对字的来源也引许诸如明朝《正字通》这样的古籍,而且对于汉字的注音,它引《广韵》等注音法,特别是这本字典对异体字有详细介绍,现装最豪华的是内府影印本。 但是这本书它的查阅太繁琐,就是很多字根据古代形体,跟我们现在的查阅方法有很大出入,所以如果你不专门研究古代汉语方向的话,不建议你买它。

从字形和来源入手的比较全的 ,还有《中华大字典》(商务印书局)、《汉语大字典》、《汉语大辞典》等,这几个和我们现代查阅方法基本相同,其中一本是汉语专家陆费奎先生编著的。

以上是从字形字义来源查阅分析实词的,如果是查阅虚词,你还可以 找《助字辩略》等等,当然,古代汉语你也可以找《尔雅》 但是关于这方面的古籍,价格都不菲哦

求扫描版古籍转文本的工具

用office 的Document Imaging OCR文本识别功能,能从扫描文件中识别文字转换成文本或word格式文件;从开始-程序-office-打开软件先打开...
点击下载
热门文章
    确认删除?
    回到顶部