求扫描版古籍转文本的工具

栏目：古籍资讯发布：2023-10-10浏览：2收藏

求扫描版古籍转文本的工具,第1张

用office 的Document Imaging OCR文本识别功能，能从扫描文件中识别文字转换成文本或word格式文件；

从开始-程序-office-打开软件

先打开扫描的Tag图像文件格式的文件，点工具-‘使用OCR识别文本’识别出来，然后另存为文本文件。

在古籍中，正文文字后面的圈圈通常用来表示注释或说明。实心的圈圈通常表示这部分内容是对正文的直接注释，而空心的圈圈则通常表示这部分内容是对正文的间接注释或说明。

对于理解和断句，一般来说，注释部分的文字是对正文的补充解释或者提供背景信息。所以，如果读不懂正文中的某个部分，或者对某个部分有疑问，你可以查找这个部分的注释，以帮助理解。

然而，每个圈圈所代表的含义可能因书籍和上下文的不同而不同。有些书籍可能会用特殊的符号或者格式来表示注释，比如用小字或者不同的字体等等。因此，为了准确地理解和断句，需要参考书籍的前言、跋或者书后的附录等，查看注释部分的说明和标注。

总之，对于古籍中正文文字后面的圈圈，需要根据上下文的具体情况和书籍的标注来进行理解和断句。

古籍书的字没有可以进行修复

书籍的修复基於其特性，在修复过程中，处理准则和一般印刷文件有若干共同点，因为它们的主体都是纸张。不过如果书籍本身是一件艺术品，例如是一部经典文学作品、是一件稀奇罕见之珍品、印刷品质精美特殊、具历史意义价值之文件，美妙的插画艺术、或是装订之特殊技巧等等因素，因而使得书籍变得分外珍贵。书籍修复和一般纸张修复最大的不同点，在於书籍的功能是要被使用，使用如有损坏，让它再恢复成为一本书的样子。书籍不是一件素描作品或是一幅画，可以远远的欣赏。书籍是要在手中触摸，让读者享受翻阅展读的乐趣。修复师面对书籍修复的工作时，虽然也是属於纸张修复，但仍需区分清楚其伤害之异质处。

你说的那个《离骚》版本我不清楚，不知道具体是指哪些错字，不过古代人的错字其实是与文字和印刷的历史有关的。

古籍的错字有有很多原因：

第一，是前面朋友说的，古代与现代文字意义的变迁和增加，这其实不属于“错”的范围，而是语言发展变化的产物。

第二，古籍在文字统一前是根据不同地域而有不同书写习惯的，直到秦始皇统一文字才有了后来文化的普及，当时楚地、秦地、乃至齐鲁燕赵，都有各自的书体，因此在不同国家传播时，认读中出现的错误认识和书写也会延续到后代。

第三，古籍在印刷术发明前，多是以传抄的方式。因此在抄写时就会出现“讹”“夺”“衍”“漏”的情况。

“讹”就是上面说的，错误认字，而后因错就错。

“夺”就是误认某字为其他的字，或者是串行、串篇、串简等情况，抄写时抄错。这也与古书的装订方式有关，一大捧竹简木牍，如果装订绳断脱，重新整理编排次序可是个大问题。

“衍”就是抄写时自己添加了字，而后整篇文章就这样因错就错传给后人。

“漏”是说抄写时脱漏了原文，丢字拉字。

第四，这些问题在传抄和整理成底稿时就已经出了不少问题，当刻于金石、木版上，如果刻工不注意，或者偷懒或者手艺差，或者时间紧，也会出现字的变化和脱漏，比如出现很多异体字、简化字、缺笔字等，如果不及时校对发现，一旦重新拓印成书，就将错误形成固定的模式变成正常的了。

第五，古代君主们经常颁布各种时代的避讳字，一旦遇到就需要以同意字代替原文，后代有时不知道，就误将已代替的当作最早的版本，这样又形成了新的错误。不过明清以后是以缺笔划来处理避讳字，这在认识和考订时就方便不少。

第六，古代名人们也经常会出现自造字，如果后人不察，就会误为错字。

有啊，我学汉语言文学的。

恩《说文解字》是第一部以分析字形入手的字典。它是由许慎编写的。

至于《康熙字典》，它极其详细地分析字形，诠释字义，对字的来源也引许诸如明朝《正字通》这样的古籍，而且对于汉字的注音，它引《广韵》等注音法，特别是这本字典对异体字有详细介绍，现装最豪华的是内府影印本。但是这本书它的查阅太繁琐，就是很多字根据古代形体，跟我们现在的查阅方法有很大出入，所以如果你不专门研究古代汉语方向的话，不建议你买它。

从字形和来源入手的比较全的，还有《中华大字典》（商务印书局）、《汉语大字典》、《汉语大辞典》等，这几个和我们现代查阅方法基本相同，其中一本是汉语专家陆费奎先生编著的。

以上是从字形字义来源查阅分析实词的，如果是查阅虚词，你还可以找《助字辩略》等等，当然，古代汉语你也可以找《尔雅》但是关于这方面的古籍，价格都不菲哦