求扫描版古籍转文本的工具

栏目:古籍资讯发布:2023-08-18浏览:1收藏

求扫描版古籍转文本的工具,第1张

用office 的Document Imaging OCR文本识别功能,能从扫描文件中识别文字转换成文本或word格式文件;

从开始-程序-office-打开软件

先打开扫描的Tag图像文件格式的文件,点 工具-‘使用OCR识别文本’识别出来,然后另存为文本文件。

修改标点置中的方法将段落中所有标点居中的一个参考做法。利用正则表达式替换文章中的标点符号,将文章所有的标点符号都加入为“span”,并定义标点符号的字体为“Song T”,这样就标点符号调用了繁体宋体字,可以与正文的字体区别,标点是可以居中。缺点:代码会显得很繁琐、不够简洁美观,当标点数量比较多时,编辑处理和验证EPUB文件的时间会很慢,甚至可能造成Sigil卡死。模仿古籍书从右往左翻,在contentopf中编辑,<spine toc="ncx">,加上page-progression-direction="rtl"的内容,变成<spine toc="ncx" page-progression-direction="rtl">。⑤添加KindleGen转换时识别竖排的属性。在contentopf文件中添加,<meta  name="primary-writing-mode" content="vertical-rl"/>。

热门文章
    确认删除?
    回到顶部