求扫描版古籍转文本的工具
用office 的Document Imaging OCR文本识别功能,能从扫描文件中识别文字转换成文本或word格式文件;
从开始-程序-office-打开软件
先打开扫描的Tag图像文件格式的文件,点 工具-‘使用OCR识别文本’识别出来,然后另存为文本文件。
修改标点置中的方法将段落中所有标点居中的一个参考做法。利用正则表达式替换文章中的标点符号,将文章所有的标点符号都加入为“span”,并定义标点符号的字体为“Song T”,这样就标点符号调用了繁体宋体字,可以与正文的字体区别,标点是可以居中。缺点:代码会显得很繁琐、不够简洁美观,当标点数量比较多时,编辑处理和验证EPUB文件的时间会很慢,甚至可能造成Sigil卡死。模仿古籍书从右往左翻,在contentopf中编辑,<spine toc="ncx">,加上page-progression-direction="rtl"的内容,变成<spine toc="ncx" page-progression-direction="rtl">。⑤添加KindleGen转换时识别竖排的属性。在contentopf文件中添加,<meta name="primary-writing-mode" content="vertical-rl"/>。
上一篇:书籍装帧中蝴蝶装的详细资料下一篇:佛经用什么字体
本文2023-08-18 05:54:07发表“古籍资讯”栏目。
本文链接:https://www.yizhai.net/article/53020.html
最新文档
热门文章