求扫描版古籍转文本的工具

栏目：古籍资讯发布：2023-10-20浏览：4收藏

求扫描版古籍转文本的工具,第1张

用office 的Document Imaging OCR文本识别功能，能从扫描文件中识别文字转换成文本或word格式文件；

从开始-程序-office-打开软件

先打开扫描的Tag图像文件格式的文件，点工具-‘使用OCR识别文本’识别出来，然后另存为文本文件。

字节出品的这6款AI工具鲜有人知但贼好用

关键词：字节出品6款免费AI神器

剪映

国内顶级剪辑软件

飞书妙记

语音转文字工具

火山翻译

翻译软件

海绵乐队APP

AI音乐创作

识典古籍

古籍阅读平台

剪映

国内顶级剪辑软件

剪映是完全免商的良心视频剪辑软件，它界面简洁干净，布局清晰，你可以非常容易上手操作，使用起来也是非常简单，并且功能全面，支持很多实用的黑科技功能，整体体验非常出色。

飞书妙记

语音转文字工具

长段的音视频如何快速转为文字向你安利这款完全免的语音转文字工具。点击上传按钮上传音视频，选择语言就能搞定转换。支持普通话、英语及日语。支持提取重点内容，自动整理出语音中高频出现的关键词

火山翻译

翻译软件

没想到，字节跳动还出过一款专业的翻译工具。界面非常简单，可功能一点都不少。支持多种音色朗读，提供了多个领域模型，包括科学技术、生物医疗以及金融等等，翻译行业文章效果更好。还有小程序版本哦! !

海绵乐队APP

AI音乐创作

音乐编辑器助手，在实现传统的录音、效果器同时，引入大量Al智能来协助创作，降低使用难度，提高创作趣味和效率。拥有四大创作功能，分别为: 录音棚、弹唱优化、一键Remix和自动Mashup。

识典古籍

籍阅读平台

识典古籍是抖音公益与北大合作共建的古籍阅读平台平台已上线390部经典古籍，共计3000多万字，向公众免费开放。被称为“世界有史以来最大的百科全书”的《永乐大典》已被收录其中。

1 怎样利用扫描仪,把书本上的文字转换成WORD文件

方法一、最简单的方法是选择一键OK的机器，直接选择带有这个快捷按键功能的机器，按一下即可转换到Word或者是Excel格式。

还有一种方法是选择汉王的软件有个文本王的版本，直接扫描进去后，选择插入WORD的图标，即可转换，明基的扫描仪最低端的机器都有配的。方法二、首先将扫描仪安装好，接下来启动“Microsoft Office/ Microsoft Office 工具/Microsoft Office Document Scanning”即可开始扫描。

提示：Office 2003默认安装中并没有这个组件，如果你第一次使用这个功能可能会要求你插入Office2003的光盘进行安装。由于是文字扫描通常我们选择“黑白模式”，点击扫描，开始调用扫描仪自带的驱动进行扫描。

这里也要设置为“黑白模式”，建议分辨率为300dpi。扫描完毕后回将自动调入Office 2003种另外一个组件“Microsoft Office Document Imaging”中。

点击工具栏中的“使用OCR识别文字”按键，就开始对刚才扫描的文件进行识别了。按下“将文本发送到Word”按键即可将识别出来的文字转换到Word中去了。

如果你要获取部分文字，只需要用鼠标框选所需文字，然后点击鼠标右键选择“将文本发送到Word”就将选中区域的文字发送到Word中就行了。建议安装Office的时候选择将其附加程序完全安装然后在XP系统下。

扫描仪连接后，双击扫描仪，会出来一个 Microsoft Office Documents Scanning 的提示选用它来扫描。待扫描完成后上方有个带word图标的按钮按一下。

就会发现你扫描的文字已经存在于word中了只不过他存出来是web格式的doc文档。再做简单的转化就行了这个微软的OCR识别效果相当好，而且对于像书一样的一次可以扫描左右两页并且它可以自动将这两页按页码顺序排布下来。

以上是在windows XP + Office 2003下运行通过方法三、用扫描仪扫描，并用OCR软件进行识别，输出成文本，粘贴到WORD就行了。OCR软件推荐尚书OCR、汉王OCR。

用扫描议扫为Adobe Acrobat Reader 简体中文版的文件，再用快照，粘出来就行了，文字还是文字，还是，也可以直接转换用扫描仪扫描，并用OCR软件进行识别，输出成文本，粘贴到WORD就行了。举个例子：以中晶扫描仪的识别软件-尚书OCR为例，将书本放到扫描仪的平板时，最好将书本夹角有文字处尽量贴向平板！以保证文字扫描时不会扭曲，可保证识别时的正确率！将文字区域扫描到尚书OCR软件以后，先确认左上角“文件”菜单下的系统配置是识别简体中文或者纯英文（注：繁体识别率会有所下降！）。

然后做下倾斜校正（在“编辑”菜单下），如果文字区域明显倾斜，有可能识别出来是乱码或错误信息！校正完成后，版面分析，工具栏上有图标，然后识别！最后点“输出”菜单输出到指定格式，选择“RTF”格式，这个保存出来就是Word文档了！方法四、安装OCR软件，在使用OCR软件识别前，可用用处理软件（例如：photoshop）处理一下，转换成黑白模式，并适当加大对比度，可以大大提高识别率。文字提取（OCR）图解教程或Microsoft Office Document Imaging(office2003中内含) OFFICE中有一个组件document image，功能一样的强大。

不仅扫描的文字，连数码相机拍的墙上的宣传告示上的字都能提取出来。第一步打开带有文字的或电子书籍等，找到你希望提取的页面，按下键盘上的"ALT+打印屏幕键（PrintScreen）"进行屏幕取图，或者用其他抓图软件。

保存成tif格式。第二步我们需要安装“Microsoft Office Document Imaging”的组件，点“开始→程序→Microsoft Office→Microsoft Office 工具 ”，在 “Microsoft Office 工具” 里点“ Microsoft Office Document Imaging” 然后打开，找到OCR识别工具（像眼睛），点击此工具，开始安装，这个时候就需要你把光盘（或虚拟光驱）的office安装文件。

第三步用 Microsoft Office Document Imaging打开，用OCR工具（图中红色筐圈部分）选取你要提取的文字，然后点右键，选择-复制到word或者记事本。或用摄像头作扫描仪输入文字：我们平时使用的摄像头大家好象只用作聊天了吧其实它的作用也是很广泛的好多的朋友在写论文，资料的时候总是要用一些书上的资料总是到打印社进行扫描打印，其实我们的摄像头就可以解决这个问题一，安装Microsoft office 2003 （仅以office 2003为例。

其它版本office均可）二，打开“开始→Microsoft office→Microsoft office工具→Microsoft office Document scannging”，如果该项未安装，系统则会自动安装。此时会弹出扫描新文件对话框，单击[扫描仪]按钮，在弹出的对话框中选中摄像头，并选中“在扫描前显示扫描仪驱动”复选框，再选中“黑白模式”，并选中“换页提示”和“扫描后查看文件”两项。

三，再单击[扫描]按钮即可进行扫描，在扫描过程中会弹出一个对话框，选中[格式]按钮，在“输出大小”中选择600480分辨率，然后将文稿放平，反复调节摄像头的焦距和位置，使画面达到最佳效果，点击[捕获]按钮即可得到画面，该会显示在“。

不得不说，的确很犀利。

MarginNote可以说是目前最强大的阅读神器，为什么说它强大呢？因为它集合了内容集成、标注、笔记、翻译、思维导图、主流生产力工具的存储甚至联动记忆等功能，可以说是非常逆天了。

说了这么多，应该如何操作这个神器呢？下面我仅说说就我层面上的使用方法：

1）有三个你必须要知道的模式

大纲模式

脑图模式

混合模式

说完了三个模式后，让我们谈谈使用过程中的技巧

卡片检索

MarginNote是由国人开发者Min独立完成的一款笔记App，适用于Mac、iPad、iPhone。它将PDF/EPUB阅读器和多种学习工具集成起来，支持方便的从网络搜索和下载书籍，使得学习者可以在学习时从不同的维度将知识进行重组连接，从而达到记住领会的效果，重塑学者的学习方式。

Marginnote曾被App store 评为月度最佳应用，列为编辑推荐；被Appso评为2016年最赞的10个iOS应用之一；被丘鹏飞评为2017年最贵却不心痛的iOS应用。

作为一款为深度阅读和学习提供强大功能的辅助工具，与大多软件不同的是，市面上的阅读器功能它都有，MarginNote注释显示在书页的侧边栏，细节优化得很好，开发者很用心。且支持语音备忘、涂画标记、文字说明等多种辅助备注方式，支持自由添加笔记、音频、手绘等，不受页面尺寸制约，就像在纸上的空白边缘处记笔记一样。标注方便搜索便捷，还支持将笔记自动同步到 Evernote 、Dropbox。

MN可以将巨量的内容信息整合到一张小卡片上，提高信息密度，可自定义卡片颜色，在MN中做笔记是加深思考的过程，侧重结构化，加深对内容的理解并且引用方便，可随时查看原文。 MN的整理笔记可以通过用思维导图和大纲两种方式，能做到主题阅读和适应碎片化阅读。软件支持中文，界面比较清爽，使用起来还是比较方便的。

最新的MarginNote 3新增了OCR功能，可以将扫描版PDF中的内容转换为文字，免去了手动输入的麻烦。对于每天都要跟文献打交道的人来说，这是一款真正能够帮助你的工具。

我你这招自问自答的广告玩的很溜嘛

说了这么多，应该如何操作这个神器呢？下面我仅说说就我层面上的使用方法：

1）有三个你必须要知道的模式

大纲模式

脑图模式

混合模式

说完了三个模式后，让我们谈谈使用过程中的技巧

卡片检索

作为一款深度阅读工具,用MarginNote进行学bai习无疑是最适合的。MarginNote设计简洁,功能强大,随着使用的深入,会逐步发现它大量隐藏的功能,可以满足所有爱学习人士的要求。

打开一本书打开MarginNote后,点击右上角的“+”号,你可以直接添加一本书;或者从其他书籍工具“分发”到MarginNote。Tips:1、点击书名右侧的“i”按钮,可“打开”、“重命名”、“删除”该书。

书籍分类管理为了便于书籍的管理,我们可以通过设置标签的方式进行分类。1、点击左上角“Add Tag”在其下方的左侧栏就会出现一个新的标签,并可以输入任何名字,最后轻点屏幕即完成便签的建立。2、点击右侧书籍列表中,每本书名的下面的“TAGS”即可对某书设置标签,每本书是可以拥有多个标签的。Tips:1标签右侧数字表示归于本标签的书籍数目。2标签修改:通过轻点某标签名的文字激活。3标签排序:长按某标签,当标签悬浮后,可对标签进行排序4标签归类:将某标签向左、右侧短滑动,可调整此标签的从属关系。5标签删除:将某标签向右侧长滑动,可弹出删除提示,确认后删除

同步EverNote通过与EverNote的同步,可以确保对书籍的注释不会丢失。1、点击左侧下方,进入“Settings”页面可以进行UI Styles、EverNote sync等相关设置。2、点击“EverNote Sync”设置“Evernote connection”及“Sync Internal”Tips:1、与Evernote同步后,所有注释均会在Evernote -> Notebooks -> MarginNote按书名进行同步存储。

斯蒂芬·平克说：“写作之难，在于把网状思考，用树状结构，体现在线性展开的语句里。”

我觉得，对应的，阅读之难，在于从线性展开的语句里，重组成树状结构，再抽象为网状思考。就在三个月前，我惊喜地发现了一款阅读+笔记软件能解决这个难点。它就是Marginnote（以下简称MN）。

icon

上一篇《捡贝壳的人—卡片学习法》从“道”的角度阐述了卡片的好处和使用原则，那么这一篇则说一下“器”。工欲善其事，必先利其器。没有一款称手的神兵利器，怎敢在知识的海洋里尽情遨游呢~

介绍MN之前得先说下MN的成绩和头衔，光是我说好，没有用，大家说好才是真的好。

被App store 评为“ 月度最佳应用”，列为“编辑推荐”；

被Appso评为2016年最赞的10个iOS应用之一；

被丘鹏飞评为2017年最贵却不心痛的iOS应用，没有之一；

正如同官网上所说， Marginnote是一款会重塑你学习方式的阅读笔记软件。 当之无愧。自从用了MN，我就再也没宠幸过kindle了。而且现在都只看电子书，不看纸质书了。虽然明知道电子书在元认知、记忆回放、深度理解、工作记忆加工、注意力持续时间上弱于纸质书（2011），但依然投入MN的怀抱。

MN简直是深度学习者的大宝SOD蜜，真的天天见。

好了，听我吹了那么久MN，那么用MN做读书笔记的正确姿势是什么样子的呢？

以下是主要的阅读+笔记流程，界面如下：

区域①是阅读区，显示的是学习材料（格式为PDF或EPUB），在材料上标注的部分会在区域②（笔记加工区）自动地形成一张卡片（cards），卡片自由组合形成思维导图（mindmap）。区域①右侧是笔记以批注形式显示的样子，我一般都会关闭。

MN 基本功能齐全且好用，市面上的阅读器功能它都有，而且细节优化得很好，开发者很用心。以下几个设计我认为可圈可点：

标注方便：包括荧光笔高亮、划线、页面书写、圈注等功能。

搜索便捷：内含字典翻译和网络搜索。只需要在材料选中特定字句，就能以它为关键词在知乎、百度、Google、Wiki 上查找。整个操作不需要跳转至其他界面就能完成。找到需要的可以直接拖拽到MN中成为笔记。

分割书视图：可以两三本书一起对比着看

当然有这些还不足以成为我心目中的神器，接下来要说的是，MN中我最心水的两个设计理念：

一、卡片

1、秉承着最小化行动的原则，在MN上，能把巨量的信息裁剪成一张张小卡片：标注的内容会自动在mindmap中形成一张卡片，然后可以在卡片上做笔记（打字、语音、、手写都行）

且看一个例子：

首先通过标注生成的卡片只有原文（区域①），我一般是概括总结下原文形成标题（区域②），然后发散地写一下感想与心得（区域③），让新的知识和我已经知道的知识缝合在一起。 这样针对一个知识点，既有总结又有发散，就做到了华罗庚所说的“把厚书读薄，把薄书读厚”。

写笔记时，界面可以全是编辑卡片的界面， 让心力全都聚焦于一张小小的卡片中， 提高信息密度。而且阅读界面和笔记界面切换流畅，意随心动。

2、可以用卡片颜色来区分不同类型的卡片，这个是自定义的。

这是我目前的颜色定义：

淡**：概念卡

淡绿色：技巧行动卡

桃红色：反常识卡

橙**：人名卡或故事例子卡

湖蓝色：金句美学卡

紫红色：术语模因卡

中灰色：原文论述正确性存疑。

卡片定义了颜色或者打上标签（Hashtag），方便集成并提取相同主题的卡片，再也不用逐个笔记去翻阅了。

3、卡片还能在MN里复习，复习算法是符合间隔效应的， 和anki类似。同时也支持导出卡片到anki，anki是一款国外很火也很赞的一款提高记忆效率的软件。我从来没试过导出到anki的功能，因为目前看的材料都不需要背，而且我anki的卡片都是喜欢自己做的。（我用MN之前就用了anki）不过看到开发者能考虑到卡片复习并且支持anki，对我来说是心有戚戚，32个赞马上送上。

4、点击卡片后能立马回到原文，随时查看原文，重复看上下文：加深理解+引用方便；

二、思维导图

1、在MN的混合模式下，你可以边看材料边做思维导图，重新按照你的理解去组织笔记和重要信息的逻辑关系。

为什么能做思维导图那么重要？

MIT 认知科学家 Josh 发表在 pnas 的论文中，比较了抽象知识的不同表征结构，如星形结构、聚类结构、环形结构等等，最终发现，人类的最佳抽象知识结构是树形结构。

安人心智的科学总监阳志平曾说：

不仅如此，在思维导图中，卡片之间还可以添加联系：按住一张卡片后，会出现气泡，把气泡移到另外一张卡片上即可建立连接，是以一条虚线显示。此后，建立了通道后的卡片可以随意切换。让树状结构变成网状思维。

2、使用MN能做到主题阅读和适应碎片化阅读：

MN支持就一个主题建立一个笔记本，然后把这个主题中精彩的PDF资料都拖进去，很适合主题阅读；在网页上看到的相关资料通过EPUB转存功能拖进来，把网页上的碎片化的知识下载下来，离线也能查看。

要说的一个小技巧就是：我经常是用浏览器自带的阅读模式，屏蔽广告，纯净阅读。因为有时候下载web时会有乱码或其他我不想要的内容，所以我是打印网页为PDF。用Safari打印网页后，双指放大要打印的页面，右上角才会出现个“分享到MN”。

说下我两个使用习惯：

1、与Evernote（印象笔记）同步