中国古籍被AI找回，我国目前的AI水平如何？

栏目：古籍资讯发布：2023-10-31浏览：3收藏

中国古籍被AI找回，我国目前的AI水平如何？,第1张

5月18日，一批珍藏于加州大学伯克利分校的中文古籍善本，以数字化方式回归故土，落地汉典重光古籍平台。借助阿里达摩院的技术，首批20万页古籍已完成数字化，并沉淀为覆盖3万多字的古籍字典，公众可通过汉典重光平台翻阅、检索古籍。据悉，达摩院AI对20万页古籍的识别准确率达到975%。

百度AI在国内属于什么水平？

绝对是一个第一流的前三名啊，这是一点问题没有的。不是传统的这个搜索，现在基本上来讲就是两大块。无人车也是挂在这个人工智能里头的，它剩下的那些边缘的东西基本上都砍掉了，这个公司的市值和你这个公司本身的这个技术水准其实未必是直线挂钩的，尤其是在中国这个市场，你这一个公司说白了，你这个业务线越多，你干的事业部越多，那你表面上，你的这个产值就高，用户人群也高，你不聚焦呀，然后你赶上现在红利期的时候，表面上觉得轰轰烈烈，但是一旦非红利期的时候不就不行了吗？

我国AI发展到什么程度了？

这几年AI企业爆发式增长，具体查查数据显示18年新增的AI企业比17年翻了一倍，达到了19,000家。19年比18年增长了70%达到了3万家，2020年上半年AI企业的数量突破了56万家。这背后AI正在下沉，沉到各行各业，成为传统生产力的一部分。为什么AI公司数量还在爆发式增长，因为现在大量的AI公司其实并不是受投资人追捧，有团队有技术的AI公司，他们更多是深入到各行各业，甚至有可能成为一些人眼里的伪AI公司，他们可能不掌握核心技术，重点是做服务搞商业。但伪AI公司的涌现正在说明在某些方面AI技术的门槛已在降低，基础已经建设到了一定程度。“旧时王谢堂前燕”的AI技术已成为标签元素，进入到了各种寻常百姓家。

中国AI在医疗方面优势巨大。

如今AI进到生物化学，药学，病理学，在这个医疗方面我觉得真的是开启了一个新的时代，在这一块我认为中国有巨大的优势，一种是它的新举国体制，而且他需要调动很多资源，比如说它的临床研究啊，那些医生医学，那需要原来做制药的公司也进来，基因测序的这些公司也进来，然后原来生物化学那些专家也进来，然后ai的人再进来。很少见全世界现在有哪个国家或哪个地方能够有这样的一个能力去调动这些资源，那我是看到中国的确有这样的一个能力，这个能力可能啊，我觉得我们有可能在这个领域可能比美国还要先进。我认为10年时间啊，有可能我们会走美国前面。

我们（清华大学图书馆）使用赛数OS14000 A1、OS14000 A0等专业高精度非接触式书刊扫描仪进行古籍、地契、拓片等珍贵馆藏数字化工作，以此为基础形成海量电子资源，并充分利用网络信息环境，面向读者提供全网域、全媒体类型的资源发现和获取服务，他们不改初心，坚持正确的事。

KABIS全自动案卷书刊扫描机器人

KABIS是由美国最专业的全自动机器人制造商Kirtas公司最新推出的划时代的扫描机器人产品。其完美的摸拟人手臂真空吸附翻页技术，甚至比人手翻页更加的轻柔。最大程度的减少因为人手的触碰对珍贵原件的损毁。每小时最高达3000页的全自动扫描速度，724小时不停机的完美工业级设计。可以承受最高速和最高强度的数字化工作。KABIS将和您一起迈向数字化40时代。

强大的全自动扫描控制系统包括了更多自动化功能，以最小的干预，最高效精确的处理图像、OCR识别、全自动标注图书案卷索引元数据。

1 怎样利用扫描仪,把书本上的文字转换成WORD文件

方法一、最简单的方法是选择一键OK的机器，直接选择带有这个快捷按键功能的机器，按一下即可转换到Word或者是Excel格式。

还有一种方法是选择汉王的软件有个文本王的版本，直接扫描进去后，选择插入WORD的图标，即可转换，明基的扫描仪最低端的机器都有配的。方法二、首先将扫描仪安装好，接下来启动“Microsoft Office/ Microsoft Office 工具/Microsoft Office Document Scanning”即可开始扫描。

提示：Office 2003默认安装中并没有这个组件，如果你第一次使用这个功能可能会要求你插入Office2003的光盘进行安装。由于是文字扫描通常我们选择“黑白模式”，点击扫描，开始调用扫描仪自带的驱动进行扫描。

这里也要设置为“黑白模式”，建议分辨率为300dpi。扫描完毕后回将自动调入Office 2003种另外一个组件“Microsoft Office Document Imaging”中。

点击工具栏中的“使用OCR识别文字”按键，就开始对刚才扫描的文件进行识别了。按下“将文本发送到Word”按键即可将识别出来的文字转换到Word中去了。

如果你要获取部分文字，只需要用鼠标框选所需文字，然后点击鼠标右键选择“将文本发送到Word”就将选中区域的文字发送到Word中就行了。建议安装Office的时候选择将其附加程序完全安装然后在XP系统下。

扫描仪连接后，双击扫描仪，会出来一个 Microsoft Office Documents Scanning 的提示选用它来扫描。待扫描完成后上方有个带word图标的按钮按一下。

就会发现你扫描的文字已经存在于word中了只不过他存出来是web格式的doc文档。再做简单的转化就行了这个微软的OCR识别效果相当好，而且对于像书一样的一次可以扫描左右两页并且它可以自动将这两页按页码顺序排布下来。

以上是在windows XP + Office 2003下运行通过方法三、用扫描仪扫描，并用OCR软件进行识别，输出成文本，粘贴到WORD就行了。OCR软件推荐尚书OCR、汉王OCR。

用扫描议扫为Adobe Acrobat Reader 简体中文版的文件，再用快照，粘出来就行了，文字还是文字，还是，也可以直接转换用扫描仪扫描，并用OCR软件进行识别，输出成文本，粘贴到WORD就行了。举个例子：以中晶扫描仪的识别软件-尚书OCR为例，将书本放到扫描仪的平板时，最好将书本夹角有文字处尽量贴向平板！以保证文字扫描时不会扭曲，可保证识别时的正确率！将文字区域扫描到尚书OCR软件以后，先确认左上角“文件”菜单下的系统配置是识别简体中文或者纯英文（注：繁体识别率会有所下降！）。

然后做下倾斜校正（在“编辑”菜单下），如果文字区域明显倾斜，有可能识别出来是乱码或错误信息！校正完成后，版面分析，工具栏上有图标，然后识别！最后点“输出”菜单输出到指定格式，选择“RTF”格式，这个保存出来就是Word文档了！方法四、安装OCR软件，在使用OCR软件识别前，可用用处理软件（例如：photoshop）处理一下，转换成黑白模式，并适当加大对比度，可以大大提高识别率。文字提取（OCR）图解教程或Microsoft Office Document Imaging(office2003中内含) OFFICE中有一个组件document image，功能一样的强大。

不仅扫描的文字，连数码相机拍的墙上的宣传告示上的字都能提取出来。第一步打开带有文字的或电子书籍等，找到你希望提取的页面，按下键盘上的"ALT+打印屏幕键（PrintScreen）"进行屏幕取图，或者用其他抓图软件。

保存成tif格式。第二步我们需要安装“Microsoft Office Document Imaging”的组件，点“开始→程序→Microsoft Office→Microsoft Office 工具 ”，在 “Microsoft Office 工具” 里点“ Microsoft Office Document Imaging” 然后打开，找到OCR识别工具（像眼睛），点击此工具，开始安装，这个时候就需要你把光盘（或虚拟光驱）的office安装文件。

第三步用 Microsoft Office Document Imaging打开，用OCR工具（图中红色筐圈部分）选取你要提取的文字，然后点右键，选择-复制到word或者记事本。或用摄像头作扫描仪输入文字：我们平时使用的摄像头大家好象只用作聊天了吧其实它的作用也是很广泛的好多的朋友在写论文，资料的时候总是要用一些书上的资料总是到打印社进行扫描打印，其实我们的摄像头就可以解决这个问题一，安装Microsoft office 2003 （仅以office 2003为例。

其它版本office均可）二，打开“开始→Microsoft office→Microsoft office工具→Microsoft office Document scannging”，如果该项未安装，系统则会自动安装。此时会弹出扫描新文件对话框，单击[扫描仪]按钮，在弹出的对话框中选中摄像头，并选中“在扫描前显示扫描仪驱动”复选框，再选中“黑白模式”，并选中“换页提示”和“扫描后查看文件”两项。

三，再单击[扫描]按钮即可进行扫描，在扫描过程中会弹出一个对话框，选中[格式]按钮，在“输出大小”中选择600480分辨率，然后将文稿放平，反复调节摄像头的焦距和位置，使画面达到最佳效果，点击[捕获]按钮即可得到画面，该会显示在“。

如何才能快速地把纸质文献转变成数字化资源？这就必然要用到扫描仪。考虑到图书的装订形式和图书馆数字化的工作量等因素，只有专业的非接触式书刊扫描仪才能胜任这项工作。北京市汉龙实业公司的赛数系列扫描仪广泛应用于全国各地各级的图书馆。