介绍一下OCR技术

栏目：古籍资讯发布：2023-10-11浏览：6收藏

介绍一下OCR技术,第1张

OCR技术是光学字符识别的缩写(Optical Character Recognition)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本，通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据；而相对于表格及票据，通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。

OCR识别技术不仅具有可以自动判断、拆分、识别和还原各种通用型印刷体表格，在表格理解上做出了令人满意的实用结果，能够自动分析文稿的版面布局，自动分栏、并判断出标题、横栏、图像、表格等相应属性，并判定识别顺序，能将识别结果还原成与扫描文稿的版面布局一致的新文本。表格自动录入技术，可自动识别特定表格的印刷或打印汉字、字母、数字，可识别手写体汉字、手写体字母、数字及多种手写符号，并按表格格式输出。提高了表格录入效率，可节省大量人力。同时支持将表格识别直接还原成PTF、PDF、HTML等格式文档；并可以对图像嵌入横排文本和竖排文本、表格文本进行自动排版面分析。

采用OCR识别技术,可以将其应用于银行票据光盘缩微系统，可以自动提取票据要素，可减轻操作员的工作量，减少重复劳动，尤其是在与银行事后且监督系统相结合后，可以替代原先的操作人员完成事后监督工作。由计算机自动识别票据上的日期、帐号、金额等要素，通过银行事后监督系统与业务系统中的数据进行比较，完成传统的事后监督操作；配有印章验证系统后，自动将凭证图像中的印章与系统中预留的印鉴进行比较，完成印章的真伪识别。

利用目前的高新技术-OCR，直接从凭证影像中提取金额、帐号等重要数据，代替人的手工录入，与条码识别/流水识别紧密结合，实现建立事后副本帐、完成事后监督的工作。OCR处理一般使用性能较好的PC机，OCR处理程序一经启动会自动扫描数据库中的凭证影像，发现有需OCR处理而未处理的，提取到本地进行处理。

OCR手写体、印刷体识别技术，能识别不同人写的千差万别的手写体汉字和数字，应用于本系统，识别凭证影像中储户填写的信息，如大写金额、小写金额、帐号、存期、日期、证件号等，可以代替手工录入。同时被识别得出的金额还要与流水识别所得的金额进行核对，核对成功，则OCR识别成功。这样处理是为了避免误判。

经过对银行产生的实际凭证进行的大量测试，在实际开发过程中，根据银行的实际需求，OCR技术在票据和表格识别能力和手写体自动识别能力上不断提升，目前处理速度可达到每分钟60～80张票据，存折识别率已经达到了85％以上，存单、凭条识别率达到90％以上，而85％以上的识别率就能减少80％以上的数据录入员。

自动识别技术是将信息数据自动识读、自动输入计算机的重要方法和手段，它是以计算机技术和通信技术为基础的综合性科学技术。近几十年内自动识别技术在全球范围内得到了迅猛发展，目前已形成了一个包括条码、磁识别、光学字符识别、射频识别、生物识别及图像识别等集计算机、光、机电、通信技术为一体的高新技术学科。

[编辑]

自动识别技术的主要分类[1]

　　按照国际自动识别技术的分类标准，自动识别技术可以有两种分类方法：一种是按照采集技术进行分类，其基本特征是需要被识别物体具有特定的识别特征载体(如标签等，仅光学字符识别例外)，可以分为光存储器、磁存储器和电存储器三种；另一种是按照特征提取技术进行分类，其基本特征是根据被识别物体的本身的行为特征来完成数据的自动采集，可以分为静态特征、动态特征和属性特征。

　　自动识别技术具有如下共同的特点：

　　准确性——自动数据采集，彻底消除人为错误；

　　高效性——信息交换实时进行；

　　兼容性——自动识别技术以计算机技术为基础，可与信息管理系统无缝联结。

KABIS全自动案卷书刊扫描机器人

KABIS是由美国最专业的全自动机器人制造商Kirtas公司最新推出的划时代的扫描机器人产品。其完美的摸拟人手臂真空吸附翻页技术，甚至比人手翻页更加的轻柔。最大程度的减少因为人手的触碰对珍贵原件的损毁。每小时最高达3000页的全自动扫描速度，724小时不停机的完美工业级设计。可以承受最高速和最高强度的数字化工作。KABIS将和您一起迈向数字化40时代。

强大的全自动扫描控制系统包括了更多自动化功能，以最小的干预，最高效精确的处理图像、OCR识别、全自动标注图书案卷索引元数据。

OCR是光学字符识别的缩写，OCR技术简单来说就是将文字信息转换为图像信息，然后再利用文字识别技术将图像信息转化为可以使用的输入技术。

OCR的功能：

1、OCR识别技术不仅具有可以自动判断、拆分、识别和还原各种通用型印刷体表格，还在表格理解上做出了令人满意的实用结果。

2、OCR能够自动分析文稿的版面布局，自动分栏、并判断出标题、横栏、图像、表格等相应属性，并判定识别顺序，能将识别结果还原成与扫描文稿的版面布局一致的新文本。

3、OCR还可以支持表格自动录入技术，可自动识别特定表格的印刷或打印汉字、字母、数字，可识别手写体汉字、手写体字母、数字及多种手写符号，并按表格格式输出。提高了表格录入效率，可节省大量人力。

扩展资料：

欲经过OCR处理的标的物须透过光学仪器，如影像扫描仪、传真机或任何摄影器材，将影像转入计算机。科技的进步，扫描仪等的输入装置已制作的愈来愈精致，轻薄短小、品质也高，对OCR有相当大的帮助，扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。

影像预处理：影像预处理是OCR系统中，须解决问题最多的一个模块。影像须先将、表格及文字区域分离出来，甚至可将文章的编排方向、文章的提纲及内容主体区分开，而文字的大小及文字的字体亦可如原始文件一样的判断出来。

-OCR技术