什么是OCR技术

栏目：古籍资讯发布：2023-10-22浏览：4收藏

什么是OCR技术,第1张

OCR （Optical Character Recognition，光学字符识别）技术是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

比如厦门云脉公司基于成熟的OCR技术，推出了文档识别、身份证识别、票据识别、名片识别、银行卡识别、车牌识别等OCR识别应用

我就是经常做识别的，我经常用 Adobe AcroPro90，识别率都在90%以上的，你从网上下一个，大小在600多M，这是我用过功能最强的。另外你也可以用紫光ORC和尚书七号，也不错。要是你安装软件安装失败，而不是安装完使用过程中识别率低，那就是你电脑问题了，请重做系统。

另外，如果识别率低或出现乱码，是因为你的像素太低。扫描时请把像素设置在不低于300dpi。格式最好是TIF，这样现在的书籍识别率可达95%以上，当然不包括古籍和繁体字识别。

OCR（Optical Character Recognition，光学字符识别），是属于图型识别（Pattern Recognition，PR）的一门学问。其目的就是要让计算机知道它到底看到了什么，尤其是文字资料。

由于OCR是一门与识别率拔河的技术，因此如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题，ICR（Intelligent Character Recognition）的名词也因此而产生。而根据文字资料存在的媒体介质不同，及取得这些资料的方式不同，就衍生出各式各样、各种不同的应用。

在此对OCR作一基本介绍，包括其技术简介以及其应用介绍。

一、OCR的发展

要谈OCR的发展，早在60、70年代，世界各国就开始有OCR的研究，而研究的初期，多以文字的识别方法研究为主，且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例，1960年左右开始研究OCR的基本识别理论，初期以数字为对象，直至1965至1970年之间开始有一些简单的产品，如印刷文字的邮政编码识别系统，识别邮件上的邮政编码，帮助邮局作区域分信的作业；也因此至今邮政编码一直是各国所倡导的地址书写方式。

OCR可以说是一种不确定的技术研究，正确率就像是一个无穷趋近函数，知道其趋近值，却只能靠近而无法达到，永远在与100%作拉锯战。因为其牵扯的因素太多了，书写者的习惯或文件印刷品质、扫描仪的扫瞄品质、识别的方法、学习及测试的样本……等等，多少都会影响其正确率，也因此，OCR的产品除了需有一个强有力的识别核心外，产品的操作使用方便性、所提供的除错功能及方法，亦是决定产品好坏的重要因素。

一个OCR识别系统，其目的很简单，只是要把影像作一个转换，使影像内的图形继续保存、有表格则表格内资料及影像内的文字，一律变成计算机文字，使能达到影像资料的储存量减少、识别出的文字可再使用及分析，当然也可节省因键盘输入的人力与时间。其处理流程如下图：

(在下面的站点上）

从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正，将结果输出。

在此逐一介绍：

影象输入：欲经过OCR处理的标的物须透过光学仪器，如影像扫描仪、传真机或任何摄影器材，将影像转入计算机。科技的进步，扫描仪等的输入装置已制作的愈来愈精致，轻薄短小、品质也高，对OCR有相当大的帮助，扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。

影象前处理：影像前处理是OCR系统中，须解决问题最多的一个模块，从得到一个不是黑就是白的二值化影像，或灰阶、彩色的影像，到独立出一个个的文字影像的过程，都属于影像前处理。包含了影像正规化、去除噪声、影像矫正等的影像处理，及图文分析、文字行与字分离的文件前处理。在影像处理方面，在学理及技术方面都已达成熟阶段，因此在市面上或网站上有不少可用的链接库；在文件前处理方面，则凭各家本领了；影像须先将、表格及文字区域分离出来，甚至可将文章的编排方向、文章的题纲及内容主体区分开，而文字的大小及文字的字体亦可如原始文件一样的判断出来。

文字特征抽取：单以识别率而言，特征抽取可说是OCR的核心，用什么特征、怎么抽取，直接影响识别的好坏，也所以在OCR研究初期，特征抽取的研究报告特别的多。而特征可说是识别的筹码，简易的区分可分为两类：一为统计的特征，如文字区域内的黑/白点数比，当文字区分成好几个区域时，这一个个区域黑/白点数比之联合，就成了空间的一个数值向量，在比对时，基本的数学理论就足以应付了。而另一类特征为结构的特征，如文字影像细线化后，取得字的笔划端点、交叉点之数量及位置，或以笔划段为特征，配合特殊的比对方法，进行比对，市面上的线上手写输入软件的识别方法多以此种结构的方法为主。

对比数据库：当输入文字算完特征后，不管是用统计或结构的特征，都须有一比对数据库或特征数据库来进行比对，数据库的内容应包含所有欲识别的字集文字，根据与输入文字一样的特征抽取方法所得的特征群组。

对比识别：这是可充分发挥数学运算理论的一个模块，根据不同的特征特性，选用不同的数学距离函数，较有名的比对方法有，欧式空间的比对方法、松弛比对法（Relaxation）、动态程序比对法（Dynamic Programming，DP），以及类神经网络的数据库建立及比对、HMM（Hidden Markov Model）…等著名的方法，为了使识别的结果更稳定，也有所谓的专家系统（Experts System）被提出，利用各种特征比对方法的相异互补性，使识别出的结果，其信心度特别的高。

字词后处理：由于OCR的识别率并无法达到百分之百，或想加强比对的正确性及信心值，一些除错或甚至帮忙更正的功能，也成为OCR系统中必要的一个模块。字词后处理就是一例，利用比对后的识别文字与其可能的相似候选字群中，根据前后的识别文字找出最合乎逻辑的词，做更正的功能。

字词数据库：为字词后处理所建立的词库。

人工校正：OCR最后的关卡，在此之前，使用者可能只是拿支鼠标，跟着软件设计的节奏操作或仅是观看，而在此有可能须特别花使用者的精神及时间，去更正甚至找寻可能是OCR出错的地方。一个好的OCR软件，除了有一个稳定的影像处理及识别核心，以降低错误率外，人工校正的操作流程及其功能，亦影响OCR的处理效率，因此，文字影像与识别文字的对照，及其屏幕信息摆放的位置、还有每一识别文字的候选字功能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词，都是为使用者设计尽量少使用键盘的一种功能，当然，不是说系统没显示出的文字就一定正确，就像完全由键盘输入的工作人员也会有出错的时候，这时要重新校正一次或能允许些许的错，就完全看使用单位的需求了。

结果输出：其实输出是件简单的事，但却须看使用者用OCR到底为了什么？有人只要文本文件作部份文字的再使用之用，所以只要一般的文字文件、有人要漂漂亮亮的和输入文件一模一样，所以有原文重现的功能、有人注重表格内的文字，所以要和Excel等软件结合。无论怎么变化，都只是输出档案格式的变化而已。

ocr的中文意思是光学字符识别。

OCR（Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

OCR是针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

扩展资料：

一个OCR识别系统，其目的很简单，只是要把影像作一个转换，使影像内的图形继续保存、有表格则表格内资料及影像内的文字，一律变成计算机文字，使能达到影像资料的储存量减少、识别出的文字可再使用及分析，当然也可节省因键盘输入的人力与时间。

从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正，将结果输出。

随着科技的越来越发达,逐渐的扫描文档的文字识别也采用了OCR识别技术,大大提高了识别的质量和效率,扫描的文档可以使用迅捷文字识别这个工具,采用OCR识别技术,大大提高了识别的准确度

操作方法如下:

首先打开手机,连接好网络,在手机桌面上下载一个识别工具(迅捷文字识别),然后打开使用,这里选择识别,

然后点击"立即使用",选择要识别的进行识别

等待识别完成后看看他的效果,点击识别即可

上面几步就是扫描识别文档的操作方法,希望可以帮助你,祝您生活愉快

OCR技术其实说白了就是一种识别技术，比如说将上的文字经过识别扫面的方式转化成TXT文档或者是word格式，也可以将音频转化成文字的一种技术。具体的话，它包含的有什么语音识别，截图识别，银行卡识别，车票识别，营业执照识别，驾驶证识别等等这些功能吧。如果你还有点不懂的话，可以实际去操作一些OCR文字识别软件的功能。

姓名:吴兆阳学号:14020199009

转自机器人学习研究会

嵌牛导读:OCR（Optical Character Recognition，光学字符识别）的概念早于1920年代便被提出，一直是模式识别领域中重要的研究方向。近年来，随着移动设备的快速更新迭代，以及移动互联网的快速发展，使得OCR有更为广泛的应用场景，从以往的扫描文件的字符识别，到现在应用到自然场景中文字的识别，如识别身份证、银行卡、门牌、票据及各类网络中的文字。

嵌牛鼻子:ORC技术

嵌牛提问:什么是ORC，如何使用？

嵌牛正文:

以深度学习兴起的时间为分割点，直至近五年之前，业界最为广泛使用的仍然是传统的OCR识别技术框架，而随着深度学习的崛起，基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈（如文字定位、二值化和文字分割等），并已在工业界得到广泛应用。

笔者针对业务中的身份证照片文字识别需求分别尝试了传统OCR识别框架及基于深度学习的OCR识别框架。下面就以身份证文字识别为例分别简要介绍两种识别框架。

传统OCR技术框架

如上图所示，传统OCR技术框架主要分为五个步骤：

首先文本定位，接着进行倾斜文本矫正，之后分割出单字后，并对单字识别，最后基于统计模型（如隐马尔科夫链，HMM）进行语义纠错。可按处理方式划分为三个阶段：预处理阶段、识别阶段和后处理阶段。其中关键在于预处理阶段，预处理阶段的质量直接决定了最终的识别效果，因此这里详细介绍下预处理阶段。

预处理阶段中包含了三步：

定位中的文字区域，而文字检测主要基于连通域分析的方法，主要思想是利用文字颜色、亮度、边缘信息进行聚类的方式来快速分离文字区域与非文字区域，较为流行的两个算法分别是：最大极值稳定区域(MSER)算法及笔画宽度变换(SWT)算法，而在自然场景中因受到光照强度、拍摄质量和类文字背景的干扰，使得检测结果中包含非常多的非文字区域，而目前从候选区域区分出真正文字区域主要两种方法，用规则判断或轻量级的神经网络模型进行区分；

文本区域图像矫正，主要基于旋转变换和仿射变换；

行列分割提取出单字，这一步利用文字在行列间存在间隙的特征，通过二值化并在投影后找出行列分割点，当在文字与背景的区分度较好时，效果很好，而拍摄的中光照、摄像质量的影响，并且文字背景难以区分时，常造成错误分割的情况。

下面介绍基于传统OCR框架处理身份证文字识别：

身份证识别技术流程与上述框架稍微有所差异。对该问题，已知先验信息：a证件长宽固定；b字体及大小一致；c文本相对于证件位置固定；d存在固定文字。因此，处理该问题的思路为：先定位目标物体（证件），矫正后提取文字进行识别，最后进行语义纠错，如下图：

目标物体定位并矫正。基于现有的先验信息，定位最后的方法为采用模板关键点特征匹配的方法，并利用模板上特征点及目标图像特征点坐标之间的关系进行透视变换，以定位目标物体，如下图所示。接着，基于四角的坐标，进行旋转、仿射、尺寸的变换，并提取出目标物体的俯视图。

因文字位置相对固定，接着便分割出文字区域，二值化后，行列分割出单个字符。这里的技术难点在于二值化，二值化效果的好坏直接影响字符分割，并最终影响识别结果。受光照和拍摄质量的影响，全局二值化难以设置统一的阈值，而自适应二值化算法易受到阴影及模糊边界的干扰。所以在这边尝试过许多方法，测试下来未发现在任何情形下效果都满足要求的方法。

分割出单字后接着用分类器进行识别，并在这步基于统计上的先验信息定义了一个简单的优化函数，可看做1-gram语言模型。先验信息为：2400（总共660273）汉字的使用频率之和为99%以上。定义的优化函数为：

式中，Pi为该字出现的概率，confi为置信度值。

下图给出了示例：

因上述的优化过程中假定各状态相互独立并与上一状态没有联系，故不可避免存在语义上的错误。而如何基于现有的输出序列，对序列进行语义上的修正，那么最直观的想法就是用隐马尔可夫模型（Hidden Markov Model，HMM）解决这个问题，其基于观察序列，求出最优隐序列。其可以抽象为如下图的过程。在给定O序列情况下，通过维特比算法，找出最优序列S：

传统OCR冗长的处理流程以及大量人工规则的存在，使得每步的错误不断累积，而使得最终识别结果难以满足实际需求。接下来讨论基于深度学习的OCR。

基于深度学习的OCR识别框架

目前，从技术流程上来说，主要分为两步，首先是检测出图像中的文本行，接着进行序列识别。可见，基于深度学习的OCR识别框架相比于传统OCR识别框架，减少了三个步骤，降低了因误差累积对最终识别结果的影响。

文本行检测，其又可分为水平行文字检测算法与倾斜文字行检测算法。这里主要介绍下Tian提出算法CTPN，其算法框架如下图。主要思路是将文本行识别看做一个序列识别问题，不同于一般的目标检测问题，引入RNN来利用上下文的信息。

具体流程为：

用VGG16的5个卷积层得到特征图（feature map，WHC）；

在Conv5的feature map的每个位置上取33C的窗口的特征，这些特征将用于预测该位置k个anchor（anchor的定义和Faster RCNN类似）对应的类别信息，位置信息；

将每一行的所有窗口对应的33C的特征（W33C）输入到RNN（BLSTM）中，得到W256的输出；

将RNN的W256输入到512维的fc层；

fc层特征输入到三个分类或者回归层中。第二个2k scores 表示的是k个anchor的类别信息（是字符或不是字符）。第一个2k vertical coordinate和第三个k side-refinement是用来回归k个anchor的位置信息。2k vertical coordinate表示的是bounding box的高度和中心的y轴坐标（可以决定上下边界），k个side-refinement表示的bounding box的水平平移量。这边注意，只用了3个参数表示回归的bounding box，因为这里默认了每个anchor的width是16，且不再变化（VGG16的conv5的stride是16）。回归出来的box如Fig1中那些红色的细长矩形，它们的宽度是一定的；

用简单的文本线构造算法，把分类得到的文字的proposal（图Fig1（b）中的细长的矩形）合并成文本线。

上图为给出基于CTPN的例子，框线部分是算法识别出的文字行，可见在光照不均、人工合成及文字背景对比不明显的情形下均有很好的效果。相比于传统文字定位方法，具有更好的鲁棒性及明显的优势。

文字行识别。近两年比较受关注的主要有两种，一种是CNN+RNN+CTC的方法，另外一种是用attention model+CNN+RNN的方法。这里主要介绍下CNN+RNN+CTC，算法框架由图给出。分为三层，CNN层、RNN层及解码（transcription）层。在CNN层，用于提取图像特征，利用Map-to-Sequence表示成特征向量；在RNN层，用双向LSTM识别特征向量，得到每列特征的概率分布；在解码层，利用CTC和前向后向算法求解最优的label序列。因此，该方法能够识别不定长的文字行。

两个例子：

Out：辽宁省长海县广鹿乡沙尖

Out：河南省邓州市九龙乡姚营