OCR:你不来 我不老

  OCR (Optical Character Recognition,光学字符识别),简单来说,就是终端设备借助摄像头,将手写文字或印刷体文字,从图片上抠出来,变成计算机可以识别且编辑的字符串的过程。

  其实这个过程可分为两大步骤:图像处理and文字识别。下面,我简单跟大家分享一下这个技术的原理。

图像处理:

图像处理这个过程又包含了灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤。

灰度化:即将一张彩色图片变为只有黑白两种颜色的图片。

二值化:就是在黑白图片的基础上,将图片设定为只有纯白和纯黑两种颜色,不包含灰度。

图像降噪:一幅图像包括目标物体、背景还有噪声。数字图像在数字化和传输过程中会受到噪声干扰的影响,会形成零零散散的小黑点,这时候,经过降噪处理,去除小黑点,是非常重要的。

倾斜矫正:这个相信大家都好理解,拍照都会出现倾斜的问题,很难做到绝对水平。这时候需要对图像进行矫正,来寻求一个最大程度的水平位置。

字符切分:将一段文字的每个字符切割出来,形成一个单字符,不会形成连体字,便于识别。

图像处理完毕后,就到了我们的文字识别:

需要提取文字的特征,丢给分类器进行分类,它会告诉你依据这个特征,会形成哪一个文字。最后识别出来的文字会经过最后的后处理,也就是语言模型(涉及到自然语言理解的范畴),形成“通顺”的语句。

  其实OCR涉及的算法很复杂,但以上,或许大家都能对OCR了解个三三四四。

  在20世纪90年代,与清华大学的携手合作过程中,文通科技成功地将"国家863计划"项目成果——"文字图像识别技术TH-OCR"产业化,才预示着与OCR与市场应用的结合。真正促使OCR技术飞速发展的是互联网+时代的到来。

  人工智能时代刚刚起步,OCR永不会老。

欢迎百度“于洪康” ,即可获取识别开发包和测试授权,进行接口开发及软件测试。

 

猜你喜欢

转载自blog.csdn.net/wintone_Hawke/article/details/81220122