汉字之旅:汉字载体变迁与OCR识别技术的发展

汉字作为华夏文明的重要信息载体,已有数千年发展历史。从刻画在龟壳上的甲骨文,熔铸在青铜器上的金文,到以刀刻于竹简木牍,以笔墨写于绢帛纸张,传统文字载体不断演进。

纸张的发明与改良是文字载体的重大革命。公元2世纪初,蔡伦完成对造纸原料的开拓和造纸技术的创新,使得纸张制造成本大大降低,纸张很快得以推广,并成为之后近两千年时间里文明的重要载体。
这里写图片描述

电子媒介的出现是文字载体演变史上的又一次重大革命。它既可以承载文字,也可以承载图像、声音,有着传统载体无法想像的功能。

当前仍有许多图书、杂志、报刊以及其他日常生活中需要使用的文本仍然以纸张为载体,但同时,以电子媒介为载体的信息数量正在爆炸式增长,新旧两种载体在一段时间内仍旧会保持并用的状态,但随着科技发展和网络时代的到来,电子媒介对纸张媒介的冲击显然会越来越大。

在这个文字载体媒介从纸张到电子媒介的过渡期,OCR识别技术被赋予了重要的意义。

OCR技术是光学字符识别的缩写(OpticalCharacterRecognition),是通过扫描、拍照等光学输入方式将各种书籍、报刊、票据、卡证及其它载体上的文字转化为图像信息,再利用文字识别技术将图像中的文字转化为可以编辑的结构化数据的过程。简单来说,就是让文字信息快速从非结构化图像转化为可以在电子媒介上直接使用的数据的技术。

OCR技术可广泛应用于大量文字资料、档案卷宗、银行票据、文案的录入和处理领域,非常适合用于银行、证券、保险等需要对大量票据表格进行数字化的行业。

比起英文为主体的OCR识别技术,汉字的OCR识别明显面临着更大的难关。

英文字母加数字识别字符集只有62类,但中文识别字符集达到20000类之多。加上影响OCR识别效果的因素众多,包括复杂背景、低分辨率、多种字体、非均匀光照、图像退化、字符变形、透视变形、多种排列方式等等,OCR识别技术研究困难重重,这直接导致了国内目前具有OCR识别技术自主知识产权的团队少之又少,只有不到5家,其中就包括北京文通科技。

虽然OCR识别技术研究充满挑战,但我们的研究团队从来没有停止过前进的脚步。OCR识别技术发展短短几十年,经历了从传统算法到基于深度学习技术的DeepOCR的革命性演变。

2013年之前,在OCR识别领域中,传统算法还占据着主流地位。传统OCR识别采用统计模式识别方式,需要经过图像预处理、二值化、联通域分析、版面分析、行切分、字切分、单字识别和后处理等多个步骤,处理流程极其复杂。
这里写图片描述

2012年的ImageNet竞赛上,冠军团队AlexNet采用8层的深度学习架构,震撼业界,深度学习技术在图像视觉领域开始大放异彩,很快超越了传统算法。文通科技团队紧跟技术发展趋势,随即开展研究,基于深度学习技术提出了一种全新的DeepOCR识别流程架构:
这里写图片描述

该流程将OCR识别的步骤简化到只有3个主要步骤:检测、识别、后处理。

经过流程简化和算法优化,基于深度学习技术的OCR识别算法识别速度更快,精度更高,而且经过大量数据样本的训练之后可以进一步提升识别效果。并且所有的处理流程都基于输入的彩色图像进行处理,可以最大限度保留图像原始信息。

目前,北京文通基于深度学习平台开发的数十种智能OCR识别产品已经上线AI开放平台,包含多种卡证、票据、表单、通用文本等版式的OCR识别,可以满足银行、证券、保险、互联网金融及其他行业绝大多数场景的业务需求。

今后北京文通将紧跟时代发展的脚步,把握科技发展的潮流,继续专注于OCR识别领域研究,为技术进步贡献出属于自己的力量。

技术交流:15321152022

猜你喜欢

转载自blog.csdn.net/lxz15321152022/article/details/81360747