腾讯云大学大咖分享之《解密OCR文字识别技术》

课程讲师：腾讯云高级工程师彭碧发

讲师简介：毕业于华中科技大学，负责智能图像相关AI产品，熟悉AI视觉工程化，对计算机图像处理有一定的理解，现担任腾讯云大数据及人工智能产品中心高级工程师。

那么直播中有哪些值得关注的内容呢？学习君和你一起来回顾一下！

OCR通俗来说就是让计算机看图识字的技术，比如在生活中，使用手机可以对身份证进行拍照，并通过一种技术将身份证照片上的文字自动转换成文本信息，这种技术就是OCR其中一种应用场景。这是腾讯云OCR具体的产品定位：

腾讯云OCR在性能、应用场景多样性和接入产品能力方面都具有优势，便于开发者的使用。产品架构则主要由数据层、服务层、平台层和应用层四个层次组成。在平台层方面，这次直播课主要讲的时图片OCR，像身份证识别、手写体识别等功能，开发者都可以通过API接口和SDK的形式去使用。

腾讯云OCR可提供的服务主要分为6个大类，包括通用文字识别、卡证文字识别、票据单据识别、资产证件识别、汽车相关识别和行业文档识别，继续细分共有24种服务；其中通用印刷体识别和身份证识别是最重要的服务。开发者可以通过小程序或网页版的演示Demo来体验其中服务。

关于腾讯云OCR技术，主要介绍OCR工程化和引擎。

OCR整体框架从上到下分为用户接入层，web接入层，业务逻辑层，引擎平台层和基础服务层，右边显示的是运营能力。

重点看新改造的引擎平台层，引擎接入和引擎适配都放在了一个工程里面，如下图所示：客户或者评测平台的图片输入到methoddispatcher这个模块，methoddispatcher去获取引擎（这里获取引擎是根据不同客户选择和灰度不同引擎，还可以融合），引擎获取好了之后调用EngineDispatcher进行分发，分发之后调用插件，插件抽象成hanlderreq，handlerheader，handlerrsp三个接口，会先调用前两个方法，调用完之后会跑到具体的引擎那里，引擎获取到结果之后返回，在hanldersp里处理。新版本的引擎平台层有利于开发效率提高和bug减少。

这里讲某一种引擎的评测方法（比如，身份证里的性别)，下图是某个接口的误判和召回率曲线图，横坐标是阈值，蓝色的是误判率，橘色的是召回率。而且现在腾讯云OCR也已经可以实现评测流程自动化。

腾讯云通过长期的积累和对该场景的深入分析研究，最终实现了一套业内最先进基于深度学习的OCR整行识别技术，可以无需切分单字，直接识别整行字符。对于行业内普遍存在的文字倾斜、模糊、畸变等技术挑战，腾讯云OCR产品早已克服了。

Q&A

Q：2019年6月7日OCR技术和人脸识别有什么区别？

A：OCR是把图片里的文字直接转换成文字，是文本化；而人脸识别包括人脸比对、人脸核身，比如刷门禁就属于人脸比对。

Q：OCR现在在哪些场景下用得最多？

A：OCR在很多领域都有应用，像身份证识别，还有通用场景。通用场景的应用非常广泛，例如微信的审核、运单类、超市小票等。对超市的小票进行识别，就可以知道卖了多少商品，每个商品的价格。

Q：召回率是什么？

A：召回率是被正确识别的正样本除以整体正样本得出的。

点击观看完整课程

添加官方微信号TcloudM【学习君】可加入交流群一起学习，更有鹅厂内部独家技术资料等你领取！腾讯云大学是腾讯云旗下，面向云生态用户的一站式学习成长平台。腾讯云大学大咖分享每周邀请内部技术大咖，为你提供免费、专业、行业最新技术动态分享。

腾讯云大学

发布了29 篇原创文章 · 获赞 4 · 访问量 2208

私信关注

腾讯云大学大咖分享 | 解密OCR文字识别技术

Q&A

猜你喜欢