数据标注丨OCR标注是什么?它属于哪个标注类型

图片

大运会的召开是每个成都er最近关心的大事,你有思考过为什么检票口只需要扫一下你的门票或者身份证就可以确认信息,放你入场吗?

这就不得不提到今天要和大家分享的OCR,听到关于OCR不了解的人都会误以为是属于图片标注,但实际上它是属于文本,想知道为什么吗?

图片

什么是OCR              

OCR是什么,英文:Optical Character Recognition,中文名称:光学字符识别,简称OCR。它指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,其本质就是利用光学设备去捕获图像并识别文字,将人眼的能力延伸到机器上。

图片

OCR的应用场景

前OCR主要应用于财税票据、身份验证、内容审核、教育、保险、医疗、交通以及拍照识别/翻译等领域上。这些应用我们可以划分为四大场景。

拍照表单类

这一类的数据具有很大的私密性,通过转译技术就可以保存为电子文档。

比如辅导孩子们写作业,遇到不会的题目,家长们比较喜欢实用的搜一搜功能;

数字原生类

一类数据是最为复杂多样的:各种字体、背景、排列、组合等。而其中最具代表性的便是淘宝图片了,这类图片为商品信息的载体。图片量大,每日更新也是最多的;

文档类

这一类数据涉及很多的公共场景,应用于如:车票、发票、外卖单、各类票据类别的存储;

自然场景

这一类目前是应用最广泛、最成熟且商用价值最大的场景。如:证件识别、银行卡识别、车牌识别、摄像监控、快递单号识别等。

图片

比如:以前寄快递都需要手动输入收件信息,然后再由快递小哥打印出来,而现在快递小哥直接使用识图功能,拍照识别自动填写,这就是通过OCR直接转译为文本给出结果。

为什么需要OCR技术? 

OCR即文字识别技术的研究工作,是从上个世纪就开始了,直到现在这个领域还在不断地发展优化,一方面是和我们的生活息息相关,另一方面还是对于其他领域的研究打下了基础。我们早期获得信息一般都是从书本上得来的。

而到了现在,除了文字还有声音、图片、视频等,信息以越来越多的形式传递开来。那如何从这些内容上收集信息?这个时候就需要用到文字识别技术了。

图片

OCR识别流程

版面分析 -> 预处理-> 行列切割 -> 字符识别 -> 后处理识别矫正

OCR转写的功能

1、OCR识别技术不仅具有可以自动判断、拆分、 识别和还原各种通用型印刷体表格,还在表格理解上做出了令人满意的实用结果。

2、OCR能够自动分析文稿的版面布局,自动分栏、并判断出标题、横栏、图像、表格等相应属性,并判定识别顺序,能将识别结果还原成与扫描文稿的版面布局一致的新文本。

3、OCR还可以支持表格自动录入技术,可自动识别特定表格的印刷或打印汉字、字母、数字,可识别手写体汉字、手写体字母、数字及多种手写符号,并按表格格式输出。提高了表格录入效率,可节省大量人力。

图片

OCR目前难点有哪些

1)内容不规则、图片清晰度等、背景干扰等;

2)非简体字识别、相似文字、生僻字、复杂公式符号等;

3)定位问题粘粘明显、行间距不清楚,难于标注、字高范围;

4)手写体问题是目前的主要难点,因为每个人的个人习惯字体风格均有不同,虽然我们自己能懂,但是机器却很少能懂的;

5)按照识别内容来说目前分为三大类:汉字、英文、阿拉伯数字。数字识别最简单;英文识别仅有26个字母(算上大写52个) ;但是中文就不一样了常用汉字3700、相似文字2278、以及繁简体等,还需要识别出整个字体,是目前最大的难题; 

OCR标注规则            

关于OCR的标注规则,每一个OCR标注项目都有自己的规则,大体有如下规则:

1)属性标注:针对图片分有效数据、无效数据等对整个图片,或范围内的标注;
2)框选要求:根据任务类型一般为拉框、多边形等;
3)精度要求:因为文字的像素基本在80-400之间,所以拉框精度,尽量贴合文字但是不要压字体,根据不同的项目要求大体会有些许差异;
4)内容转写:根据项目不同,可能为中文、英文、阿拉伯数字等,一般需要按实际内容转写;
5)顺序标注:很多OCR方面识别是按照顺序来的,因为文本方面的内容一般都有连续性,如上下文这样的,所以我们在做这一点的时候最好是按照内容顺序标注。;
6)提交格式:现在技术基本是线上标注的方式,我们只需要标注好了保存提交就可以了,但部分项目因为数据安全的问题,还是会采用线下标注的方式。提交格式需要根据项目要求提交如:json,txt等等;

联系我们

图片

微信公众号:云图智创人工智能产业应用研究院

人工智能产业应用研究院

用场景定义AI·生态推进产业落地,以适应行业、产业结构,社会发展需求趋势和人才紧缺需求变化,打造集产教融合、产业应用人才培养、应用场景开发、产业生态培育、产业项目孵化创投于一体的国际化人工智能应用型产业培育基地。通过搭建人工智能产业链生态平台,推动人工智能技术形成应用于多元化业务场景的行业应用标准,以更完善的 AI产业链生态来促进和推动人工智能产业落地。

猜你喜欢

转载自blog.csdn.net/aiinstitute/article/details/131923170