【论文】Text Detection and Recognition in Imagery: A Survey

论文地址：Text Detection and Recognition in Imagery: A Survey
@Article{Ye2015Text,
author = {Ye, Q. and Doermann, D},
title = {Text Detection and Recognition in Imagery: A Survey.},
journal = {IEEE Transactions on Pattern Analysis \& Machine Intelligence},
year = {2015},
volume = {37},
number = {7},
pages = {1480-1500},
__markedentry = {[Administrator:1]},
abstract = {摘要—本文分析、比较和对比了技术挑战方法，以及彩色图像中文本检测和识别研究的表现。它总结了基本问题，并列举了解决这些问题时应考虑的因素。现有技术被分类为分解的或集成的模块，并且突出显示子问题，包括文本定位、验证、分割和识别。本文还讨论了与改进退化文本和处理视频文本，多方向文本，透视扭曲和多语言文本有关的特殊问题。说明了文本的类别和子类别，列举了基准数据集，并比较了最具代表性的方法的性能。对该领域的其余问题进行了基本比较和分析进行了评价。},
file = {2015综述:(2015综述)Text Detection and Recognition in Imagery A Survey.pdf:PDF},

}

文章内容索引：

第一部分总结了在过去十年当中的问题以及取得的进步。
第二部分分析了相关的背景。
第三四五部分分别介绍了方法、子问题以及相关问题。
第六部分介绍了数据集合评估办法。

第七部分进行了总结讨论，分析了当前还存在的问题以及未来的研究重点。

1 介绍

图像或者视频当中的文本检测与识别的问题再近些年来得到了广泛的关注，一系列的因素催生着这项研究不断的向前发展，主要的原因有三个：应用的爆发式增长、高性能移动设备的普及、计算机视觉与模式识别技术的发展。

许多的研究者认为光学字符识别是一项已经被解决了的问题，实际上图像当中的文本检测与识别还存在着许多的障碍，例如计算机视觉与模式识别在低质量数据面前难以表现的很好的问题。

复杂的背景，多种多样的文本布局和字体大小，以及不均匀光照的存在，低解析度多种语言内容的呈现相比于干净的的良好组织的文档拥有更大的挑战性。

1.1对问题的概览

分析了文本检测、验证、分割和识别的基本概念。

1.2对过去十年取得的进展进行了总结。

2 背景

为了了解文本检测与识别的整体价值，有必要了解一下其中的背景

2.1图像中的文本

几何文本以及场景文本是主要的两种文本的呈现形式，第一种主要涉及到机器打印的文本，第二种涉及到自然环境下的文本。现今的研究主要集中在场景文本当中。

2.2应用

在过去的二十年产生了大量的与图像和视频相关的应用，其中包括多媒体检索，视频输入与访问，工业自动化等。

2.3面临的主要挑战。

包含了环境、图像获取方式、文本内容三个大类带来的挑战。每一种挑战又细分为很多小的类别。

3 方法体系

这里文章给出了两个主要的方法体系，分步式的和集中式的方法。基于分步的方法需要将方法体系分为检测与识别两个模块。

3.1基于分步的策略

基于分步的策略有四个主要的过程，定位、验证、分割、识别。定位的过程粗略的分类组件，并将它们划分为候选的文本区域，这样就可以更进一步的在验证过程中判定是否为文本区还是非文本区。分割的过程是将字符进行分割得到单个的字符，识别是将图形字符转化为可编辑的字符串文本。在某些途径当中，验证和分割的过程可以省略，或者其他的过程例如文本增强、文本纠正可以加入到整个过程当中。

3.2基于集中的策略

通过集成的方法，字符分类响应被认为是主要线索，并与检测和识别模块共享。意思就是说文本的检测与识别是连续进行的一个过程。在这种方法体系里有很多人也做出了有成效的工作。

Wang和Belongie通过训练角色模型提出了一种单词定位方法，其中包括定向梯度（HOG）特征组织和最近邻分类器。王等人提出将多层CNN与无监督特征学习相结合以训练在文本检测和识别过程中使用的字符模型。Neumann和Matas [188]通过保持每个字符的多个分段直到每个字符的上下文已知的最后阶段来提出决策延迟方法。

3.3两种方法的比较

分步的方法典型的使用由粗到细的策略，他需要首先定位候选文本，然后去验证分割并识别他们。一个有吸引力的特性是在文本定位的过程中大多数的背景被过滤掉了，它能够在很大的程度上减少计算量，在一定的程度上确保了计算的效率。另一个有吸引力的特性是它将处理方向文本处理时能在定位步骤中估计文本方向。考虑到语言的独立性特征或者多语言的OCR模型，它能够处理多语言文本。但是它也有两个明显的缺点，第一点就是集成所有过程的不同技术带来了一定的复杂性；第二点就是对于整个过程参数优化的困难性，它很可能导致错误的积聚。

通过比对，基于集中的方法是利用字符或者语言的模型去识别特定图像当中的文字。基于集中的方法可以避免分割、优化单词或字符识别过程所带来的挑战，该方法在复杂的背景和低解析度文本的情况下不是特别的敏感。缺点在于当涉及到大量字符类别或者大量的候选区域的时候，多类别的字符分类过程具有很高的计算损耗。此外，单词类别数量的增加会很大程度上降低检测与识别性能，因此普遍性通常仅限于一小的词库。

4 基本的子问题

在这一部分，子问题描述了文本定位、验证、分割和识别。对每种方法的主要贡献进行审查。针对每个贡献分析做出多个贡献的方法。

4.1文本定位

对象文本的定位要求能精确地定位文本组件，同时伴随着尽可能少的背景将他们分组到候选的文本区域。对于文本定位，连接组件分析以及滑动窗口分类是两个最为广泛使用的方法，并且颜色、边缘、笔画和纹理都是典型使用的特征。

4.2文本验证

文本定位通常会引入错误的类别，因为一些小片的组件可能并不包含有效的信息。在文本定位之后，文本区域的整体特征可用于精确分类和验证。其中使用到的主要方法包括了1、基于先验知识的方法 2、基于特征分类的方法。

4.3文本分割

在检测到的文本区域被OCR模块识别之前，某些方法使用二值化，文本行分割和字符分割算法来获得精确有界的字符。分割已被确定为最具挑战性的问题之一，最近的方法通常将分割步骤与识别步骤相结合，或使用单词匹配来避免分割问题。

4.3.1文本二值化

文本二值化操作是提取文本像素并移除背景像素。算法涉及到自适应阈值、概率模型并且聚类也被应用到该过程当中。

4.3.2文本行的分割

文本行分割的功能是将多个文本行的区域转换为单个文本行的多个子区域。对于水平文本，文本组件的投影轮廓分析提供了一种简单但有效的方法。文本行分割的最新进展伴随着骨架分析方法的出现。

4.3.3字符分割

字符分割是将单行文本区域的内容分割成多个字符区域。

4.4 文本识别

文本识别将图像区域转换为字符串。在最近的研究当中，单词识别一直是文本识别的核心，因为在低级特征和高级语言先验方面，单词很好地用统计模型表达。

4.4.1字符识别

为了识别单个字体的字符，通常使用一般特征（如Gabor特征）和简单分类器（如线性判别分析（LDA））。然而，当存在多种字体或扭曲的字符时，类内的多样性使得难以对同一类的字符进行建模。一种解决方案是为每个指定一个分类器。其他解决方案包括使用无监督或代表性学习，判别特征汇集，图像校正算法或可变形模型来对齐字符。

4.4.2单词识别

关于降级和/或失真的文本，如图9所示，识别模型将不同的标签分配给相同的字符并不罕见。鉴于特殊字体的扭曲或缺乏训练数据，这种情况尤为常见。在这种情况下，字符分割和字符识别可以使用优化方法与语言先验集成，包括贝叶斯推理，整数规划，马尔可夫，CRF，和图模型。

4.4.3端到端的识别

给定具有复杂背景的图像作为输入，端到端识别系统体现了定位，检测和识别功能，以将图像中的所有文本区域转换为字符串。考虑到一个小词典，单词识别为实现端到端识别提供了有效的策略。单词识别的动机是“整体大于部分之和”，并且任务看起来将给定词典中的特定单词与使用字符和单词模型的图像补丁相匹配。然而，考虑到开放式词典，由于搜索空间较大，单词识别策略是不切实际的。在这种情况下，系统需要强大的字符表示，大规模语言模型和复杂的优化策略。

5 特殊问题

尽管与高分辨率点和射击文本相比，所提到的方法取得了可喜的成果，但在不受控制的环境中的偶然文本仍然非常具有挑战性。以下部分分析和回顾与此类文本相关的问题：文本增强，多方向，透视扭曲和多语言内容。还分析了与视频文本检测和识别相关的特殊问题。

5.1文本增强

文本增强使用图像处理，学习或者重建的方法去提升文本解析度或者恢复降级文本。

5.2视频中的文本

考虑到视频中的文本，多帧集成策略通常用于改善文本分辨率，抑制视频背景或强制执行文本识别结果。多帧上采样和帧选择（找到文本最清晰显示的帧）也用于从多个帧中获得单个更高分辨率的文本帧。

5.3多方向文本

需要在检测过程中估计文本方向，以便在识别过程之前将偏斜文本校正为水平方向。处理多向文本的现有方法通常使用自下而上或自上而下的方法。自下而上的方法包括凝聚聚类，主导方向分析，区域增长，边界增长和霍夫变换。自上而下的方法包括骨架分割和生成树分区。

5.4透视扭曲

当摄像机的光轴不垂直于文本平面时发生透视畸变，如图11a所示。透视扭曲文本中的字符失去了它们共同的形状，因此引入了识别模型的挑战。仿射变换，单应性，边界分析和曲面投影已用于校正失真文本。然而，这些方法通常需要诸如存在矩形文本边界或相机参数的可用性之类的假设。

5.5多语言内容

已经提出了各种语言特定方法来检测和识别文本，包括英语，波斯语/阿拉伯语，中文，日语，汉字，韩语，乌尔都语。以及梵文和孟加拉。还考虑了与特定语言无关的通用方法。

6 评价

有了这么多的方法和数据集，重现所有这些方法和数据集并将它们与每个数据集进行比较都是问题所在。因此，我们调查公布的结果以近似代表性方法的表现。这种评估无法准确描述这些方法在现场比较的程度。一些因素使评估复杂化。首先，协议对于不同的容错通常是不一致的。其次，实验结果基于不同的训练集。使用大型且格式良好的训练集可以提高性能。最后，在一些方法中使用与文本方向，颜色，大小和语言先验相关的领域知识，这提高了性能。然而，它也降低了这些方法的泛化能力。

6.1数据集

在表2中，我们收集了常用的数据集，并总结了它们的特征，包括文本类别，来源，任务，方向，语言和培训/测试样本的信息。选定的样本图像如图12所示。针对于每一种数据集都有不同的使用场景。

6.2评估协议

我们总结了文本检测和识别评估的协议。对于文本检测，最常采用ICDAR协议，并且对于文本识别，通常使用单词识别准确度。

6.3性能

表3报告了包括ICDAR竞赛获胜者在内的十种方法的文本检测性能。

7 总结

本文描述了与图像中的自动文本检测和识别相关的问题。作为过去五年中的第一次综合调查，它分析了最近的方法，根据标准对其进行了分类，并说明了最具代表性的方法的表现。在过去十年中，随着改进方法的出现，该领域的研究取得了进展。然而，端到端的识别低性能表明，未来研究仍有足够的空间，这引发了后续讨论。

7.1什么是文本？

对于问题“什么是文本？”，答案可以是“结构化边缘”，“一系列均匀颜色区域”，“一组笔划”或“一种纹理”。然而，在自然场景中有许多物体，例如树叶，栅栏或窗户，其具有与文本相似的边缘，笔画或纹理特性，使得难以设计有效的特征表示来区分文本。一个更好的假设可能是“文本是边缘，CCs，笔画和纹理的混合”。基于该假设，提出了几种用于文本检测的混合方法。

文字是一个字符复合词“似乎是一个更精确的答案。字符是明确定义的模式，并且已经开发了许多有效的方法来识别字符。因此，已经研究了与检测和识别问题共享特征分类结果的综合方法。

7.2文本怎样区分？

不同字符组合的文本外观差别很大。图14比较了平均文本，平均面部和平均行人。平均面部和平均行人保持基本形状，而平均文字看起来像噪音。这是因为组件数量和文本的组件外观都是可变的，这意味着文本检测不是一个简单的两类问题。因此，将流行的物体检测方法机械移植到文本检测问题不太可能提供有利的结果。

文本对象承认大量的字体，颜色，宽高比，杂乱的背景和失真。文本识别面临的挑战超出了一般对象识别的挑战。然而，人类阅读文本的难度很小。人与机器技术之间的差距可能是前者可以无缝地整合来自笔画，人物，单词，句子和语言环境的多层次信息。来自认知科学的证据表明，人类大脑在识别文本时会使用层次递归架构。相比之下，大多数当前的自动化方法使用来自一个或多个级别和虚拟化的递归过程的信息。

7.3仍然存在的问题

技术状态与所需性能之间的差距表明文本检测和识别仍然是未解决的问题。虽然取得了很大进展，但仍有许多研究机会。在这里，我们总结了一些更普遍的问题，并提供了可能的研究方向。

端到端的识别，相比较与在清晰文本上的OCR识别，端到端的识别性能仍然很落后。开放词汇识别，为了克服这个限制，结合一个开放的词汇表，即大规模的基于网络的语言信息是很有用的。开发近似方法以有效地使用大规模语言信息进行识别也很有用。处理附带文本，附带文本会受到图像质量下降，扭曲，字体变化和混乱背景的影响。许多方法可以解决单个问题，但很少有方法可以处理它们的组合。处理多语言文本，各种语言的文字显示出不同的特征。使用具有固定参数的单一方法来识别来自所有语言的文本仍然很难实现。一种可能的解决方案是使用通用的可训练方法来为每种语言指定模型，并使用可配置的方法来管理模型。实时检测和识别，来自移动设备的视频已经成为文本检测和识别应用的重要来源。通常希望移植到移动设备的方法并实时处理视频数据。然而，许多方法仅应用于具有离线处理模式的捕获图像，并且经常忽略来自移动设备应用的实时效率要求。在逐帧的基础上应用文本检测对视频序列没有多大意义，因为它忽略了任何时间线索[184]。将文本检测和文本识别与文本跟踪算法相结合，不仅可以提高检测和识别准确性，还可以提高实时性能。