文字检测识别技术的未来发展趋势和面临的选择

未来发展趋势和面临的挑战

1文本检测与识别技术的未来发展趋势

场景文本检测与识别的研究发展趋势。场景文本检测识别目前来讲大概分为场景文本检测、场景文本识别、以及端到端文本检测和识别三个主要的方向。其中文本检测方法主要是包括基于文本框回归的分类、基于分割的方法、以及分割和回归结合的方法。它的发展趋势是，早期2015年以前是以水平的矩形框检测为主，后来发展到多方向的矩形框，再到2017年开始有研究做任意的四边形框检测，再到近期的任意曲线文本的检测。矩形框的文本检测基本上解决得很好了，只要有一定的数据量基本上可以做到比较不错的识别性能。任意形状（例如曲线）文本检测还是一个比较挑战的问题，但是近两年的研究有很大的进步。

场景文本识别的传统方法很复杂，但在2015年之后基本上主流的方法是基于两套思路，一个是基于CTC的方法，尤其是CTC和神经网络的结合，典型的代表方法是CRNN;另外一套思路是基于Attention的方法。

而文本检测与识别的应用发展趋势可以归纳为以下几点：

（1）一体化的端到端模型

构建一体化的端到端网络，同时对文本检测和识别进行训练，目前已成为了文本检测与识别领域的一种重要技术趋势。端到端的网络设计，实现了基础特征的共享，既能够减少重复计算，又能够提高特征的质量，促进任务性能的改善。

（2）兼具高性能高效率的文本检测与识别

大量的文本检测与识别应用需要在资源受限的移动端设备上运行，当前移动端文本检测与识别算法大多以牺牲一定的算法精度来换取运行速度，针对移动设备设计兼顾性能和效率的轻量文本检测与识别模型是未来趋势。

（3）从感知到认知的智能文本检测与识别

文本检测与识别技术通常从计算机视觉领域出发，未来与自然语言处理技术、知识图谱等更广领域的交叉融合，通过语义及知识的深度挖掘提升文本检测与识别性能是重要趋势。此外，在文本检测与识别中引入强化学习和元学习等新的学习范式，让机器自主学习如何识别文本，也将成为研究热点。

2文本检测与识别技术面临的挑战

场景文本检测的挑战在哪里？

1. 语言：世界上有1000多种语言。然而，目前大多数算法和数据集主要集中在英语文本上。虽然英语是一个相当小的字母表，但汉语和日语等其他语言的字母表要大得多，有数万个符号。基于RNN的识别器可能会受到这种放大符号集的影响。此外，有些语言的外观要复杂得多，因此它们对图像质量等条件更加敏感。研究人员应该首先验证当前的算法在多大程度上可以推广到其他语言的文本，并进一步推广到混合文本。针对多种语言的统一检测和识别系统具有重要的学术价值和应用前景。一个可行的解决方案可能是探索能够捕获不同语言的文本实例的常见模式的组合表示，并使用文本合成引擎生成的不同语言的文本示例来训练检测和识别模型。

2. 模型的鲁棒性：尽管目前的文本识别器已经被证明能够很好地推广到不同的场景文本数据集，即使只使用合成数据，最近的工作（Liao et al.，2019b）表明，对有缺陷的检测的鲁棒性不是一个可忽视的问题。实际上，在文本检测模型中也观察到了这种预测的不稳定性。这种现象背后的原因尚不清楚。有一种推测是，模型的鲁棒性与深度神经网络的内部操作机制有关。

3. 泛化：除了TextSnake之外，很少有检测算法考虑了跨数据集的泛化能力问题，即大部分算法在一个数据集上进行训练，在另一个数据集上进行测试。因为某些应用场景需要对不同自然环境的都有适用性，所以泛化能力非常重要。例如，自动驾驶车辆中的即时翻译和OCR应该能够在不同的情况下稳定地执行，比如：进而大的图像、远而小的文本、模糊单词、不同语言和形状。仅仅将所有现有数据集集中在一起是否就足够了，尤其是在目标域完全未知的情况下，仍然没有得到验证。

4. 评估：现有的检测评估指标源于一般目标检测的评估指标。基于IoU分数或像素级精度和召回率的匹配忽略了一个事实，即缺失的部分和多余的背景可能会影响后续识别过程的性能。

5. 合成数据：虽然在合成数据集上训练识别器已经成为一种惯例，而且效果很好，但检测器仍然严重依赖真实数据集。合成多样且逼真的图像来训练识别器仍然是一个挑战。合成数据的潜在好处尚未得到充分探索，例如泛化能力。使用3D引擎和模型进行合成可以模拟不同的条件，例如照明和遮挡，因此合成数据值得进一步开发。

6. 效率：基于深度学习的方法的另一个缺点在于其效率。当前大多数系统部署在没有GPU或移动设备的计算机上时无法实时运行。模型压缩和轻量级模型在其他任务中被证明是有效的，研究如何为文本相关任务定制加速机制会很有价值。

7. 更大更好的数据集：目前研究最广泛采用的数据集的大小都很小（1k图像）。值得研究的是，从当前算法中获得的改进是否可以扩大规模，还是只是更好的正则化的偶然结果。此外，大多数数据集只标注边框和文本。如果对不同属性做详细注释，如艺术字体，可能会有针对性地指导研究人员。最后，以现实世界有挑战性的文本为特征的数据集在推动研究进展方面也很重要，例如产品上密集的文本。另一个相关问题是，大多数现有数据集都没有验证集。由于测试集上的过度拟合，当前报告的评估结果很可能比实际结果更乐观，即实际效果无法准确达到评估结果的标准。因此建议研究人员应关注大型数据集。

8. 定向文本：现有的最先进的场景文本识别方法更侧重于识别水平、多定向和曲线文本，它们利用空间校正模块，通常使用为阅读文本而设计的序列到序列模型。尽管这些方法试图解决识别任意方向文本的问题，但这些方法仍无法处理野生图像中的定向文本类型，如高度弯曲文本、平面内旋转文本、垂直文本，以及从下到上和从上到下堆叠的文本。此外，由于水平文本和垂直文本具有不同的特征，研究人员最近尝试在一个统一的框架中设计识别这两种类型文本的技术。因此，需要进一步的研究来构建能够同时识别不同方向的模型。

9. 遮挡文本：尽管现有的基于注意的方法已经显示出识别部分遮挡文本的能力，但它们在识别重度遮挡文本时的性能下降。这是因为目前的方法没有广泛利用上下文信息来克服遮挡。因此，未来的研究可以考虑高级语言模型以最大限度地利用上下文来预测由于遮挡文本而导致的不可见字符。

10. 图像质量下降：还可以注意到，最先进的文本识别方法并没有特别克服图像质量下降（如低分辨率和照明变化）对识别精度的影响。对未来研究的重要的建议是研究图像增强技术，如图像超分辨率、图像去噪和障碍物学习，这些可以使文本识别方案得以解决图像质量下降问题。

11. 复杂的字体：在自然场景图像中有几种具有挑战性的图形字体文本，当前的方法没有明确处理。识别自然场景图像中复杂字体的文本强调模型设计能够识别不同字体的方案，方法是改进这些方案的特征提取步骤，或使用样式转换技术，学习从一种字体到另一种字体的映射。

12. 特殊字符：除了字母数字字符外，特殊字符（$、/、-、！、：、@和#字符）在自然场景图像中也很丰富，但是现有的文本识别方法在训练和测试期间排除了它们。因此，这些预训练模型无法识别特殊字符。最近，部分论文中指出，对特殊字符的模型进行训练可以提高识别精度，如何将特殊字符纳入文本识别模型的训练和评估中会是下一步研究的重点。

Shangbang Long，Xin He，Cong Yao，“Scene Text Detection and Recognition: The Deep Learning Era”，arXiv:1811.04256v5 [cs.CV] 9 Aug 2020

Zobeir Raisi，Mohamed A. Naiel，Paul Fieguth，Steven Wardell2 · John Zelek1，“Text Detection and Recognition in the Wild: A Review”，arXiv:2006.04305v2 [cs.CV] 30 Jun 2020

文字检测识别技术的未来发展趋势和面临的选择

猜你喜欢