论文 Shape Robust Text Detection with Progressive Scale Expansion Network 翻译

摘要:卷积神经网络的发展,使得自然场景下文本检测得到了快速发展。然而,仍然存在两个重要的挑战阻碍了算法在工业界的应用。一方面,大多数先进的的算法需要四边形边界框,这对检测任意文本形状的边界框来说是不准确的。另一方面,两个彼此接近的文本实例可能导致错误的检测。语义分割算法可以缓解第一个问题但不能解决第二个问题。为了解决这两个问题,本文我们提出PSENET,它可以精确的检测任意形状的文本框。更具体的来说,PSEnet为每个文本实例生成不同的内核,并逐渐的扩展小尺寸的内核来覆盖完整的文本示例。在小尺寸的内核中存在大的几何边缘,我们的方法在分割邻近文本实例时是相当有效的。在CTW1500数据集中以27FPS的速度获得了74.3%的F1分数。

1.介绍

自然场景文本检测方法大致可以分为两种方法,一种是回归方法,一种是语义分割方法。基于回归的方法不能检测具有任意形状的文本示例,基于语义分割的方法很难将两个接近的文本实例区分开来,通常会得到错误检测,如下图。

为了解决这些问题,本文提出了基于内核的框架,Progressive Scale Expansion Network,命名为PSEnet。我们的PSEnet有两个好处。首先,PSEnet是一种语义分割方法可以定位任意形状的文本实例。其次,我们提出了一种渐进扩充的策略,邻近的文本实例能够成功的被区分。更加具体的来说,我们为每个文本实例分配多个预测区域,简单起见,称之为“内核”。每个内核与原文本实例具有相似的形状但大小不一样,为了获得最终的检测结果,我们采用了一种基于BFS搜索策略的渐进扩张算法。有三个步骤:(1)从最小尺寸的内核开始(文本实例可以在这一步中区分出来);(2)逐渐的扩张该区域包含更多的文本像素;(3)直到完整的文本实例被包围。

有三个原因设计PSEnet,1.小尺寸的内核比较容易区分因为它们的边界是相互远离的。2.小尺寸的内核不能覆盖完整的文本实例,因此必须从小尺寸进行恢复。3.PSEnet是一种简单高效的方法扩展内核包围完整的实例,确保了文本实例的精确定位。

为了展示提出PSEnet方法的有效性,我们在ICDAR2015,ICDAR2017 MLT,CTW1500以及Total-text数据集上进行了测试。尤其在CTW1500数据集上以27FPS的速度获得了74.3%的F1分数。

2.相关工作

近几年基于深度学习的自然场景文本检测方法已经获得了相当瞩目的成就。主要的检测模型是基于CNN框架,具体分为两类:基于回归的方法和基于语义分割的方法。然而,大多数基于回归的方法通常需要复杂的锚设计和繁琐的多重阶段,这可能需要全面的调整,并导致次优性能。此外,上述工作专门设计用于多方向文本检测和在处理曲线文本时可能会出现不足,而曲线文本在现实场景中广泛分布。以上两类方法除了TextSnake,大都没有关注弯曲文本的检测,然而TextSnake却比较耗时,有着复杂的后处理阶段,而本文提出的PSEnet却只有一个有效的后处理阶段。

4.实验详情

我们用Resnet的预训练模型作为基本骨架,所有的网络用SGD优化器,我们用IC17-MLT的7200张训练图片和1800张验证图像来训练模型,测试结果。没有用额外的数据如SynthText. 我们设置batchsize为16在4个GPU上训练了180K iteras(相当于400个epoch).初始学习率是1*10^3,在60K和120K时除以10.

剩余的数据集采用两种训练策略:1.从头开始训练。2.基于IC17-MLT模型进行微调。当从头开始训练,我们在4个GPU上设置Batchsize为16训练36k个iteras。初始学习率是设置为10-3,在12k和24k时除以10。在IC17-MLT上微调时,迭代次数是24K,初始学习率是10-4,在12K时除以10。使用5*10-4的权重衰减以及0.99的Nesterov 动量。我们采用权重初始化。在训练阶段,我们忽视模糊的文本区域也就是被标注为DO NOT CARE的数据集。损失平衡λ设置为0.7。OHEM的比例设置为3。数据增强策略如下:1.图像按{0.5,1.0,2.0,3.0}的比例重新缩放。2.图像水平和翻转在10度范围内。3.640*640任意块被裁减从形变的图像。对于四边形文本,我们计算最小的矩形来抽取包围框。对于弯曲的文本数据集,PSE的输出被应用产生最终的结果。

猜你喜欢

转载自blog.csdn.net/u011489887/article/details/90022715