Accurate Text Localization in Natural Image with Cascaded Convolutional Text Network(基于级联卷积神经网络文本定位)

本文就是CCTN,级联卷积网络。CCTN从低分辨率图像中快速检测文本区域,然后精确地定位来自每个放大区域的文本行。我们将先前基于字符的检测转换为直接文本区域估计,避免了多个自下而上的后处理步骤。通过将整个文本区域视为提供强语义信息的检测对象,通过开发矩形卷积和多个网络内融合来定制卷积网络,有效地处理多形状和多尺度文本。

自然图像中的文本检测和识别最近越来越受到计算机视觉界的关注。 本文重点介绍文本检测子任务。 虽然已经付出了巨大努力来提高其性能,但由于文本模式的多样性和高度复杂的背景,在无约束环境中准确定位文本仍然极具挑战性。 例如,文本可以是非常小的尺寸,低质量或低对比度,并且即使是常规的文本也可能由于许多现实世界的影响而显着扭曲,例如透视变换,强照明,大规模遮挡或模糊。 这些构成了该任务的基本挑战,其中难以进行正确的字符检测,并且将字符候选者分组为文本行的多个后处理步骤是高度复杂且不可靠的。

大多数现有的场景文本检测方法建立在自下而上的策略上,该策略依次处理:笔划或字符候选检测,过滤,文本行构建和分类。这些方法通常受到许多限制。首先,通过探索低级图像提示来检测笔划或字符是不稳健的,例如,通过使用广泛使用的SWT 或MSER 检测器。其次,很容易产生大量的非文本候选者,这可能比真正的文本候选者多很多个数量级。这使得通过使用字符级分类器鲁棒地过滤掉这些非文本错误检测极具挑战性。第三,将保留的候选字符分组为文本行是复杂的。它经常探索许多低级启发式属性和几何信息,还需要手动设置许多低级别分组规则。第四,如[23]所示,自下而上的策略是不可靠的,其中每个步骤中的错误可以顺序累积。

作者通过引入CNN来指导文本区域估计来填补这一空白。传统的CNN架构包括多个堆叠的卷积层,后面是几个完全连接的(FC)层。丢弃空间信息的FC表示对于分类任务特别有效,但对于本地化任务无效。龙等人。用1×1卷积替换了FC全连接,并实现了完全卷积网络的语义分割。这激发了作者利用完全卷积特性来保留图像的粗糙空间信息。在卷积体系结构中,池化操作可以降低计算复杂度,并且还引入局部变换的不变性。然而,这些优点以降低空间准确度为代价,这对于准确的文本定位尤其重要。为了克服这些限制,作者提出了一个两阶段粗到细管道,它可以针对此问题生成卷积网络。

作者从另一个角度解决了文本定位的问题。 提出了用于直接文本区域估计的级联卷积文本网络(CCTN)。 开发了一种高效的自上而下的管道,以粗略到精细的方式定位文本(参见图1),这与以前基于字符的检测方法相基立。 它做出了以下主要贡献。
首先,这是将先前基于字符的检测方法转换为直接文本区域估计的第一次尝试。 通过将整个文本区域视为检测对象,它提供了令人惊讶的鲁棒性和判别力。

其次,作者为文本任务定制通用卷积网络。并设计矩形卷积和多个网内融合,以处理多形状和多尺度文本行。 与使用的24个刻度相比,这使网络可以在单刻度输入图像上可靠地工作。 此外,完全卷积的设计进一步降低了计算复杂性。

对于定向文本这种特殊的文本属性,设计了三个各种内核的并行卷积层以替换Pool-4和Pool-5层之间的原始三个卷积层。原始VggNet中的三个层通过使用相同的3×3卷积内核顺序连接。如图3所示,

三个内核的大小分别设置为3×3,3×7和7×3。与原始顺序体系结构不同,将这三个层并行化,并为它们设计不同的填充大小,从而允许它们输出三个大小相同的映射。这种设计允许三层中的激活使其RF具有各种形状和纵横比,使得它们能够有效地检测各种形状的文本。

在这个网络中有两个融合策略,通过使用元素概括将设计的三个并行层的输出映射融合到单个层中。然后用2×2内核进一步最大化融合图以获得新的Pool-5图。该操作在该层中将RF放大2×2。为了实现多尺度功能,一种直接的方法是将当前要素图与先前图层的输出图组合,通过使用较小的RF捕获更多局部精细尺度特征。在第二步中,为了具有与前一层相同的地图大小(例如,Pool-4图),Pool-5图首先进行2×上采样(在通过两个1×1完全卷积层之后),然后在元素上与Pool-4图相结合。请注意,此上采样操作不会更改Pool-5中RF的大小。实际上,将每个输入图像的大小调整为500×500。在架构中,新Pool-5中的实际RF为403×403,能够覆盖输入图像的大部分区域,如图3(b)所示。通过在新Pool-5中传播单个神经元的误差,将实际RF计算为输入图像中的响应区域。在两步组合之后,新Pool-5中的要素图能够捕获多形状(正方形,水平或垂直矩形)和多尺度文本行。因此,自定义文本网络对于杂乱的背景非常强大,并且可以识别模糊文本。它通过单刻度输入可以在小规模和大规模文本上可靠地工作,通过探索多尺度滑动窗口成功地避免了昂贵的计算成本。示例和比较如图5所示。

但是,多个关闭文本行或小规模文本行的估计区域很容易合并,并且通常不准确。这可能是由于最大池操作和使用的低分辨率图像,如图4(c)所示。对于那些准确检测到的文本行,作者直接从粗热图中提取它们的边界框。如图1所示,模糊区域被推出并进一步细化所提出的精细网络。设计了一个简单的规则,提取文本行或文本区域如下:(1)将热图与阈值二进制0.3。 (2)计算面积比和边界比。 (3)如果面积比> 0.7且边界比> 5,直接输出文本行边界框,而留下其他(文本区域)进一步细化。 (4)裁剪剩余的文本区域。通过将文本区域放大为正方形来裁剪文本区域,边长为1.2倍

粗网络能够可靠地检测粗糙区域中的文本信息,几乎没有错误检测。 作者的最终目标是在文本行或单词级别找到准确的文本区域。尽管检测到的粗糙区域可用于查找某些孤立大规模文本行的最终检测,但通过使用低分辨率图像(例如,在实验中为500×500),可以显着减少小尺寸文本字体或多个封闭文本行的定位精度,多个池操作。虽然这些策略通过允许较大的RF扫描图像内容确实有益于速度和鲁棒性,但是其原理是开发精细检测网络以细化粗略检测结果(例如,裁剪的文本区域)。精细网络的目标是正确地分离文本区域内的所有隔离文本行,并且还删除粗略检测中的错误检测(尽管数量很小)。

作者寻找一种可以正确分隔多个封闭文本行的判别属性。一种直接的方法是在每个文本行边界框中使用文本区域,这在理想情况下是可分离的。在实践中,它可能在两种情况下不能很好地工作。首先,文本行区域容易在两个封闭但定向的文本行之间重叠。其次,即使两个文本行的区域在原始图像中清晰可分,也可能通过多次合并和上采样操作在估计的热图中混淆,如图4所示。因此,纯粹估计一个区域。文本行不可靠,需要更精细的文本行本地化。因此,通过使用精细文本网络来放大每个检测到的文本区域以优化文本行位置。精细文本网络具有与粗文本网络相同的体系结构(在图3(a)中),但是具有不同的输出层,将在下面描述。由于放大区域中的文本行通常是大规模的,例如覆盖文本区域的大部分空间区域,因此网络的RF应该能够覆盖输入区域的整个区域。因此,将每个文本区域的大小调整为500×500的固定大小,每侧50个像素(零值)填充,以便将完整图像内容限制在400×400的中心区域,这完全由RF覆盖403×403。

从基于对称的探测器的推动,作者发现中心线更可靠地定义一个独特的文本行,为设计提供了更好的选择:使用边界框分别定位每个文本行,这样如果就知道文本行的中心线的位置,同时还需要测量文本行的高度。于是设计了一个能够共同估计中心线区域和文本线区域的精细文本网络,如图6所示。中心线区域通过使用具有其最大值的高斯分布来定义(例如, 1)在边界框的中间,在0.25×H的半径内减小到0,其中H是边界框的高度,边界框的半高作为中心线区域的高度。这种设计允许它包括文本行的中心线位置和高度信息,导致封闭文本行之间的分离比使用全高度更好。文本行区域是其边界框内的所有像素。它用于测量文本行的高度。因此,通过联合计算每像素交叉熵和softmax损失,用两个监督掩码训练精细文本网络;它应该能够在给定裁剪区域的情况下估计中心线区域和文本线区域热图。输出热图如图2(d)和(e)所示。

为了准确定位检测到的文本行,使用中心线区域热图(CLHeatmap)和文本行区域热图(TL-Heatmap)计算边界框的中心线和高度。 (1)用0.5的阈值对两个热图进行二进制。 (2)然后从二值化的CLHeatmap计算最小区域矩形(MAR),并计算其中心线位置CCL和高度HCL。 (3)将初步检测到的边界框定义为(CCL,HCL×2)。 (4)类似地,从二值化的TLHeatmap计算MAR,并计算其顶部和底部,Ttop和Tbottom。 (5)用Ttop和Tbottom细化初步检测到的边界框,生成最终边界框,如图2(f)所示。 精细文本网络的更多结果如图7所示。

效果如图8

在ICDAR上的测试结果

猜你喜欢

转载自blog.csdn.net/qq_38284951/article/details/88831229