明亮如星研旅（1）——Detecting Text in Natural Scenes with Stroke Width Transform

[2010-CVPR]Detecting Text in Natural Scenes with Stroke Width Transform [paper] [code]

这是微软公司的一篇发表于CVPR2010的文章，使用传统方法来检测自然场景中的文本。

总的来说该算法分为四步：

利用canny算子检测图片的边界

笔画宽度变换-Stroke Width Transform（这一步输出的图像我们称为SWT图像）

通过SWT图像得到多个连通域

通过自定义的规则过滤一些连通域，得到候选连通域

将连通域合并得到文本行

一、利用canny算子检测图片的边界

基础图像处理知识，利用OpenCV 的Canny函数可以得到图片边缘检测的结果，Canny算子可以直接算得每个像素点的梯度，这为之后进一步计算提供了保证。

二、笔画宽度变换（Stroke Width Transform）

这一部分是这篇文章的核心，即设计了文字的特有属性——SWT。（这一步输出图像和输入图像大小一样，只是输出图像像素为笔画的宽度。每个像素都有笔画宽度，但是后续方法需要通过笔画宽度排除非字符的像素）

如上图所示，原图(a)经过Canny算子得到图(b)，对于图（b）从边缘上的点p开始，根据p点梯度的反方向找到边缘另一边的点q，如果p点的梯度与q点梯度的反方向夹角在 $d_q=-d_p\pm\pi/6$ 之间，那么这两点间的距离为一个笔画宽度，即一个可以接受的路径（ray），那么p点和q点以及它们之间形成的路径（ray）的像素的SWT值为p和q点的距离大小。

按照上述的计算方法会有两种情况需要考虑：下图a表示一个笔画中的像素可能得到两个笔画宽度，这种情况下将红点出的笔画宽度设置为最小的那个值(初始设置每个像素SWT值为 $+\infty$ )，下图b表示当一个笔画出现更为复杂情况（例如角），b图中的红点计算出的两个笔画宽度用两个红线表示，这两红线都无法真正表示笔画的宽度，这时该点的SWT值为经过该点的所有接受路径（ray）的SWT值的中值m，而且这些所有接受路径（ray）的SWT值大于m的，均调整为m。

因为有文字比背景更亮和背景比文字更亮两种情况，这样会导致边缘的梯度方向相反，所以这一个步骤要执行两遍。这个步骤结束后得到一张SWT图像。

三、通过SWT图像得到多个连通域

在通过上述步骤得到SWT输出图像后，该图像大小与原图像大小一致，图像中的像素值为对应像素所在笔画的宽度即SWT值。现将相邻像素SWT值比不超过3.0的归为一个连通域。这样就能得到多个连通域。

（具体连通域方法参考[17] B. K. P. Horn, “Robot Vision”, McGraw-Hill Book Company, New York, 1986.，这里我没有仔细去看，默认为传统连通域方法对于连通定义的改进）

四、过滤连通域

上述步骤输出的多个连通域中，并不是所有的连通域都被认为是笔画候选区域，需要过滤一些噪声的影响（这个步骤我就觉得比较繁琐了，需要各种调参各种调试，得到较优的结果）

文章给出的过滤的规则有：

如果某连通域的方差过大（方差大于连通域的一半为方差过大），则认为该连通域不是有效的

如果某连通域过大（宽大于300）或者过小（宽小于10），则认为该连通域不是有效的（代码中只过滤了过大的连通域，连通域的长宽为连通域外接矩形的长宽）

如果某连通域的长宽比不在0.1-10的范围内，则认为该连通域不是有效的（连通域的长宽为连通域外接矩形的长宽，符合正常字体的形状比例）

如果某连通域的外接矩形包含其他两个连通域，则认为该连通域不是有效的（代码中判定，如果某个连通域的外接矩形包含两个或两个以上连通域外接矩形的中心时，认为其包含了两个连通域），个人思考：这个判定规则只适用于英文和阿拉伯数字。

上述条件都满足的连通域，认为是笔画候选区域，用于输入给下一步操作。

五、将连通域合并得到文本行

文中认为，在自然场景中，一般不会只有单个字母出现，所有将连通域合并为文本有利于进一步将噪声排除。当两个连通域满足下面条件时，认为这两个连通域是一对（默认近邻字符在形状、大小、角度等方面相似）：

两个连通域中值的比小于2.0（连通域中值，指的是连通域中所有像素值的中值）

两个连通域高的比小于2.0（连通域的高，指其外界矩形的高）

两个连通域之间的距离小于较宽的连通域宽度的3倍（连通域之间的距离为连通域外界矩形中心点之间的距离）

两个连通域的颜色相似（代码用两个连通域对应于原图区域的像素均值代表该连通域的颜色）

得到两两连通域组成的多对连通域后，如果有两对连通域有共享的连通域（有可能分的比较开，没有共享空间，还是设定一个相邻的阈值比较靠谱），共享的连通域都在连通域对的一端即连通域的首端或者尾端，且方向相同（方向用一个连通域中心到另一个连通域中心的方向，只适用于基线是线性的文本，对曲线的文本不适合），就将这两对连通域合并为一个新的连通域组，依次进行，知道没有连通域对需要合并则合并结束。

最后将合并完的结果中滤除小于3的连通域的连通域组得到的最终结果，认为是一行文字。

到这里SWT的文字检测算法就介绍完了，个人总结下这篇文章的优缺点：

优点：这篇文章提出了SWT一种文字特有特征，在深度学习即2014年之前，成为文本检测识别的主流方法，大量文章都基于此特征做后续的工作。

缺点：缺点也是明显，一些缺点我已经在上文中括号注释中提出。总的来说连通域的过滤以及文本行的合成都是基于人工实验，对于大千世界千奇百怪的场景具有局限性，换句话说SWT特征有局限性。对于低像素，弯曲，多方向，复杂场景（植物）的文本，特征提取效果欠佳。这也就是为什么之后深度学习能够火，只要样本最够多，其能适应各种文本环境。虽然目前仍不可解释，但相比于人工设计的精巧特征，其具有天然的优势。

明亮如星研旅（1）——Detecting Text in Natural Scenes with Stroke Width Transform

猜你喜欢