Selective Search 简介

Selective Search 算法来时论文Selective Search for Object Recognition。Selective Search 通过颜色、纹理、大小等特征的相似度把图像分成许多个不同的区域。目标检测算法可以从这些区域中检测对象，加快检测速度。经典的R-CNN算法就使用了 Selective Search 算法来选取候选区域。

下图是 Selective Search 提取图像区域的例子：
selective search 效果

可以看到， Selective Search 能够把图像中特征相似的区域提取出来，而这些区域通常就是对象的所在位置。

算法流程

Selective Search 算法伪代码如下：

Selective Search 算法输入彩色图片，输出的是对象可能的位置。

第一步，使用 Efficient graph-based image segmentation 算法生成初始区域集R，同时设置区域相似S为空集。
第二步，对于相邻的区域 $(r_i, r_j)$ ，计算它们的相似度 $s(r_i, r_j)$ ，并添加到相似集S中。
第三步，获取S中相似度最高的两个区域 $s(r_i, r_j)$ ，
第四步，合并区域 $r_i$ 和 $r_j$ 成 $r_t$ ，
第五步，删除与 $r_i$ 和 $r_j$ 有关的相似度，
第六步，计算新区域 $r_t$ 与相邻区域的相似度 $S_t$ ，并把 $S_t$ 添加到S中， $r_t$ 添加到区域集R中。
第七步，如果S不为空，返回第三步。

总的来说，Selective Search 算法不断合并相似的区域。

计算区域相似度

作者从颜色、纹理、大小和空间重叠度四个方面计算区域的相似度。

颜色相似度

作者尝试许多颜色空间，比如RGB，HSV等。作者使用 $L_1$ norm 的每个颜色通道使用25个bin的颜色直方图 $C_i = \{ c_i^1, \cdots, c_i^n \}$ 计算两个区域的颜色相似度 $s_{\text{colour}}(r_i, r_j)$ 。其中颜色通道3个， $n=75$ 。

s_{colour} (r_{i}, r_{j}) = \sum_{k = 1}^{n} min (c_{i}^{k}, c_{j}^{k})

$s_{\text{colour}}(r_i, r_j) = \sum_{k=1}^n \min (c_i^k, c_j^k)$
合并

r_{i}

$r_i$ 和

r_{j}

$r_j$ 后

r_{t}

$r_t$ 的直方图是

C_{t} = \frac{size (r_{i}) \times C_{i} + size (r_{j}) \times C_{j}}{size (r_{i}) + size (r_{j})}

$C_t = \frac{\text{size}(r_i) \times C_i + \text{size}(r_j) \times C_j}{\text{size}(r_i) + \text{size}(r_j)}$
就是

C_{i}

$C_i$ 和

C_{j}

$C_j$ 的加权平均，这样可以避免重新计算

r_{t}

$r_t$ 的直方图，提升算法效率。

纹理相似度

作者使用SIFT-Like特征作为纹理。在每个颜色通道的8个方向计算方差 $\sigma=1$ 的高斯导数，每个颜色通道取10个bins的直方图，进行 $L_1$ norm，这样得到 $n= 8 \times 3 \times 10$ 的向量 $T_i = \{t_i^1, \cdots, t_i^n\}$ 。纹理相似度 $s_{\text{texture}}(r_i, r_j)$ 为：

s_{texture} (r_{i}, r_{j}) = \sum_{k = 1}^{n} min (t_{i}^{k}, t_{j}^{k})

$s_{\text{texture}}(r_i, r_j) = \sum_{k=1}^n \min (t_i^k, t_j^k)$
新区域的纹理特征向量

t_{t}

$t_t$ 同样使用

t_{i}

$t_i$ 和

t_{j}

$t_j$ 加权平均。

大小相似度

大小相似度 $s_{\text{size}}(r_i, r_j)$ 为：

s_{size} (r_{i}, r_{j}) = 1 - \frac{size (r_{i}) + size (r_{j})}{size (i m)}

$s_{\text{size}}(r_i, r_j) = 1 - \frac{\text{size}(r_i) + \text{size}(r_j) }{\text{size}(im)}$
其中

size (i m)

$\text{size}(im)$ 表示图片的大小。这个公式可以确保小的区域先合并。

空间重叠度

空间重叠度指区域 $r_i$ 和 $r_j$ 之间的交叠程度，重叠部分越多，这两个区域就越应该合并。空间重叠度 $s_{\text(fill)}(r_i, r_j)$ 为

s_{(f i l l)} (r_{i}, r_{j}) = 1 - \frac{size ({B B}_{i j}) - size (r_{i}) - size (r_{j})}{size (i m)}

$s_{\text(fill)}(r_i, r_j) = 1 - \frac{\text{size}(\mathbf{B B}_{ij}) - \text{size}(r_i) - \text{size}(r_j)}{\text{size}(im)}$
其中

{B B}_{i j}

$\mathbf{B B}_{ij}$ 是

r_{i}

$r_i$ 和

r_{j}

$r_j$ 合并后的 bounding box。

区域相似度

最后结合上述4中相似度，得到区域相似度公式：

s (r_{i}, r_{j}) = a_{1} s_{colour} (r_{i}, r_{j}) + a_{2} s_{texture} (r_{i}, r_{j}) + a_{3} s_{size} (r_{i}, r_{j}) + a_{4} s_{(f i l l)} (r_{i}, r_{j})

$s(r_i, r_j) = a_1 s_{\text{colour}}(r_i, r_j) + a_2 s_{\text{texture}}(r_i, r_j) + a_3 s_{\text{size}}(r_i, r_j) + a_4 s_{\text(fill)}(r_i, r_j)$
其中，

a_{i} \in {0, 1}

$a_i \in \{0,1\}$ ，决定是否使用对应的相似度。

Selective Search 笔记