R-FCN中k^2(C+1)和z(i,j,c)的理解

    关于R-FCN论文的讲解,网上有很多资料,在这里重缀了。这里只对其中的核心图做讲解。

    假设c+1类中有一类是人脸,下图中k=3,对应的可以找到人脸的左上部对应的特征向量的。相当于把c+1类又细分了,每一类里面有k*k个位置细分类。

    解释上图,其中feature maps对应 下面网络图 中 con_new_1[1024*w*h](res5c是2048*w*h,这一层1024*1*1的全卷积降维操作)

    position-sensitive score maps(以下简称ps层),为什么是k^2(c+1)维度呢?一般不都是c+1维吗?k^2的加入才是position-sensitive的关键,因为一般的conv+pool具体平移不变性,对于检测任务位置的定位不敏感,所以需要改变。

    每个feature map,z(i,j,c)是第i+k(j-1)个立体块上的第c个map(1<= i,j <=3)。(i,j)决定了9种位置的某一种位置,假设为左上角位置(i=j=1),c决定了哪一类,假设为person类。在z(i,j,c)这个feature map上的某一个像素的位置是(x,y),像素值是value,则value表示的是原图对应的(x,y)这个位置上可能是人(c=‘person’)且是人的左上部位(i=j=1)的概率值。

    这里k^2共有k*k = 9个颜色(成为9个bin)(示意图中k=3,实际中默认k=7),每个颜色的立体块(W*H*(C+1))表示的是不同位置存在目标的概率值(第一块黄色表示的是左上角位置,最后一块淡蓝色表示的是右下角位置)。共有k^2*(C+1)个feature map。每个feature map,z(i,j,c)是第i共有k*k = 9个颜色,每个颜色的立体块(W*H*(C+1))表示的是不同位置存在目标的概率值(第一块黄色表示的是左上角位置,最后一块淡蓝色表示的是右下角位置)。共有k^2*(C+1)个feature map。

                        


猜你喜欢

转载自blog.csdn.net/e01528/article/details/80366794
今日推荐