论文阅读 Human Pose Estimation using Deep Consensus Voting

Introduction

文章的主要目的是为了利用人体全部的你的信息来获得reliable的结果

概率图中的二元项在之前都是image independent的,而本文的二元项是image depenent的,也即依赖于输入的图像本身信息,而不是之前整体数据的统计信息

方法是:
在每一张图像中的每一个位置的地方预测每一个keypoint点和该位置之间的偏差,作者这样做的目的是利用多个投票者的投票结果来决定最终的结果。通过投票者之间的一致性,来获得二元项。其中这里所说的投票者也即voter就是每一个像素点位置。如果判定第一个投票者认为第i个关节点在location_i的位置相应最高,其他的投票者也认为在location_i的位置最高,那么就认为第i个关节点在location_i的位置是响应最高的。如果只是部分投票者认为第i个关节点在location_i的位置响应比较高,最后的第i个关节点在location_i的地方不一定响应是最高的哈!同样对于二元项,也只有大部分投票者认为两个关节点确实在location_i和location_y的位置响应是最高的,才认为i,j关键点在location_i和location_y的位置处。这样的话二元项来自于本张图像的voter的投票结果,也即image-dependent

Keypoint Voting

给定一个voter y,将会计算每一个关节点相对于这个y的偏差,也即
K 1 y , K 2 y , . . . , K M y
但是如果直接进行上面的监督的话,作者认为很难收敛的,那么作者怎么做的呢?
作者在每一个投票者y的周围划分了log-polar binning,一共48个,加上一个中心点和一个背景点,一共50个类。
这里写图片描述
在中心点处预测每一个关键点在中心点的什么方位和具体位置,关节点落入到哪一个格子里,就认为关节点在那个格子里面。因为要训练背景类,就需要没有人的图片,作者从PASCAL里面选择图片来进行相关的训练。

Net Architecture

这里写图片描述
作者用的VGG网络,那么怎么来设计的呢?
label的大小为102x102x50x30,输入的图像大小为504x504x3,为什么label的大小是102x102x50x30的呢?
以一个关节点为例,第一个关机点在102x102的每一个位置都要预测该关节点落在了该中心点的那个方位,也即50个类中的哪一个,一个位置预测一个50维的向量,这个50的向量便会和gt进行softmax操作计算损失的,每一个关键点一定是落在了特定的某个格子里,也即50个中的一个,背景类也是50中的一个。这样就可以理解作者设计网络的缘由了,一个很类似于检测中的anchor的设计思路,无非anchor是每个位置预测9个anchor罢了,这里是每一个位置预测一个向量,表明对应的关节点落在了哪个方位里面。一个关机点就是102x102x50x1,30个就是102x102x50x30。因为每一个扇形对应的面积不一样,在计算softmax损失的时候,也要按照权重来进行相关的计算,不同的方位的权重是不同的。

The Voting Scheme

如何将预测出来的102x102x50x30的结果映射到map上呢?作者用一个65x65x50的反卷积核将102x102x50x30的结果映射到map上,具体公式如下
这里写图片描述

映射之后,map图如图所示,有图代表的是反卷积核的表示
这里写图片描述

这里写图片描述

Consensus Voting

接下来要进行Consensus Voting了,也即pair wise的关系的建立了。一般的用来进行进一步修饰结果的方法是最小化一个能量函数的
这里写图片描述

那这里的二元对是怎么表示的呢?
这里写图片描述
和博客一开始的描述是一致的,只有当大部分投票者都认为 X i x i , Y i y i ,这样才能确定好这两个关节点的位置的。最后的结果依赖于所有的投票者,也就依赖于图像了。

这里写图片描述

二元投票的结果如上图。
ϕ i ( x i ) = l o g ( P ( K i = x i ) ) , ϕ ( i , j ) ( x i , x j ) = l o g ( P ( K i = x i ) , P ( K j = x j ) ) ,二元项不仅仅包含这个投票结果,他是这个投票结果和常用的统计二元项的加权求和的结果。对于传统的从图像中统计出来的二元项是有参数可学习的,学习用的是TRW-S算法
其中二元项的超参是在validation集上用TRW-S算法调节的。

Pose Prediction

作者做了两个trick

  1. 为了让人工合成的点表明是人工合成的点,也即两个原来标注的关节点的中心点,作者做了一个约束。
    这里写图片描述

  2. 预测的时候从简单的关节点开始预测

实验

猜你喜欢

转载自blog.csdn.net/u013548568/article/details/80961961