论文阅读:《Towards accurate multi-person pose estimation in the wild》CVPR 2017

转载来源:https://blog.csdn.net/qq_36165459/article/details/78322449

参考这两篇:
https://blog.csdn.net/joshua_1988/article/details/54618232
https://www.cnblogs.com/bobxxxl/archive/2018/07/17/9326304.html

网络框架

论文采用top-down的结构,分为两个阶段:
第一阶段使用faster rcnn做detection,检测出图片中的多个人,并对bounding box进行image crop;
第二阶段采用fully convolutional resnet对每一个bonding box中的人物预测dense heatmap和offset;
最后通过heatmap和offset的融合得到关键点的精确定位。
这里写图片描述

具体细节

Person Box Detection

人物bbox检测的faster rcnn的backbone是inception-Resnet,先在COCO的80个类别数据集上进行训练,再在只有person的bounding box上进行fine tune。

Person Pose Estimation

采用分类和回归的方法,得到关节点的heatmap和坐标offset。

Heatmap for classification:对于每一个空间点,先判断它是否在关节点的附近,生成K通道的heatmap,K是关节点的个数。
Offset for regression:对每一个空间点再预测一个2D的坐标来表示关节点的位置。将heatmap和offset做一个融合得到精确关节点位置。

Image cropping

对于每一个bounding box做裁剪的时候保持人体的纵横比,最终得到的crop image是353*257pixel,纵横比保持1.37,对于宽和高不是该比例的,扩大较短边。

Heatmap & offset fusion

输入是heatmap(K channel,每一个关键点一个channel)和offset(2*K channel,每一个关键点两个channel,分别是x和y坐标),输出是3*K个channel。

关于融合,对于每一个关节点和每一个空间位置,计算该位置是关节点的概率,这样生成K个关键点,之后将这个问题转换为一个二分类问题。另一方面,预测每一个位置与标准位置的距离,将其转换为一个2D回归问题。这样就将融合分成了二分类和2D回归两个问题。

效果

论文中声称其准确度要高于Mask RCNN,增加数据集会获得更好效果,mAP达到64.9%。

猜你喜欢

转载自blog.csdn.net/humanpose/article/details/88722616
今日推荐