Stacked Hourglass Networks论文阅读笔记

1、介绍

在图像和视频中理解人物的关键步骤是准确的姿态估计。stacked hourglass网络捕获和整合图像的所有尺度上的信息。

二、相关的工作

1、stacked hourglass在没有使用图形模型或任何明确的人体模型的情况下,可以获得更好的性能。

三、网络架构

3.1 hourglass design

hourglass的设计动力是在每个尺度上捕获信息的需要。以下图是原论文中介绍单个”hourglass“模型的示例图,有降采样和上采样过程

单个“hourglass"模型

每个残差模型如下图,贯穿整个网络:

中间监督过程如下图,这个网络分割并产生一组热图(蓝色线框)。1*1的卷积使得热图匹配中间特征的通道数,并与前面沙漏的特征一起添加。

3.2 层的实现

在保持整体沙漏形状的同时,层的具体实现仍有一定的灵活性。不同的选择会对网络的最终表现和训练产生一些小影响。

3.3 Stacked Hourglass with Intermediate Supervision

最后的网络架构是端到端地堆叠多个hourglass。通过每个hourglass都会产生预测,使得网络有机会产生局部和全局内容的特征。局部和全局的线索在每个hourglass上整合。八个hourglasses用在最终的网络设计上。权重在这些模型上是不共享的,一个loss被应用于所有hourglasses的预测,并使用相同的ground truth。

3.4 训练

平方根误差损失函数(MSE)用于比较预测的热图与标签的热图

四、结果

使用正确关键点比值(PCK)来做评估。

五、进一步分析

5.1 多人存在于图片时

图中有多个人的时候,相干的问题是很重要的。网络需要决定哪个人做注释。解决方法是将目标任务中心化和规定好比例。

发布了19 篇原创文章 · 获赞 13 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_39958313/article/details/83508123
今日推荐