【论文阅读笔记】Distribution-Aware Coordinate Representationfor Human PoseEstimation - 代码天地

【论文阅读笔记】Distribution-Aware Coordinate Representationfor Human PoseEstimation

其他 2021-01-26 17:48:14 阅读次数: 0

项目地址：https://ilovepose.github.io/coco/

论文总结

本文方法名为DARK，其提出一种编码和解码的方法，使得坐标到heatmap（用于训练）和heatmap到坐标（用于测试）能更加准确的表达。

论文中表达DARK可以减轻网络输入分辨率变小的损失（从 $384 * 288$ 到 $256 * 192$ 到 $128 * 96$ ）；

论文内容

坐标解码

如果训练的模型效果好的话，网络预测的heatmap会与label同分布，即heatmap会如下公式所示，其中 $x$ 是heatmap中的预测元素坐标； $\mu$ 是高斯核中的中心坐标，即估计的keypoint位置；协方差 $\sum$ 是一个对角矩阵， $\sum = \left[ \begin{matrix} \sigma^2 & 0 \\ 0 & \sigma^2 \end{matrix} \right]$

利用对数似然优化原则，可以将上述公式使用对数转换，来推测最大值位置：

$\mu$ 是我们所需要预测的关键点位置，由于其是极值，则一阶导数为：

在 $\mu$ 上使用二阶泰勒公式，其中 $m$ 为最大值：

最后就得到了我们所想要预测的关键点位置坐标：

上述推导是基于预测的heatmap是一个理想的高斯分布的情况下的，现实情况下预测的heatmap会在最大值附近出现多个峰值，这对上述的decode方法会产生负面影响，所以因此要进行heatmap的处理。文中使用高斯核对heatmap进行预处理，来平滑多个峰值。高斯核的kernel_size一般与训练时的kernel_size对应。

所以，DARK的decoding分为三步：

先平滑heatmap分布【高斯核处理】
泰勒展开获得关键点的定位
分辨率的恢复（输入图片分辨率恢复到原图分辨率）

坐标编码

在从原图分辨率的坐标 $（ u, v ）$ ，映射到网络输入分辨率 $（ u^{'}, v^{'} ）$ 的坐标时，坐标会从整数映射成浮点数。映射函数如下图所示

但一般使用 $（ u^{'}, v^{'} ）$ 产生heatmap时，会将坐标整数化，得到一个元素坐标，再使用高斯函数产生heatmap。这个整数的坐标和实际坐标时有一个偏差的，所以DARK在产生heatmap时，直接使用浮点数产生heatmap：

实验结果

使用高斯核平滑的对比实验结果如下，表2表示高斯核平滑处理可以提高0.3%的AP

DARK的decoding和encoding的对比实验结果如下，可以看出encoding和decoing都是对结果有提升的。

不同分辨率使用DARK方法的对比实验结果如下，可以看出dark在小分辨率的模型上有更高的受益；

从下表可以看出，当指标体现越严格时，DARK的优势会越明显，表明DARK方法对于keypoint预测的稳定性是有帮助的。

下表是DARK应用于各个网络上的结果，可以看出DARK是模型无关的方法，可以应用于各种模型中；

猜你喜欢

转载自blog.csdn.net/qq_19784349/article/details/107113881

【论文阅读笔记】Distribution-Aware Coordinate Representationfor Human PoseEstimation

Distribution-Aware Coordinate Representation for Human Pose Estimation 论文阅读笔记

【论文阅读笔记】Fast Human PoseEstimation

【论文阅读笔记】Numerical Coordinate Regression with Convolutional Neural Networks

【论文阅读笔记】Multi-Scale Structure-Aware Network for Human Pose Estimation

HuNavSim: a ROS 2 human navigation simulator for benchmarking human-aware robot navigation 论文阅读

【论文阅读笔记】Integral Human Pose Regression

Heatmap Distribution Matching for Human Pose Estimation 阅读笔记

CDGNet: Class Distribution Guided Network for Human Parsing 阅读笔记

论文阅读 Multi-Scale Structure-Aware Network for Human Pose Estimation

Integral Human Pose Regression论文阅读

【论文阅读】 AdaptivePose: Human Parts as Adaptive Points

【论文阅读】Learing to summarize from human feedback

《Macro-Micro Adversarial Network for Human Parsing》论文阅读笔记

DensePose:Dense Human Pose Estimation In The Wild 论文阅读笔记

论文：DensePose: Dense Human Pose Estimation In The Wild 阅读笔记

【论文阅读笔记】Estimating Human Pose from Occluded Images

【论文阅读笔记】Simple Baselines for Human Pose Estimation and Tracking

【论文阅读笔记】Cascade Feature Aggregation for Human Pose Estimation

【论文阅读笔记】Stacked HOurglass Networks for Human Pose Estimation

Simple Baselines for Human Pose Estimation 阅读笔记

Human Pose as Compositional Tokens 阅读笔记

论文笔记之Pose-aware Multi-level Feature Network for Human Object Interaction Detection

《HigherHRNet：Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》论文笔记

human in the loop--学习笔记

homogeneous coordinate

Coordinate Attention

论文阅读 Human Pose Estimation using Deep Consensus Voting

《Human-Level Artificial Intelligence? Be Serious!》论文阅读报告

【论文翻译】Integral Human Pose Regression（2018）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)