手势姿态估计:Mask-pose Cascaded CNN for 2D Hand Pose Estimation from Single Color Image解读

手势姿态估计:Mask-pose Cascaded CNN for 2D Hand Pose Estimation from Single Color Image解读

论文网址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8529221
项目网站:https://www.yangangwang.com/papers/WANG-MCC-2018-10.html
论文出处:2019年IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)

0. 摘要

  • 设计了一种串联的网络用于从单一室外RGB的手势图上进行2D人手姿态估计。
  • 采用了轮廓信息(silhouette information),该信息对姿态估计非常重要。
  • 方法包括两个阶段:mask分割阶段和姿态估计阶段。
  • end-to-end的训练方式使mask和pose的检测互相提高。
  • 制作了一个新的RGB hand dataset :OneHand10K,包含mask和keypoint。

1. 引言

  • 目前,RGB的手势姿态估计仍然suffer from unconventional lighting, pose ambiguities, similar hand and background colors。
  • mask分割和姿态估计是一个chicken-and-egg的问题。
  • 两个部分:mask和pose,其中手的姿态估计能给分割提供软约束,提高分割准确率;同时分割也能提高姿态估计的准确率。
  • OneHand10K:包含超过10k的RGB single手图像,每个手包含21个joints,同时包含手的mask标签。
  • 本文的2D姿态估计可以通过2D-to-3D regression algorithms扩展到3D.
  • 本文的贡献点:
    (1)OneHand10K数据集:包含11703个rgb单手图像数据,标签为手关节和mask,occlusion, light, shadow and background are all considered in the dataset.
    (2)mask-pose cascaded convolutional neural network
    (3)验证了end-to-end结构能够使mask和pose互相提高。

相关工作

  • 手姿态估计大体分为3种方法
    (1)生成法(generative approaches):用3D手模型来估计手姿态。通过最大化手模型和视觉提取的特征一致性来估计。轮廓、底纹、肤色、光流都是提取的特征,易受环境限制。
    (2)区分法(discriminative approaches):通过训练集学习图像特征和手姿态的映射关系。受益于深度学习方法。准确率受限于数据集,目前基于深度图像的手姿态估计研究较多。
    (3)混合法(hybrid approaches):上述两种方法的结合。
  • 本文方法面向in-the-wild 手姿态估计的难题,能在一个结构种同时输出手的mask和2D pose。
  • 两种与本文类似的方法
    (1)文献[10]将3D手势姿态估计分成3个独立的网络:包括手分割网络、2D姿态估计网络、3D姿态优先网络。
    (2)Mask R-CNN能够同时估计手的分割和姿态,在结构中,姿态可以被视为soft segmentation masks。这样,网络就能够同时并行输出 joint soft segmentation masks和 joint soft segmentation masks。
    (3)本文方法不仅能同时输出手的mask和pose,而且两者还能互相提高准确率。

网络

在这里插入图片描述

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/gaoqing_dream163/article/details/109679557