Look into Person: Joint Body Parsing & Pose Estimation Network and A New Benchmark阅读笔记

Look into Person: Joint Body Parsing & Pose Estimation Network and A New Benchmark阅读笔记

这篇论文主要是两个贡献:LIP数据集与JPPNet网络。

LIP数据集是迄今为止(2018年5、6月)最大的像素级别的人体区域解析和姿态估计的数据集,不仅有关节点的位置与连接(图左),而且有人体区域的语义分割图(图右)。

 

LIP总计5W张图像与groundtruth,其中3W用于训练,1W用于测试,剩余1W不公开,用作评估Parsing和Pose Estimation效果好坏的基准。Parsing的标签共19个(包括背景则20),人体关节点16个。其图像包含遮挡、背部、复杂背景等等干扰因素,其情况比ATR数据集[只有正面的街景模特]更通用。

JPPNet一个网络联合了Parsing和Pose Estimation两个任务,利用两个任务的相关性,使得他们相互促进。

猜你喜欢

转载自www.cnblogs.com/taoshiqian/p/9245102.html