(論文閲覧 28-33) 人間の姿勢推定

28. 文学読書メモ

導入

トピック

パーツ アフィニティ フィールドを使用したリアルタイムの複数人の 2D ポーズ推定

著者

Zhe Cao、Tomas Simon、Shih-En Wei、Yaser Sheikh、CVPR、2017 年。

元のリンク

arxiv.org/pdf/1611.08050.pdf

[人物姿勢推定 2] パーツ アフィニティ フィールドを使用したリアルタイム複数人物 2D 姿勢推定_2017_par を使用したリアルタイム複数人物 2D 姿勢推定 - CSDN ブログ

キーワード

PAF

研究課題

質問:

画像内の複数の人物の 2D 姿勢を効率的に検出するには: 画像内の複数の人物の 2D 姿勢を効率的に検出するには

チャレンジ:

まず、各画像には未知の数の人物が含まれている可能性があり、任意の位置またはスケールで発生する可能性があります。

まず、各画像には未知の数の図形が含まれている可能性があり、それらの図形は任意の位置またはスケールで表示される可能性があります。

第二に、人々の間の相互作用は、接触、咬合、四肢の関節運動により複雑な空間干渉を引き起こし、部品の関連付けを困難にします。

第 2 に、人々の間のインタラクションでは、接触、咬合、物理的接続により複雑な空間干渉が生じる可能性があり、コンポーネントの関連付けが困難になります。

第三に、実行時の複雑さは画像内の人の数に応じて増大する傾向があり、リアルタイムのパフォーマンスが課題になります。

実行時の複雑さは画像内の人物の数に応じて増加する傾向があり、リアルタイムのパフォーマンスが課題となります。

以前の方法:

トップダウンのアプローチ:

人物検出器は、検出ごとに 1 人の人物の姿勢推定を実行するために使用されます。

短所: 人感知器の故障 - 人が近距離にいると簡単に故障し、回復できません。実行時間は人数に比例します。各検出には 1 人の人物の姿勢推定器を実行する必要があり、人数が増えるほど計算コストが高くなります。

ボトムアップ アプローチ:初期のコミットメントに対して堅牢であり、画像内の人の数から実行時の複雑さを切り離す可能性があります。ただし、ボトムアップのアプローチでは、体の他の部分や他の人々からのグローバルなコンテキストの手がかりを直接使用することはできません。これまでのボトムアップのアプローチでは、最終的な解析にはコストのかかるグローバルな推論が必要となるため、効率性の利点を維持できません。新しいアプローチ: ジョイント アノテーション コンポーネントが候補オブジェクトを検出し、それらを各人物に関連付けます。ただし、全結合グラフ上の整数線形計画問題を解くことは、平均処理時間が数時間程度の NP 困難問題です。そこで、より強力な ResNet ベースの部品検出器と画像依存のペアワイズ スコアが使用され、実行時間が大幅に改善されましたが、この方法では依然として画像ごとに数分かかり、部品提案の数には制限がありました。

研究手法

パート アフィニティ フィールド (PAF): このアーキテクチャはグローバル コンテキストをエンコードし、画像内の人の数に関係なく、ボトムアップの貪欲な解析ステップで高精度を維持しながらリアルタイム パフォーマンスを実現できます。パーツの位置とその関連性は、同じシーケンス予測プロセスの 2 つのブランチによって共同で学習されます。

ネットワーク構造:

画像はまず畳み込みネットワーク (VGG-19 [26] の最初の 10 層によって初期化および微調整) によって分析され、各ブランチの最初のステージに入力される一連の特徴マップ F が生成されます。

上のブランチ (ベージュ) は信頼度マップを予測し、下のブランチ (青) はアフィニティ フィールドを予測します。

各ステージの後、2 つのブランチの予測結果が画像の特徴とともに次のステージに連結されます。

損失関数:

勾配消失問題の解決: 勾配の補足

候補身体部分は、非最大抑制を実行することによって取得されます。

次に、身体部分検出の各ペアが関連している (つまり、それらが同じ人に属している) という信頼度を測定する必要があります。図 5b に示すように、相関関係を測定する 1 つの可能な方法は、手足の各パーツのペア間の追加の中点を検出し、候補パーツ検出間でのそれらの発生を調べることです。ただし、人々が密集している場合、これらの中間点は誤った関連付けをサポートする可能性があります (図 5b の緑の線で示されています)。この誤った関連付けには 2 つの理由があります: (1) 各四肢の方向ではなく位置のみをエンコードする; (2) 四肢のサポート領域を 1 点に縮小する。

これらの制限に対処するために、手足のサポート領域内の位置と方向の情報を同時に保持できる「部分親和フィールド」という新しい特徴表現方法が提案されています(図5cに示すように)。部分類似性は各肢の 2D ベクトル フィールドです。特定の肢領域に属する各ピクセルについて、2D ベクトルは肢のある部分から別の部分への方向をエンコードします。各手足には、2 つの関連する体の部分を接続する、対応する親和性フィールドがあります。

誤った接続を排除する機能。

分析の結論

PAF は、これらのボトムアップ検出と関連付け表現を同時に推論するため、グローバル コンテキストを適切にエンコードできるため、貪欲な解析が可能になり、非常に低い計算コストで高品質の結果が得られます。

実行時間: (1) CNN の処理時間、実行時間の複雑さは O(1)、人数によって変化しません; (2) 複数人の解析時間、実行時間の複雑さは O(n2)、ここでnは人数を表します。ただし、解析時間は CNN の処理時間より 2 桁短いため、全体の実行時間にはほとんど影響しません。

不十分なイノベーション

図 9 を参照してください。一般的な失敗ケース: (a) まれなポーズまたは外観、(b) 欠落または間違ったパーツの検出、(c) 重複するパーツ、つまり 2 人が共有するパーツの検出、(d) 2 人の関係からの間違った接続パーツ、(e-f):彫像や動物に対する誤検知。

追加の知識

人の姿勢検出の開発の歴史

 

29. 文学読書メモ

導入

トピック

DeepCut: 複数人のポーズ推定のための関節サブセットの分割とラベル付け

著者

レオニード・ピシュチュリン、エルダール・インサフトディノフ、シユ・タン、ビョルン・アンドレス、ミハイロ・アンドリルカ、ピーター・ゲーラー、ベルント・シーレ、CVPR、2016年。

元のリンク

https://arxiv.org/pdf/1511.06645.pdf

DeepCut: 複数人のポーズ推定のためのジョイント サブセット パーティションとラベル付け - CSDN 博客

キーワード

整数線形計画法のための共同検出と姿勢推定の定式化。 AFR-CNN (調整済み高速 R-CNN)

研究課題

現実世界の画像内の複数の人物に対する、多関節の人間の姿勢推定タスク。

複数人の姿勢推定が直面する主な課題は、一部の人物の部分的な可視性、人物の境界ボックス領域の大幅な重複、および画像内の事前に未知の人数です。したがって、問題は、幾何学的および外観の制約を尊重しながら、人の数を推測し、部分検出を人物インスタンスに割り当てる方法です。

2 段階の推論プロセス: 最初に姿勢を検出し、次に独立して姿勢を推定します。このような方法は、同じ身体部分の候補を同時に複数の人物の仮説に割り当てることができるため、人々が近接している状況には適していません。

研究手法

CNN(Fast R-CNN)に基づく人体部位検出器によって生成された人体部位仮説セットのセグメンテーションおよびラベリング表現方法を提案する。

人体部位検出器:AFR-CNN、調整済みFast R-CNN。

alter it in two ways: 1) proposal generation and 2) detection region size.

(部位标记)全卷积架构,用于计算部位概率积分图:vgg为基础,VGG 感受野可以看到整个身体,从而区分身体部位。

分类:哪些部位属于同一个人

研究结论

能推断出场景中的人数,识别出被遮挡的身体部位,并区分相互靠近的人的身体部位。

  1. 该方法能够处理未知人数,通过连接身体部位假设推断出未知人数。
  2. 该方法合并初始候选部件集中的部件假设,从而有效地执行非最大抑制(NMS),使整个过程更加可靠。
  3. 该问题采用整数线性规划(ILP)的形式。虽然该问题具有 NP 难度,但 ILP 形式便于计算边界和可行解,并具有经认证的最优性差距。

创新不足

由于使用了自适应的fast R-CNN进行人体的检测,同时又使用ILP进行人体姿态估计,所以计算复杂度非常大

额外知识

ILP:【精选】【数学建模笔记】2.整数规划_Imagine_cc的博客-CSDN博客

30.文献阅读笔记CPMs

简介

题目

Convolutional Pose Machines

作者

Shih-En Wei, Varun Ramakrishna, Takeo Kanade, and Yaser Sheikh, CVPR, 2016.

原文链接

https://arxiv.org/pdf/1602.00134.pdf

关键词

Convolutional Pose Machines(CPMs)、articulated pose estimation

研究问题

Pose Machines provide a sequential prediction framework for learning rich implicit spatial models.

Pose Machines为了学习丰富的隐式空间模型提供了序列预测框架。

将CNN应用于pose machine framework

梯度消失的问题:

反向传播梯度在网络的多个层中传播时强度会减弱。

增大感受野,一般有如下几种方式:

增大pool,但是这种做法对图片额外添加的信息过多,会牺牲精度;

增大卷积核,但这种方式会增加参数量;

增加卷积层,但卷积层过多会造成网络的负担,造成梯度消失等问题

研究方法

将CNN应用于pose machine framework

学习图像特征和图像相关的空间模型的task of pose estimation(姿态估计)

CNN直接对来自上阶段的belief maps进行操作,对零件位置做出越来越精确的估计,而无需明确的图形模型式推理。

提供了一个自然的学习目标函数,强制执行中间监督,补充反向传播梯度并调节学习过程,解决了梯度消失的难题。

图像特征和前一阶段生成的belief maps都被用作输入。belief maps为后续阶段提供了每个部件位置空间不确定性的非参数编码,使 CPM 能够学习丰富的、与图像相关的部件间关系空间模型。

不使用图形模型,对belief maps进行操作,所以整个架构完全可微分,可以端对端训练。

为了捕捉longrange interactions:需要较大的感受野

Pose machines 和cnn pose machines对比

输入:裁剪图像归一化为368 × 368

网络结构:五个卷积层和两个1 × 1卷积层组成的网络结构(全卷积结构)

2c:第一阶段仅从局部图像证据中预测部分信念。证据是局部的,因为网络第一阶段的感受野被约束在输出像素位置周围的一个小块上。以一个较小的感受野对图像进行局部检查。

如果人体有p个关节点,那么belief map有p+1层(还有背景层)

其实就是heatmaps,各通道表示各关键点在每个像素位置处的概率

2d:第二阶段网络的输出层获得足够大的感受野,以便学习各部分之间潜在的复杂和long-range correlations。还要输入一个center map。center map是高斯响应,构造响应图的真值。

增大感受野:

增大stride,确实stride越大感受野相应的也增大,并且论文中指出,在高精度区域,8stride和4stride表现一样好。

研究结论

由卷积网络组成的序列架构能够通过在阶段之间交流日益精炼的不确定性保持信念来隐式地学习姿态的空间模型。

在所有的主要基准上都达到了最先进的准确性。

创新不足

多人检测失败

额外知识

高斯响应

31.文献阅读笔记

简介

题目

Stacked hourglass networks for human pose estimation

作者

Alejandro Newell, Kaiyu Yang, and Jia Deng, ECCV, 2016.

原文链接

https://arxiv.org/pdf/1603.06937.pdf

关键词

Human Pose Estimation

研究问题

CNN运用于Human Pose Estimation,

重复自底向上、自顶向下推理。

早期的工作:使用稳健的图像特征(局部解释)和复杂的结构化预测(推断全局一致的姿态)来解决这些困难。

现在:普遍采用卷积神经网络作为其主要构建模块,很大程度上取代了手工制作的特征和图形模型。

任务:从RGB图像中对单个人的姿态进行关键点定位。

研究方法

“stacked hourglass” network:

该网络在图像的所有尺度上捕获和整合信息,基于可视化的池化和后续上采样的步骤来得到网络的最终输出。

不同于以前的设计,主要是在其更对称的拓扑结构。

连续地将多个沙漏模块端到端地放在一起,在单个沙漏上进行扩展。这允许跨尺度自下而上、自上而下的重复推断。结合中间监督的使用,重复的双向推理对网络的最终性能至关重要。

有些方法通过使用单独的管道来解决这个问题,即在多个分辨率下独立处理图像,然后在网络中合并特征。

作者选择使用skip layers的单一管道,以保留每个分辨率下的空间信息。

网络的输出是一组热图,对于给定的热图,网络会预测每个像素上出现关节的概率。

以 256x256 的全输入分辨率运行需要大量 GPU 内存,因此沙漏的最高分辨率(也就是最终输出分辨率)为 64x64。这并不影响网络生成精确联合预测的能力。整个网络从一个步长为 2 的 7x7 卷积层开始,然后是一个残差模块和一轮最大池化,将分辨率从 256 降到 64。

在图 3 所示的沙漏之前有两个残差模块。在整个沙漏过程中,所有残差模块都会输出 256 个特征。

使用 1x1 卷积来减少步骤是有价值的,使用连续的较小滤波器来捕捉更大的空间背景也是有好处的。例如,可以用两个独立的 3x3 滤波器代替 5x5 滤波器。

将一个沙漏的输出作为下一个沙漏的输入。

追加の 1x1 畳み込みを介して中間予測をより多くのチャネルにマッピングすることで、中間予測を特徴空間に再統合します。これらの特徴は、前の砂時計ステージから出力された特徴とともに砂時計の中央の特徴に追加されます (図 4 を参照)。結果の出力は次の砂時計モジュールへの入力として直接使用でき、別の予測セットを生成します。最終的なネットワーク設計では、8 つの砂時計が使用されました。重みは砂時計モジュール間で共有されず、すべての砂時計予測結果は同じグランドトゥルースを使用するため、損失が発生することに注意してください。

ネットワークには、どの人物が注釈に値するかを判断するのに十分な情報がありません。これを行うために、正確な中心にいる人物のみに注釈を付けるようにネットワークをトレーニングしました。

分析の結論

MPII では、平均精度がすべての関節で 2% 以上向上し、膝や足首などのより困難な関節では 4 ~ 5% 向上しました。

不十分なイノベーション

一貫性の問題は、画像内に複数の人物が写っている場合に特に重要になります。ネットワークは誰に注釈を付けるかを決定する必要があり、唯一の信号は対象者のセンタリングとスケーリングであり、入力が解析できるほど明確であることを信頼しています。残念ながら、これにより、キャラクターが接近したり重なったりする場合に、不鮮明な状況が発生することがあります。

追加の知識

画像処理:

ボトムアップ: 高解像度から低解像度へ

上から下へ: 低解像度から高解像度へ

上: 低解像度では、より多くの意味情報が提供され、視野が広くなります。

下: 高解像度ではより多くのピクセルがあり、より詳細な情報が得られます

完全畳み込みネットワークと全体的な入れ子アーキテクチャはどちらも強力なボトムアップ処理能力 (つまり、セマンティック情報の抽出) を備えていますが、トップダウンの処理能力は弱く、マルチスケール予測をマージすることしかできません。

32. 文学読書メモ

導入

トピック

ビデオにおける人間の姿勢推定のための流れる接続ネット

著者

トーマス・フィスター、ジェームス・チャールズ、アンドリュー・ジサーマン、ICCV、2015 年。

元のリンク

https://arxiv.org/pdf/1506.02897.pdf

キーワード

動画における人間の姿勢推定

研究課題

動画における人間の姿勢推定

研究手法

全体的なプロセスは次のとおりです。

1. オプティカル フローを使用して複数のフレームからの情報を結合し、時間的コンテキストを活用します。

前後の t フレームと n フレームの RGB 画像を入力すると、隣接するフレームのヒート マップをオプティカル フローを使用して歪め、位置合わせすることで、時間の経過とともに位置情報を効果的に伝播します。フレーム t から離れるほど、フレームの重量は小さくなります。

隣接するフレームは強力な「専門家の意見」として機能し、専門家プールの重みはエンドツーエンドのバックプロパゲーションを通じて学習されます。

入力イメージ内のジョイントごとにジョイント位置のヒートマップを個別に回帰します。このヒートマップ (最後の畳み込み層 conv8 の出力) は、固定サイズの i × j × k 次元の立方体 (ここでは 64 × 64 × 7、k = 7 つの上半身の関節を表します) です。トレーニング中、グランド トゥルース ジョイントの位置に固定分散を持つガウス分布を配置することにより、ジョイントごとにグランド トゥルース ラベル ヒートマップが合成されます。

l2 loss: 予測されたヒートマップと合成された (合成された) グラウンド トゥルース ヒートマップの間の二乗ピクセルの差にペナルティを与えます。

(x, y) 座標の代わりに回帰ヒートマップを使用する利点: 障害を理解し、ネットワークの「思考プロセス」を直観的に確認できます。設計により、ネットワークの出力はマルチモーダルにすることができます。つまり、次のような用途に使用できます。複数のスペース ポジションに自信があるため、学習が容易になります。トレーニングの初期段階では、特定の関節が複数のポジションで反応する可能性がありますが、トレーニングが進むにつれて、誤った反応は徐々に抑制されます。対照的に、出力が手首 (x, y) 座標のみの場合、予測が正しければ (正しい位置の「確信度が高まっている」にもかかわらず)、ネットワークの損失は小さくなるだけです。

ヒートマップの空間解像度を向上させます: (i) 最小プーリングを使用します (2 × 2 の最大プーリング レイヤーを 2 つだけ使用します); (ii) すべてのストライドを均一にします (解像度が低下しないようにします)。 conv9 (プーリング層) を除き、すべての層の後に ReLU が続きます。

全結合層ではなく畳み込み層

次に、人体レイアウトの暗黙的な空間モデルを学習するために、最初のヒート マップに加えて畳み込みレイヤーを追加します。これらの層は、人体の各部分間の依存関係を学習できます。これらの「空間融合」レイヤーにより、運動学的に不可能な姿勢推定の失敗を排除できます。

関節の空間依存性の学習: 空間融合レイヤー

(conv7) を入力として、人体の位置間の依存関係を学習し、conv7 と conv3 (ジャンプ層) の接続を入力として取得し、ReLU でさらに 5 つの畳み込み層を通過させ、大規模なカーネルを使用してネットワーク受容野を拡張します。別の損失層がネットワークの終端に接続され、ネットワーク全体に逆伝播されます。

分析の結論

「実際のデータセット」でのパフォーマンスは、現在の最先端技術よりもはるかに優れています。

不十分なイノベーション

複数人によるテストは行われません。

追加の知識

オプティカル フロー:コンピュータ ビジョン -- オプティカル フロー手法の紹介 - CSDN ブログ

観察結像面上で空間的に移動する物体の画素移動の瞬間的な速度です。

オプティカル フロー計算には FastDeepFlow を使用します

33. 文学読書メモ

導入

トピック

人間の姿勢推定のための畳み込みネットワークとグラフィカル モデルの共同トレーニング

著者

ジョナサン J. トンプソン、アルジュン ジェイン、ヤン ルカン、クリストフ ブレグラー、NIPS、2014 年

元のリンク

https://arxiv.org/pdf/1406.2984.pdf

【姿勢推定記事読み】人間の姿勢推定のための畳み込みネットワークとグラフィカルモデルの共同トレーニング - CSDNブログ

キーワード

人間の姿勢推定、CNN、マルコフランダム場

研究課題

人間の姿勢推定、

研究手法

1. CNN を使用して姿勢推定を行い、ヒートマップを使用してキーポイントを返します。

2. 人体のキーポイント間の構造的関係を利用し、マルコフ確率場の考え方を組み合わせて、主にネットワーク予測の誤検知に対して予測結果を最適化します。

分析の結論

新しい ConvNet Part-Detector と MRF からインスピレーションを得た空間モデルを学習フレームワークに統合し、人間の姿勢認識タスクにおいて既存のアーキテクチャを大幅に上回るパフォーマンスを実現

不十分なイノベーション

関節位置構造を単独で学習する深層学習の代わりに、構造ドメイン制約が引き続き使用されます。

追加の知識

ネットワーク モデルの設計を詳しく見ることができます (私は詳しく見ていません)。ネットワーク モデルについての理解がさらに深まるはずです。

おすすめ

転載: blog.csdn.net/qq_46012097/article/details/134381191