SGANPose | 네트워크에서 인간의 포즈 추정에 대하여

인간의 포즈 추정을위한 자기 적대적인 교육
공식 코드 : pytorch

1. 시작점

신체의 차단 및 혼잡 및 기타 현상, 정확한 견적은 이러한 경우에 해결하기 어려운 인간의 몸 포즈 추정의 기존 네트워크와 같은 현상 때문에 정상적인 몸의 자세, 인간 고유의 손실을 충족하지 않는 네트워크 키 포인트 추정으로 이어질 수 있습니다 형성한다. 첫 번째 행에 비해도 이미지의 두 번째 행에 도시 된 바와 같이, 예를 들면, 그 점 접합부 반대로 있다는 것을 알 수있다. 저자는 심지어 혼잡 상태, 예상 네트워크 키는 또한 구조의 공동 고유에 부합 될 수 있기를 바랍니다. 이 문제를 해결하기 위해 생성 된 대결을 사용하여 제안 된 방식에 따라.

대립의 네트워크 구조를 이후 2

종래의 모델과 유사한 GAN이 모델은 본원 두 네트워크로 분할 설명 및 판별 생성. 제 1 네트워크를 생성하는 것은, 각 점수마다 중요한 점의 위치를 ​​나타내는 열도 신뢰 수준의 세트를 획득하기 위해, 이전에 계산 발전기 통해 길쌈 네트워크이다. 제 2 네트워크 판별 동일한 구조를 갖는 발전기하지만도 가열한다은 RGB 이미지 입력 ​​함께 부호화 참과 거짓도 온도도 열을 구별하기 위해,도 열 새로운 세트로 복호 . 제안 된 네트워크에 대한 결과를 이후에 도시 된 바와 같이. , 판별은 추론 할 때 최종하기 전에 확인하기 위해 키 포인트의 전반적인 결과에서 제외됩니다.

3. 발전기

발전기의 주요 역할은 인간의 신체의 주요 지점에 대한 정확한 정보를 생성하는 것입니다. 물론, 링 대결을 생성으로, 가장 중요한 함수 발생기는 현재 키 GT 또는 열지도 구분할 수 없습니다 판별을하는 발전기에 의해 생성되는 키 포인트를 판별 최종 속임수를 생성 할 수 있습니다. 따라서, 도시 된 바와 같이, 경우에 두 부분에서 손실 판별 Ladv 대 즉 역방향 전파 발생기로부터 손실 Lmse 최적화되는 열차 발생기.

다음 전체 손실은 손실 수학 식 1 Lmse 목적 가깝게 최종 레이블을 생성하는 바디 키 생성기 할 수 있도록하는 것이다. 공식 대결 손실 Ladv 2 목적은 결국 더 합리적인 태도와 라인에서 생산 키 발전기의 손실에 대한 싸움을하는 것입니다. 더 직설적, Ladv 목적 발전기 스퓨리어스도 바보 판별에 의해 발생 된 열이 가능할 수 있도록, 그것이 거짓 구분할 수 GT 열 열도도. 대립을 생성하는 프로세스는 여기에 반영된다. 수학 식 3에 도시 된 발전기의 마지막 손실의 사용을 최적화한다. 어디 람다는 슈퍼 ​​매개 변수입니다.

4.鉴别器

鉴别器的目标是区分输入进来的热图是GT还是生成器生成的虚假热图。鉴别器最终的训练目标就是能够把生成器生成的数据竟可能和GT区分出来。从而和生成器形成一个对抗博弈的过程。因此,如下图所示,训练鉴别器时,其通过两部分进行优化,分别为反向传播来自鉴别器的损耗Lreal和来自鉴别器的损耗Lfake。

整体的loss如下所示,公式(4.1)表示将GT热图输入鉴别器得到编码后的新热图,并计算新热图和GT热图的距离,进行Lreal损失计算。公式(4.2)表示将生成器生成的虚假热图输入鉴别器得到编码后的新热图,并计算新热图和生成器生成的虚假热图之间的距离进行Lfake损失计算。正如前述提到过的,鉴别器的目的是尽可能的将虚假热图和GT热图区分开来,也就是说鉴别器希望GT热图输入后的输出重构热图尽可能和GT接近,希望虚假热图输入后的输出重构热图尽可能和虚假热图不同。从loss上来说就是希望Lreal越来越小,希望Lfake越来越大。基于此,鉴别器的loss如公式(4.3)所示。

上述公式中的kt是用来约束鉴别器的能力,通过公式(5)约束kt能够使得网络更容易训练。正如许多论文中提到的那样,GAN不稳定且难以训练,因为鉴别器过快收敛,导致网络很容易崩溃,训练出无效的生成器。鉴别器过快收敛,从loss来分析就是:Lfake小于Lreal,生成器生成的热图足够真实以欺骗鉴别器。 此时,kt将增加,以使Lfake更具优势,从而使得鉴别器进行更多的训练才能识别生成的热图。它在Lfake上加速训练的比例取决于鉴别器落在与生成器的差距。当Lfake大于Lreal时原理类似。

对公式4进行解读:
公式4.1 输入为原始RGB图像X,GT热度图C。计算的Lreal表示鉴别器产生的结果和GT热度图之间的差别。
公式4.2输入为原始RGB图像X,生成器产生的热度图C^。计算Lfake表示鉴别器产生的结果和生成器产生热度图之间的差别。
公式4.3表示最终整个公式4,也就是鉴别器的loss的目的是最小化Lreal和Lfake,即整个优化过程要求Lreal小且Lfake大,直白的来说就是要求当输入为GT热度图时,鉴别器产生尽可能和GT相同的结果。当输入为生成器产生的热度图时,鉴别器产生尽可能和生成器不同的结果。如,如果右膝盖的信心在左膝盖附近很高,则训练有素的鉴别器将产生右膝盖的热图,该热图在左膝盖的位置具有较大的误差。由于鉴别器就像评论家一样, 它在输入热图上提供了详细的“注释”,并建议热图中的哪些部分未产生真实姿势。最终整个误差会在公式2中体现出来。而公式二会指导生成器进行进化,使得最终的生成器更好,降低整个误差。

##### 5.算法整体流程

整体算法每一个迭代过程如下:

1.将GT热度图C,原始图像X输入到鉴别器,计算鉴别器的前向结果。为D(X,C)。同时计算鉴别器的loss,公式4.1,Lreal。
2.将原始图像X输入到生成器,计算生成器的前向结果C^。同时计算生成器loss,公式1,Lmse。
3.将虚假热度图C,原始图像X输入到鉴别器,计算鉴别器的前向结果。为D(X,C)。同时计算鉴别器的loss,公式4.2,Lfake。(累计Lreal和Lfake梯度值,并更新鉴别器参数,公式4.3)。
4.有了虚假热度图C和D(X,C),利用公式2计算对抗loss,Ladv,并更新生成器。

##### 6.结果展示
作者在LSP和MPII两个人体关键点数据集上对上述自对抗网络进行了结果分析,从下表可以看出,利用对抗生成的方式能够有效提升模型效果,且不会增加推理时间。

发布了233 篇原创文章 · 获赞 187 · 访问量 40万+

추천

출처blog.csdn.net/qiu931110/article/details/104486687