翻訳論文「顔キーポイント検出のための種間知識移転」

ディレクトリ

论文链接:顔キーポイント検出のための種間知識移転

コード:https://github.com/ menoRashid / animal_human_kp

要約:

1.はじめに

2.関連作品

3.アプローチ

4.実験

5。結論


著者・団体:

          

要約:

       我々は、顔情報を変換することによって、動物の顔の特徴キーポイントを特定する方法を提案します。そんなに直接訓練ネットワークは、微調整、動物の顔の重要なポイントに重要なポイントに直面しているわけではありません(動物の顔と顔は非常に異なって見えるので、この方法は、次善である)、私たちは、顔の形状を変更することによって、異なる動物およびヒトをお勧めしますその動物の画像は顔検出前のトレーニングモデルに適応すること。まず、我々は、最も類似した顔画像を検索各入力画像のための動物形状マッチング法による教師なしを使用します。私たちは、人間の顔のような動物の顔、それのそれぞれ1つの入力をワープワープするためにネットワークを訓練するためにこれらの一致を使用します。ネットワークは、ラップと事前訓練を受けた人は、動物データと臨界点の検出ネットワーク共同微調整に直面した後私たちは、簡単な微調整との臨界点の検出が大幅に改善されている馬や羊の顔の最新の研究結果は、学習データが不足している場合は特に比較提示しました。また、当社は3717で新しいデータセットは、マリの画像と顔のキーポイントのマークを持って提案しています。

1.はじめに

      顔検出は、顔位置合わせ及び登録のためのキーの前提条件が重要であり、表情分析、顔追跡は、特定の影響と操作および変換顔グラフィック法を有しています。顔検出キーポイントであるが、比較的研究の場を成熟しますが、動物の顔臨界点の検出は比較的未開拓分野です。例えば、研究は馬の獣医師、マウス、羊、そして猫は痛みの顔に異なる表情を持っていることが示されている(通常は臨界点の検出は、動物の痛みを検出することができます直面しています)。本稿では、主に馬や羊が臨界点検出に直面しています。畳み込みニューラルネットワーク(CNN)は、人間の顔検出の主要分野で優れた性能を有しているので、良い選択CNN動物キーポイントが検出されます。残念ながら、ゼロからニューラルネットワークを訓練することはタギングデータ、時間とコストのかかるの多くを必要とします。また、不十分なトレーニングデータがある場合に、CNNは、道の採用を微調整することができます。二つのタスクの間で微調整と限界相関に使用することができるデータの量によって予め訓練されたネットワークの汎化能力例えば、前の仕事は、ネットワークを訓練することは人工物の自然物に適応する能力が制限されており、唯一の目標とタスクに関連し、追加の事前学習データが有用であることが示されています。私たちは、多くの人々が臨界点マークデータに直面していますが、ない重要なポイントの動物のトレーニングデータの多くは、ニューラルネットワークを訓練します。同時に、原因別の顔や動物の顔の構造に、微調整を直接使用することは、良い結果を得られない可能性があります。この記事では、我々はこの問題(臨界点検出)を解決するために人間の顔や動物の顔のデータを変換する方法で持っています。どのように我々はそれがcnnsを通じてしかし、この効果を達成することができますか?私たちは、主に事前の訓練ネットワークは、新たなトレーニングデータセットに適応するのではなく、より良い微調整にデータ収集ネットワークを適応させるために事前に訓練されています。新しいデータセットと試合前のトレーニングミッションデータマッピング、我々は動物の顔を検出することを可能にするために、人の顔の重要なポイントの検出ネットワークを使用して、微調整ネットワークすることができます。具体的には、アイデアは、それがより多くの人のように見えるようにするために、各動物の画像をワープ画像をラップして、事前に訓練された人間の顔臨界点を検出するための通過による微調整にネットワークを使用することです。

                                                                  

      直感的に、より多くの人の動物のように顔のルックスを作ることによって、私たちはその形状で正しい違いなので、トリミングプロセスを実現することができ、ネットワークは、その外観の違いに適応する必要があります。例えば、馬の口の間の距離は、一般的に彼らの目の間の距離よりもはるかに小さいですが、人間にとって、一般的に同様の距離(異なる形状)。また、馬の毛があり、人々はしないでください。私たちは、形状の違いを調整するためにラップ馬の口ネットワークを介して引っ張るだろう、と微調整プロセスでは、キーポイントの検出ネットワークは、外観の違いを調整する方法を学習します。

貢献。
新しい動物の顔検出キーを導入するための1 A法、人間の顔からメソッドキーは、検出された 緩く関連 切替情報フィールド。
2. 3717枚の画像が含まれている馬の顔キーデータセットに新しいラベルを提供します。
3.最新の研究結果は、馬や羊の重要なポイントの検出を示しています。より多くの人に見えるように画像を変換することにより、動物のデータは、我々は簡単なトリミングによるキーポイントの検出精度の大幅な向上が期待できます。これは、小さなデータセットのための我々のアプローチの実際の適用可能性を示していることを学習データ量の削減、我々のアプローチと単純に微調整との間に隙間が成長している、と、重要です。
 

2.関連作品

      コンピュータビジョンの研究における重要なポイントの顔検出とアライメントが非常に成熟してきました。古典的なアルゴリズムが含ま....(ここでは省略します)
 

3.アプローチ

 
      私たちの目標は、データセットの状況をマークし多数の動物が存在しない状態で顔キーの動物を検出することです。このような理由から、私たちは事前に訓練を受けた人が臨界点面の使用をお勧めします
口座に自分のドメイン間の相違の種類を取って、検出器を。トレーニングのために、私たちは動物の顔のコメント、注釈顔のキーポイントとそれに対応する前の訓練を受けた人間の臨界点検出器のキーポイントへのアクセスを前提としています。テスト目的のために、私たちは動物の顔検出器を使用する(すなわち、我々は唯一の顔検出ではなく、顔検出の重要なポイントに焦点を当てる)と仮定することができます。動物から人間の変形ネットワークへの列車への最近傍を使用し;各動物の顔類似した姿勢の最近の訪問の顔を見つけ、動物の微調整画像に変形(人間のような)を使用して:我々のアプローチは、3つの主要なステップで構成されてい人間の顔の動物のキーポイント検出器を検出するために、事前に訓練のためのキーポイント。
 
3.1。ポーズのマッチングと最も近い隣人
 
      動物(losely関連)微調整に適用顔臨界点検出器を作るために、私たちのアイデアは、事前に訓練を受けた人々は、検出器、動物データにより簡単に適合させるために、より多くの人間の形状最初のメイクに顔変形の動物です。1つの課題は、動物およびヒトの任意のペアは、反りが極めてさえせずに、挑戦となります(例えば、馬の人々の右と左に)ショー非常に異なる姿勢、上で直面するかもしれないということです可能。この問題を軽減するために、我々は最初に同様の姿勢で動物と人間を見つけます。
      私たちが動物と人間の顔/コメントのポーズ分類器を持っている場合、我々は単に右の動物や人間の顔を見つけるために、それらの分類/アノテーションを使用することができます。しかし、この作品では、我々は、分類姿勢やジェスチャーコメントへのアクセスを持っていないことを前提としています。代わりに、私たちは、そのキーのコメントを考えると、近い顔姿勢を見つけます。より具体的には、我々は、最も類似した動物の顔の各インスタンスを選択し、ヒトおよび動物のキーの差の対の間の角度を計算します。
                                                       
 
                                                      
 
3.2。種間の顔ワープネットワーク
 
      现在,我们拥有动物面部和其对应的最像的人脸数据,我们用这些匹配数据训练一个animal-to-human的wrap网络。这个网络可以使动物面部更像人脸,所以用wrap后动物数据去finetune预训练人脸特征点检测网络相比直接finetune更加容易。
     为此,我们训练了一个CNN网络,该CNN网络将动物图像作为输入并通过(TPS)[4]进行变形。 我们的wrap网络是一个空间变换器[19],主要区别在于我们的wrap是直接受监督的,类似于[6]。我们的网络架构类似于[38]中的本地化网络; 直到第五个卷积层为止,它与Alexnet [24]相同,随后是一个1×1卷积层,该层将过滤器的数量减半,两个全连接层,并在第五层之前进行BN。 在训练过程中,前五层将在ImageNet上进行预训练。 我们发现这些层/过滤器选择TPS转换而不会发生过拟合。
      对于每组动物和人类训练数据,我们首先使用其对应的关键点对来计算标注的TPS变换,然后应用该变换产生标注后的wrap动物图像。 然后,我们使用wrap网络计算预测的wrap动物图像。为了训练网络,我们对标注的wrap图像和预测的wrap图像像素位置偏移之间的差异进行回归,类似于[21]。 具体来说,我们使用平方差损失来训练网络:
                       
 
     我们的wrap网络不需要额外的标注来进行训练,因为我们仅使用动物 / 人类关键点注释来找到匹配项(对于训练其相应的关键点检测器,这些匹配项已经可用)。 另外,由于每个动物实例都具有多个(K = 5)人类匹配项,因此训练了wrap网络以将多个转换识别为潜在的正确的转换。 这是数据增强的一种形式,有助于使网络对异常匹配的敏感度降低。
 
 
3.3. Animal keypoint detection network3.3. Animal keypoint detection network
 
      我们上节提到的wrap网络可以使动物数据和人脸数据更加相似。所以我们可以利用大型的人脸关键点标注数据集去训练动物关键点。最后一步finetune人脸关键点检测网络,去检测我们wrap后的动物面部。
      我们的关键点检测网络是一种 Vanilla CNN的变形体。该网络有四个卷积层, 两个全连接层(tanh激活),max-pooling用在后三层卷积上。我们通过添加卷积层和max-pooling 调整使其适应更大的图像—我们用的是224*224而不是40*40的图像。此外我们在每层添加batch normalizaton层,因为原始网络中tanh容易过拟合。 
                                           
      关键点检测损失函数:smooth-L1
 
                                            
      我们将没有相应的标注(由于遮挡)的预测关键点的损失设置为零。
 
3.4. Final architecture
      在我们最终的模型中,在预训练人脸关键点检测模型之前我们适应了一个warp网络。 我们用两个loss共同finetune这个网络。关键点检测损失 keypoint 通过关键点检测网络和wrap网络反向传播。 另外,wrap损失 L warp通过 wrap 网络反向传播,并且在更新两个网络的权重之前计算梯度。
      在测试阶段,我们的关键点检测网络会在每张图像上预测所有5个面部关键点。 在我们的实验中,对于图像中不可见的关键点预测,我们将不会进行惩罚,并且仅针对具有相应真实标记的预测关键点来进行评估。 为了进行评估,使用TPS扭曲参数将在wrap图像上预测的关键点转换到原始图像。
 
3.5. Horse Facial Keypoint dataset
      作为这项工作的一部分,我们创建了一个新的马数据集来训练和评估面部关键点检测算法。共3717张,3531张用来训练,186张用于测试。我们标注了每张图像的面部框和5个关键点:左眼, 右眼, 鼻子, 左嘴角,右嘴角。
 

4. Experiments

      在本节中我们分析关键点检测模型的准确性,并逐个分析每个模块。此外,我不同数量的数据集上对模型进行评估,并在wrap网络表现较好的情况下评估最优解。
 
Baselines:
      我们与[51]中提出的算法进行比较,该算法在级联形状回归框架中使用三重态插值特征(TIF)进行动物关键点检测。 我们还制定了自己的baseline。 第一个baseline是没有扭曲网络的完整模型。 它只是在动物数据集(“ BL FT”)上微调了预先训练的人脸关键点网络。 第二个baseline是我们的完整模型,没有wrap损失; 即,它仅通过关键点检测损失来微调预训练的人脸关键点网络和wrap网络。 该基线等用于[19]中提出的空间变换器设置。 我们使用TPS(“ BL TPS”)显示了此结果。 第三个baseline从零开始训练关键点检测网络。 即无需进行任何人脸关键点检测的预培训,也无需扭曲网络(“从头开始”)。
 
Datasets:
      我们根据AFLW [23]数据集和[40]中使用的训练数据对人脸关键点进行了关键点检测网络的预训练(共31524张图像)。 该数据集还用于动物到人类的最近邻居检索。 我们评估了对两种动物(马和羊)的关键点检测。 对于 马 实验,我们使用“ 马面部关键点”数据集,该数据集包含3531张训练图像和186张测试图像。 对于羊 实验,我们手动标注了[51]中提供的数据集的一部分,以便在人类数据集中存在相同的5个关键点。 该数据集包含432张训练图像和99张测试图像。
 
Evaluation metric:

      我们使用与[51]相同的度量标准进行评估:如果预测的关键点与标注的关键点之间的欧式距离大于面部(边界框)大小的10%,则视为失败。 然后我们将平均失败率计算为失败的测试关键点的百分比。

 
Training and implementation details:

      我们发现,在联合训练之前对wrap网络进行预训练可以带来更好的性能。 为了训练wrap和关键点网络,我们对每张动物图像使用K = 5个人类图像。 这些匹配项还用于4.4节中介绍的“ GT Warp”网络中。 

      对于TPS wraping 网络,我们使用5×5的控制点网格。 我们使用adam[22]优化器。 wrap网络训练的基本学习率为0.001,而预训练层的学习率则低10倍。 它训练了50个epoch,学习率在25个epoch后降低了10倍。 在完整的系统训练过程中,wrap网络的学习速率相同,而关键点检测网络的学习速率为0.01。 我们将网络训练了150个epoch,分别在50和100个epoch后降低了学习率。 最后,我们使用水平翻转和从-10°到10°的旋转(以5°为增量)进行数据增强。

 
4.1. Comparison with our baselines
      首先,我们将所有模型和我们的模型进行比较。如图5,分别展示了马和羊数据集的验证结果。在这两个数据集中,我们的模型表现更好,关键点平均失败率分别为8.36%,0.87%。
  
                                                        
      
      总体而言,羊的错误率低于马的错误率,这是因为羊脸数据相对于马脸数据的姿势分布更像人。人脸和羊脸的正向姿势(5个关键点)在所有图像中的占比分别为72%和84%,而马脸只有29%,大部分马脸都是侧脸(3个关键点)。因此,羊脸更加适合人脸预训练的模型。尽管如此,我们的方法相对于其他方法在这两个数据集上表现的也更好,也证明了我们的方法可以适用于其他不同的数据集。
      这些结果也表明了我们系统每个部分的重要性,训练一个人脸预训练模型比从头训练好,添加wrap网络进一步提升了模型效果。
             
                                    
 
 
                                                       
4.2. Comparison with Yang et al
      我们接下来将我们的方法与Triplet InterpolatedFeatures (TIF)(三重插值特征)方法进行比较,该方法是目前最先进的动物关键点检测器,该方法要求在所有训练数据都是标注的。 我们在那里选择了一个马和绵羊图像的子集,其中数据标注了5个关键点:绵羊 345/100(训练/测试),马 982/100(训练/测试)。
                               
 
                                                                
                                                                 
 
 
 
 
4.3. Effect of training data size
      在本节中,我们评估了随着训练数据量的变化,网络性能如何变化。 为此,我们训练和测试了多组模型和基线的baseline,每次在Horse数据集上使用500到3531幅训练图像,并且以500幅图像为增量。
                                                                 
 
 
4.4. Effect of warping accuracy
      我们接下来分析wrap网络对关键点检测的影响。为此,我们首先分析用 ground-truth warp(“GT Warp”)的图像finetune的关键点检测网络的效果,我们通过使用人和马脸之间的标注进行wrap。 从某种意义上讲,这代表了我们系统性能的上限。
      下表显示了我们Horse数据集的结果。 首先,GT Warp的上限比我们的方法产生的错误率更低,这证明了通过wrap校正形状差异的想法的有效性。同时,GT Warp的错误率不可忽略,这也暗示了我们wrap网络的训练数据和和姿势匹配策略的局限性。 更好的训练数据,或者使用不同的算法进行最近邻匹配,或者使用注释的关键点增加,可能会导致更好的上限,并且也可能会为我们的方法提供改进。
 
                                                        
 
4.5. Evaluation of Nearest Neighbors
      最后,我们评估系统中所使用的最近邻方法。 在训练马数据集的过程中,我们修改最近邻K值从1至15(增量为5)。实验结果如下图所示。
 
                                                                        
 

5. Conclusion

      我们提出了一种新的动物面部关键点定位方法。 传统的deeplearning通常需要大量的带标注的数据,此类数据集的制作费时又费利。因此我们没有制作大型带标注的动物数据集,而是使动物的脸部形状wrap成人的形状。 通过这种方式,我们可以利用目前已有的人脸关键点数据集来进行与动物脸部关键点检测任务。 并我们将我们的方法与其他baselines进行了实验对比,并展示了有关马和绵羊面部关键点检测的最新结果。 最后,我们制作了Horse Facial Keypoint数据集,我们希望该数据将对动物面部关键点检测这一领域有所帮助。

 
 
发布了84 篇原创文章 · 获赞 108 · 访问量 3万+

おすすめ

転載: blog.csdn.net/qq_42013574/article/details/104131484