公式アカウント:EDPJ
目次
1. アダプティブインスタンス正規化によるリアルタイムでの任意のスタイル転送
2. アップコンボリューションに注意してください: CNN ベースの生成ディープ ニューラル ネットワークはスペクトル分布の再現に失敗しています
3. FD: 顔生成評価における深部特徴空間の役割の理解について
4. ニューラルネットワークにおける意味論的および視覚的整合性の不一致への対処
5. 意味論的な知識を使用してニューラル ネットワークの重大な間違いに対処する
0. 概要
1. アダプティブインスタンス正規化によるリアルタイムでの任意のスタイル転送
(2017、AdaIN) アダプティブ インスタンス正規化によるリアルタイム任意スタイル転送_EDPJ のブログ-CSDN ブログ
1.1 主なアイデア
インスタンス正規化の成功を説明するために、著者らは、インスタンス正規化が画像のスタイル情報を伝える特徴統計を正規化することによってスタイル正規化を実行するという新しい説明を提案しています。これに基づいて、著者は Adaptive Instance Normalization (AdaIN) を提案します。コンテンツとスタイルが与えられると、AdaIN はコンテンツ画像の平均と分散をスタイル画像の平均と分散に一致するように調整するだけでよく、生成される画像には前者のコンテンツと後者のスタイルが含まれます。
1.2 セクション
AdaIN は式 8 に示されます。
ここで、x と y はそれぞれコンテンツ画像とスタイル画像を表します。μ(x) と σ(x) はコンテンツ画像の平均と標準偏差を示し、μ(y) と σ(y) はスタイル画像の平均と標準偏差を示します。画像の特徴量統計量には画像のスタイル情報が含まれているため、正規化によりコンテンツ画像のスタイル情報を除去し、スタイル画像の特徴量統計量(スタイル情報)を用いてアフィン変換を行うことで、スタイル転送を行うことができます。実現する。
1.3 異なる層での AdaIN の構造と使用の効果
この論文で使用されるネットワーク構造と、さまざまなレイヤーで AdaIN を使用する効果を上の 2 つの図に示します。
AdaIN は画像の特徴 (特徴空間) の統計に基づいて動作するため、ネットワーク内の後続の層はより正確な特徴を抽出できます。これらの正確な特徴の統計値に基づいて、インスタンスの正規化中にコンテンツ画像のスタイルをより完全にデスタイルできるため、より高品質のスタイル転送が実現します。
2. アップコンボリューションに注意してください: CNN ベースの生成ディープ ニューラル ネットワークはスペクトル分布の再現に失敗しています
(2020、スペクトル正則化) アップコンボリューションを観察する: CNN ベースの生成ディープ ニューラル ネットワークはスペクトル分布を再現できない_EDPJ のブログ-CSDN ブログ
2.1 主なアイデア
CNN で使用されるアップコンボリューションはスペクトルの歪みを引き起こしますが、スペクトルの正則化を生成器の損失関数に追加し、コンボリューション カーネルを大きくすることで軽減できます。スペクトルギャップを狭めることにより、生成される画像は実際の画像と同様のスペクトル分布を持ち、生成の品質が向上します。
2.2 アップコンボリューションによるスペクトルの歪み
線形補間アップコンボリューションとゼロパディング (グレー値 0) アップコンボリューションを上の図に示します。これらのアップコンボリューションはどちらもスペクトルの歪みを引き起こします。直感的に理解できるのは次のとおりです。
- 線形補間アップコンボリューションの場合、パディングされたピクセルは元のピクセルの線形補間であるため、隣接するピクセル間の差は小さく、その結果、スペクトル内の低周波成分が増加し、高周波成分が減少します。
- ゼロ パディング アップコンボリューションの場合、元のピクセルとゼロ パディング ピクセルの差が大きいため、スペクトル内の高周波成分が増加し、低周波成分が減少します。
2.3 スペクトル正則化
画像に対して離散フーリエ変換 (DFT) を実行して 2 次元スペクトルを取得し、動径方向に方位角積分して 1 次元スペクトルを取得します。新しい正則化項は、実際の画像と生成された画像の 1 次元スペクトルのクロス エントロピーです。スペクトルギャップを狭めることにより、生成された画像は実際の画像と同様のスペクトル分布を持ちます。
2.4 その他の貢献
ディープフェイクの検出。既存の生成ネットワークではアップコンボリューションによる歪みが遍在しているため、スペクトル歪みはディープフェイクを検出する指標として使用できます。
スペクトル正則化により、トレーニングの安定性が向上します。画像のスペクトルには豊富な情報が含まれており、スペクトル正則化を使用することでモデルのスペクトル認識を向上させることができます。より多くの情報があれば、モデルはより速く学習し、モードの崩壊を回避します。
3. FD: 顔生成評価における深部特徴空間の役割の理解について
(2023、属性感度) FD: 顔生成評価に対する深い特徴空間の影響の理解について_EDPJ のブログ-CSDN ブログ
3.1 主なアイデア
モデルが異なれば、属性に対する感度も異なります。たとえば、FD は ImageNet でトレーニングされたモデルから抽出された特徴を使用して、目や口などの領域ではなく帽子を強調します。さらに、顔の性別分類特徴を使用した FD では、アイデンティティ (認識) 特徴空間における距離よりも髪の長さに重点が置かれます。
著者らは、さまざまな属性を曖昧にすることで、評価指数 (FID) に対するこれらの属性の影響を調査しています。このより詳細な評価により、バイアスが軽減され、結果として得られるモデルの全体的な品質が向上します。
3.2 フレシェ開始距離 (FID)
FID では、2 つの Inception 埋め込み画像の分布が多変量ガウス分布であると仮定し、計算式を式 1 に示します。
ここで、(μ1,Σ1) と (μ2,Σ2) は画像セット (つまり、実画像と生成画像) の埋め込みの標本平均と共分散、Tr(・) は行列トレースです。
3.3 サンプルの生成
実際のデータセットには重要な属性の相関関係が含まれており、評価指標に対する個々の属性の影響をテストするために、作成者は生成されたデータセットを使用します。データセットは 2 つの手順で生成されました。
- まず、顔の毛、化粧、しかめっ面の表情、帽子や眼鏡などを除く、明るい肌と短い髪の事前定義された均一な特徴を示す基本的な顔のセットを合成します。さまざまな顔のセマンティクスに対応する 12 のバイナリ属性。
- 次に、上記 12 の属性を含むサンプルをそれぞれ合成します。
3.4 実験
実験的なアプローチでは、他の属性を一定に保ち、1 つの属性のみを変更 (ぼかし) し、FID に対するその効果を観察します。
生成に使用されるモデルは、異なるデータセットでトレーニングされた異なるアーキテクチャのモデルであり、その結果、異なる特徴空間が得られます。
異なる特徴空間の FID を比較するには、まず特徴空間内の元の画像とぼかした画像の間の FID を計算し、次に元の画像と完全にぼやけた画像の間の FID で割って正規化された FID を取得します。
3.5 分析
実験結果の一部を上図に示します。SwAV-FFHQ (FFHQ でトレーニングされた ResNet-50 モデル) を例に挙げます。
- 髪のぼかし度が増加 (0%→100%) しても、FID は基本的に変化せず、特徴空間が髪の属性に敏感でないことを示します。
- 肌のトーンのぼかし (0%→100%) が増加すると、FID が大幅に増加します。これは、特徴空間が肌のトーンの属性に非常に敏感であることを示しています。
差異分析。
- 著者らは、これらの違いは、トレーニング中に使用される目的関数に最も関連する意味論的特徴を特徴空間が捉えている結果であると推測しています。
- CLIP 特徴は、調査されたすべての特徴に対して敏感です。これは次の 2 つの理由による可能性があります: (1) CLIP は大規模なデータセットでトレーニングされている、(2) テキストは画像エンコーダーに知覚特徴情報の豊富なソースを提供しており、これらの情報は学習できません古典的な監修を通じて。
- 特徴空間では、アーキテクチャ タイプ、サイズ、最終層特徴の数が異なるネットワークが使用されており、これらの要因が実験結果に影響を与える可能性がありますが、著者らは、より大きな影響はトレーニング セットと目的関数から得られると考えています。
4. ニューラルネットワークにおける意味論的および視覚的整合性の不一致への対処
(2023、セマンティック ハイブリッド) ニューラル ネットワークにおけるセマンティックとビジュアルの整合性の違いに対処する - EDPJ のブログ - CSDN ブログ
4.1 主なアイデア
著者らは拡散ベースのデータ拡張を使用して、カテゴリと視覚的な関係の意味論的な整合性を高め、それによって摂動に対するモデルの堅牢性を向上させています。
4.2 セマンティックミキシング
拡散ベースのデータ拡張 MagicMix は画像に対してセマンティック ミキシングを実行します。そのプロセスを図 1 に示します。セマンティックミキシングの結果を図 2 に示します。列 4 (椅子からバス) を例にとると、意味混合の度合いが深まるにつれて (0% → 50% → 75%)、椅子の外観はますますバスに似てきます。
4.3 方法
純粋なデータと意味論的な混合データを使用してモデルをトレーニングすることで、外乱が存在する場合でもモデルが正確な分類を実行できるようになります。つまり、モデルのロバスト性が向上します。
5. 意味論的な知識を使用してニューラル ネットワークの重大な間違いに対処する
(2022、エラー重大度) セマンティック ナレッジを使用したニューラル ネットワークのエラー重大度の処理_EDPJ のブログ-CSDN ブログ
5.1 主なアイデア
(分類) モデルのさまざまなエラーの重大度は異なります。著者らは、モデルの予測とグラウンド トゥルース ラベルの間の意味論的な違いを利用して、標的型敵対的攻撃を生成する際のエラー重大度を定量化し、モデルの堅牢性を向上させています。
5.2 用語の説明
エラー重大度: 自動運転システムの場合、歩行者を木の枝と誤認するのと、歩行者を自転車と誤認するのとでは、前者の方が意味的な類似性が大幅に低く、エラー重大度も高いことを示します。
間違ったセマンティック アライメント: 上で述べたように、モデルの予測が間違っていたとしても、エラーの重大度を軽減するために、予測された間違ったラベルと実際のラベルのセマンティックな類似性が近くなるように試行する必要があります (実践はセマンティック アライメントです)。 。
モデルの堅牢性: 外乱が存在する場合、モデルの予測精度は変わらないか、わずかに低下するだけです。また、何か問題が発生したとしても、エラーの重大度は低くなければなりません。
ロバストな特徴と非ロバストな特徴: 画像の特徴は、ロバストな特徴と非ロバストな特徴に分類できます。以下の図に示すように、画像は Ilyas (2019) らによる論文「Adversarial Examples Are Not Bugs, They Are features」からのものです。
- 非ロバストな特徴は分類モデルの予測に情報を提供できますが、人間には知覚できません。たとえば、敵対的防御では、画像に小さな摂動を追加すると、人間の目には画像は変化していませんが、モデルは画像を別のカテゴリとして誤って判断する可能性があります。
- 堅牢な機能は摂動の影響を受けません。
5.3 方法
段階的なトレーニングを使用します。
最初の段階では、セマンティック ターゲットの敵対的トレーニングを使用して、トレーニング プロセスにセマンティックな知識を埋め込みます。非ターゲット手法 (誤ったラベルが何であったかに関係なく、誤分類の原因となる摂動を見つける) とは異なり、このアプローチでは、モデルをだまして指定された (ターゲット) クラスを予測させる摂動が生成されます。
ターゲット t は、イメージ x の元のラベル y と意味的に類似したクラス C(y) のセットから選択されます。C(y) は、y との意味的類似性が最も高い 5 つのラベルのセットです。この式は、モデルに t の判断を誤らせる摂動 δ * を範囲 ε 内で見つけるように促します。
第 2 段階は標準的なトレーニングです。次の式に示すとおりです。モデルが誤判断を引き起こすような外乱があったとしても、モデルは正しい判断を行うことができます。つまり、モデルのロバスト性はトレーニングによって向上します。
5.4 分析
段階的なトレーニングを経ると、モデルの堅牢性が向上し、外乱による誤判断が起こりにくくなります。たとえ誤って判断されたとしても、実際のラベルに意味的に近いラベルが予測されるため、エラーの深刻度は軽減されます。