スケーラブルなフィンガープリンティングを使用した生成モデルの責任ある開示
公式アカウント:EDPJ
目次
0. 概要
過去数年で、ディープ生成モデルのパフォーマンスは新たなレベルに達しました。生成されたデータは実際のデータと区別できなくなります。このテクノロジーの恩恵を受けるユースケースは数多くありますが、この新しいテクノロジーが悪用されてディープフェイクが生成され、誤った情報が大規模に拡散される可能性があるという深刻な懸念もあります。残念ながら、真と偽の間のギャップが縮小し続けているため、現在のディープフェイク検出方法は持続可能ではありません。対照的に、私たちの研究により、そのような最先端の生成モデルの責任ある開示が可能になり、モデルの発明者がモデルのフィンガープリントを行うことができるようになり、フィンガープリントを含む生成されたサンプルを正確に検出して追跡できるようになります。私たちの技術は、異なるフィンガープリントを持つ多数のモデルの効率的かつスケーラブルな特定の生成を通じてこれを実現します。私たちが推奨する動作点では 128 ビットのフィンガープリントが使用されており、原則として 10^38 を超える認識可能なモデルが生成されます。実験では、私たちの方法が指紋認識メカニズムの重要な特性を満たしており、ディープフェイクの検出と追跡可能性において結果を達成していることが示されています。
1 はじめに
深い生成モデルの暗い側面により、その工業化が遅れています。たとえば、GPT-2 (Radford et al.、2019) および GPT-3 (Brown et al.、2020) モデルを商用化するとき、OpenAI はブラックボックス API のみをリリースするのではなく、モデルを保守的にオープンソース化する傾向がありました。ユーザーのダウンロードを精査し、API の使用状況を監視するために、高額な労力を費やしています。ただし、下流のユースケースの責任をオープンな方法で追跡する方法は、依然として業界全体の課題です。
このタスクの先駆者として、私たちは、生成モデルの責任あるリリースとガバナンスを可能にするモデル フィンガープリンティング メカニズムを提案します。特に、責任あるモデルの発明者が生成者のフィンガープリントを作成し、その責任を開示することを許可します。したがって、生成されたサンプルには、正確に検出および追跡できる指紋が含まれています。これは、異なるフィンガープリントを持つ多数のジェネレーター インスタンスの効率的かつスケーラブルな特定の生成によって実現されます。図 1 中央を参照してください。
動的フィルター ネットワーク (Jia et al.、2016) とスタイルベースのジェネレーター アーキテクチャ (Karras et al.、2019; 2020) の精神に基づき、それらのネットワーク フィルターは自由に学習されるのではなく、条件付きで、一意のフィンガープリントをパラメーター化することを学習します。各ジェネレータ インスタンスのフィルタに追加します。中心的な要点は、元の生成パフォーマンスを維持しながら、指紋オートエンコーダー (AE) を GAN フレームワークに組み込むことです。図 1 左を参照してください。特に、GAN バックボーンを考慮して、エンコーダから埋め込まれたフィンガープリントを使用してジェネレーターの各畳み込みフィルターを変調し (図 2(b))、生成された画像からこのフィンガープリントをデコードしようとします。指紋関連の損失と元の敵対的損失を使用して、指紋オートエンコーダーと GAN を共同でトレーニングします。概略図については図 2(a) を、詳細についてはセクション 3 を参照してください。
トレーニング後、担当モデルの発明者は効果的にフィンガープリントを取得し、異なるジェネレーター インスタンスを異なるユーザーにリリースしてダウンロードできるようになります。これらのインスタンスは、生成パフォーマンスは同じですが、フィンガープリントが異なります。各ユーザーのダウンロードは、発明者のデータベースによって維持される一意のフィンガープリントに対応します。したがって、モデルが悪用された場合、モデルの発明者はデコーダを使用して生成された画像から指紋を検出し、データベース内でそれを照合し、ユーザーの責任を追跡できます。図 1 右を参照してください。この形式の責任ある開示に基づいて、責任あるモデルの発明者 (OpenAI など) は、強力なモデルをリリースする際に社会への悪影響を軽減する方法を持ち、不正行為を自動的に追跡する方法も必要です。
2.関連作品
ディープフェイクの検出と追跡可能性。これらの課題には、ディープフェイクの悪用に関する懸念の高まりが伴います (Harris, 2018; Chesney and Citron, 2019; Brundage et al., 2018)。
- ディープ フェイク検出はバイナリ分類問題であり、偽のサンプルを本物のサンプルから区別し、そのソースをさらに追跡するために使用されます。ノイズ中でのパターンマッチング(Marra et al., 2019)、深層分類器(Afchar et al., 2018; Hsu et al., 2018; Yu et al., 2019)による、GAN で生成された画像内で視覚的には認識できないが機械で識別可能なパターンを見つける) またはディープリカレントニューラルネットワーク (Gрuera & Delp、2018) を使用すると、これらのタスクが実行可能になります。
- (Zhang et al., 2019; Durall et al., 2019; 2020; Liu et al., 2020) は、周波数領域またはテクスチャ表現における本物と偽物の間の不一致がディープフェイクの検出を容易にする可能性があることを観察しました。
- (Wang et al., 2020; Girish et al., 2021) はその後、さまざまな GAN 技術をオープンワールドに拡張しました。
- 来歴に加えて (Albright & McCloskey, 2019; Asnani et al., 2021)、潜在的な生成ソースのハイパーパラメーター空間で予測を行うためのリバース エンジニアリングさえも行われます。
ただし、これらの受動的な検出方法は、ディープフェイクに固有の手がかりに大きく依存しています。その結果、敵対的な GAN 技術の長期間の反復に対してほとんど免疫がありません。たとえば、(Durall et al.、2020) は、生成された高周波成分のギャップを狭めることにより、生成のリアリズムを向上させています。この状況に対処するために、人工フィンガープリントが (Yu et al., 2021) で提案され、フィンガープリントをトレーニング データにルート化することで生成モデルにキューを積極的に埋め込みました。これにより、ディープフェイク検出は GAN の進化とは無関係になります。ただし、間接フィンガープリンティング (Yu et al., 2021) では、個別のフィンガープリントごとにトレーニング データを前処理し、各フィンガープリントでジェネレーターを再トレーニングする必要があるため、多数のフィンガープリントに拡張することはできません。私たちのアプローチは精神的には (Yu et al., 2021) と似ていますが、生成モデルを直接かつ効率的にフィンガープリンティングするという基本的な利点があります。つまり、一般的なフィンガープリンティング モデルをトレーニングした後、多数の特定のジェネレーターをインスタンス化できます。
画像のステガノグラフィーと透かし。
ステガノグラフィーは、画像を介した通信が送信者と意図された受信者のみに理解されるように、キャリア画像を秘密裏に操作することを目的としています (Fridrich、2009)。
- 従来のアプローチは、フーリエ変換 (Cox et al., 2002; Cayre et al., 2005)、JPEG 圧縮、または最下位ビット変更 (Pevn`y et al., 2010; Holub et al., 2014) に依存しています。
- 最近の研究では、情報を隠すためにディープニューラルエンコーダーとデコーダーを利用しています(Baluja、2017; Tancik et al.、2020; Luo et al.、2020)。
ウォーターマークは、所有者の身元と信頼性を確認するために、所有権情報をキャリア画像に埋め込むように設計されています。これは、物理的な画像と相互作用することがあるステガノグラフィーの一種です (Tancik et al., 2020)。
- 既存の方法は、対数極周波数領域(Pereira & Pun、2000; Kang et al.、2010)、プリンターカメラ変換(Solanki et al.、2006; Pramila et al.、2018)、またはディスプレイカメラ変換(Yuanら、2013;Fang ら、2018)。
- 最近の研究では、ディープ ニューラル ネットワークを使用して、画像が再画像化されたことを検出しています (Fan et al., 2018; Tancik et al., 2020)。
- 当社のフィンガープリンティング ソリューションの概念と機能は、精神的にはウォーターマークと似ていますが、根本的に異なります。特に個々の画像の修正は行っておりません。代わりに、私たちのソリューションは、情報をモデルにエンコードするためにジェネレーターのパラメーターを修飾する最初のソリューションです。
ネットワーク透かし。ネットワーク透かし技術は、元の有用性を低下させることなく、ピクセルの代わりにネットワーク パラメータに透かしを埋め込みます。私たちのソリューションは彼らのソリューションと同じ動機を共有していますが、コンセプト、動機、テクニックの点で大きく異なります。
- 概念に関しては、既存の研究のほとんどは画像分類モデルにのみ適用可能であり、生成モデルにも適用できるのは (Ong et al., 2021; Yu et al., 2021) だけですが、効率性と拡張性が劣ります。
- 動機付けとして、既存の研究は単一モデルのフィンガープリンティングをターゲットにしており、(Ong et al., 2021; Yu et al., 2021) という制約を受けて、フィンガープリンティングを最大 10^38 の異なるジェネレーター インスタンスまで拡張しています。
- 技術に関しては、既存の研究のほとんどは入出力動作にフィンガープリントを埋め込んでいます (Adi et al., 2018; Zhang et al., 2018; Ong et al., 2021) が、私たちのソリューションはスケーラビリティを向上させるためにこのトリガーされた入力を取り除きます。
3. GAN 指紋認識ネットワーク
この論文全体を通じて、私たちは実験の規制中心であると考えられる責任あるモデル発明者の見解を表明します。エンコーダー、デコーダー、トレーニング データのいずれも一般に公開すべきではありません。フィンガープリント ジェネレーター インスタンスのみがオープン エンドに解放されます。
冒頭にシンボルフラグを列挙します。暗黙的なコーディングを使用します
生成されるものを制御します。d_z = 512 に設定します。私たちは指紋を採取します
ビットのシーケンスとして表されます。確率 0.5 のベルヌーイ分布に従います。セクション 4.2 では、フィンガープリントの長さ d_c を自明ではなく選択しました。エンコーダ E は c をその埋め込みにマッピングし、ジェネレータ G は (z,E(c)) を画像ドメインにマッピングし、弁別器 D は画像 x~p_data を真/偽分類確率にマッピングし、デコーダ F は画像をデコードされた潜在コードとフィンガープリント (^z、^c)。次の式では、簡潔にするために、G(z,E(c)) を G(z, c) と表します。
3.1 プロセス
私たちはトレーニング中に 3 つの目標を考慮します。まず、GAN の元の特徴を保持して、実際の分布にできるだけ近いリアルな画像を生成します。真/偽二値分類には不飽和対数損失を使用します。
デコーダ F を介して潜在コードを再構築し、生成多様性を高め、GAN のモード崩壊問題を軽減します。
ここで、F の最初の d_z 出力要素を使用して、デコードされた潜在コードに対応します。
2 番目の目標は、指紋検出のために指紋を再構築することです。
ここで、F の最後の d_c 出力要素をデコードされたフィンガープリントとして使用します。σ(・) は、出力を範囲 [0, 1] に微分可能に制限するシグモイド関数を示します。したがって、再構成は、各ビットのクロスエントロピー バイナリ分類を組み合わせたものになります。
特に、以下で説明するように、潜在的なコードとフィンガープリントをデコードするために単一のデコーダを使用します。これにより、それらの表現間の明示的な分離が容易になります。
3 番目の目標は、潜在的なコーディングとフィンガープリント表現を分離することです。理想的には、暗黙的なコーディングは、生成される内容を排他的に制御できる必要があります。したがって、指紋は異なるが潜在コードが同じ 2 つの画像は、一貫した外観を持つ必要があります。一貫性の損失は次のように定式化されます。
下の画像は分離効果を示しています。
私たちの最終的なトレーニング目標は次のとおりです。敵対的トレーニング フレームワークの下でそれを最適化します。
ここで、λ1 = 1.0、λ2 = 1.0、λ3 = 2.0、および λ4 = 2.0 は、各損失項のサイズのバランスを取るハイパーパラメーターであり、それぞれが解の特性に寄与します。経験則として、重み設定はその大きさレベル内では影響を受けません。フローチャートを図 2(a) に示します。
3.2 指紋変調
アーキテクチャ レベルでは、E(c) を G に埋め込む方法は簡単な作業ではありません。要点は、ジェネレーターの入力ではなくジェネレーターのパラメーターにフィンガープリントを埋め込むことで、一般的なモデルをトレーニングした後に、異なるフィンガープリントを持つ多数のジェネレーターをインスタンス化できるようにすることです。セクション 4.3 で検証したように、これはフィンガープリンティングを効率的かつスケーラブルにするために重要です。次に、エンコーダーを除いて、フィンガープリント ジェネレーター インスタンスのみをユーザーのダウンロードにデプロイします。
これは、ジェネレーターのバックボーン内の畳み込みフィルターをフィンガープリントの埋め込みで変調することで実現します。層 l の畳み込みカーネルを考えると
まず、アフィン変換 ϕ_l を介して指紋埋め込み E(c) を投影し、次の結果を取得します。
変換は、学習可能なパラメーターを備えた完全に接続されたニューラル層として実装されます。次に、W の各チャネルを ϕ_l の対応する値でスケールします。具体的には、
フローチャートについては、図 2(b) を参照してください。セクション 4.1 で他の指紋埋め込みアーキテクチャと比較し、このアーキテクチャの利点を検証します。同じフィンガープリント埋め込みを使用して、層 l のすべての畳み込みフィルターを変調します。付録セクション A.2 で、どのレイヤ変調が最高のパフォーマンスにつながるかを調査します。理想的なトレードオフは、すべての畳み込み層を変調することです。
トレーニング中に、潜在コード z とフィンガープリント c が一緒にサンプリングされることに注意してください。ただし、展開の場合、モデルの発明者は最初にフィンガープリント c_0 をサンプリングし、次にジェネレータ G を c_0 で変調し、その後、変調されたジェネレータ G(·, c0) のみをユーザーに展開します。このユーザーの場合、変調ジェネレーターは 1 つの入力 (隠しコード) のみを許可します。悪用された場合、発明者はデコーダーを使用して指紋を解読し、ユーザーの出所を追跡することで、責任ある開示を実現します。
4. 実験
4.1 有効性と忠実性
評価します。有効性は、入力指紋が生成された画像内に常に存在し、デコーダによって正確に検出できることを示します。これは、30,000 個のランダム サンプル (ランダム潜在コードとランダム指紋コード) にわたる指紋検出のビット単位の精度によって測定されます。フィンガープリントを表すために 128 ビットを使用します。セクション 4.2 で分析したように、これは非常に重要な設定です。
また、ビット一致は偶然に起こる可能性があります。確率を評価するために帰無仮説検定を実行します。低いほど良いと考えられます。デコードされた指紋と対応する実際のコードの間で一致する桁の数 k が与えられると、帰無仮説 H_0: 確率に従ってこの一致する桁を取得します。これは、d_c 試行の二項確率分布から次のように計算されます。
ここで、d_c は指紋の桁数です。帰無仮説を棄却するには、p 値が 0.05 未満である必要があります。
忠実度は、元の世代がフィンガープリントによってどの程度影響を受けたかを反映します。また、敵対的な指紋除去につながる可能性のある指紋の疑いを回避するのにも役立ちます。30k の生成された画像と 30k の実際のテスト画像の間の Fr´echet Inception Distance (FID) を報告します。値が低いほど、よりリアルな画像が生成されることを意味します。
ベースライン。7 つのベースライン方法を比較します。最初のベースラインは StyleGAN2 バックボーンです。忠実度の上限はありますが、指紋認識はありません。
2 番目のベースラインは (Yu et al., 2021) で、これもアクティブではあるが間接的な GAN フィンガープリンティング方法です。他の 2 つのベースライン outguess と steghide は (Yu et al., 2021) と似ています。彼らは (Yu et al., 2021) のディープ画像フィンガープリンティング自動エンコーダを従来の JPEG 圧縮ベースの画像透かし技術に置き換えたばかりですが、依然として非効率性/スケーラビリティの問題に悩まされています。
また、私たちのメカニズムを 3 つのアーキテクチャのバリエーションと比較します。これらの亜種の動機は、さまざまな方法で指紋を組み込むことです。
- バリアント I: 畳み込みフィルターは隠しコードの埋め込みによってのみ変調されますが、フィンガープリント コードはジェネレーターの入力によって提供されます。これは、指紋変調の必要性をテストするためです。
- バリアント II: フィルターを 2 回変調し、それぞれ隠しコード化埋め込みと指紋コード化埋め込みを使用します。
- バリアント III: 潜在エンコーディングの埋め込みとフィンガープリント エンコーディングの埋め込みを連結した変調フィルター。
結果。表 1 から、次のことがわかります。
- 従来の 2 つの画像透かし手法、outguess と steghide では、ランダムな推測 (〜 0.5) の検出精度が示すように、生成された画像に指紋を伝えることができません。これは、深い生成モデルと浅い透かし技術の間の表現のギャップに起因すると考えられます。
- CelebA では、他のすべての方法は、ゼロに近い p 値でほぼ完璧な指紋検出精度を達成します。これは、CelebA が多様性が限られたランドマーク アライメント データセットであるためです。フィンガープリンティングは、モデルの構成に関係なく、世代とともに適切に機能します。
- LSUN Bedroom and Cat では、飽和した指紋検出精度を達成しているのは (Yu et al., 2021) と当社の最良のモデルだけです。当社のバリアント I、II、III は常に飽和パフォーマンスを達成できるわけではありません。特に私たちの亜種は LSUN Cat で失敗しました。私たちは、フィルター変調が再構築のための強力な方法であると主張します。指紋の検出には指紋変調が必要ですが、指紋コードと一緒に潜在コードを変調すると指紋の再構築に影響します。
- 私たちの方法は (Yu et al., 2021) と同等のパフォーマンスを持ち、実際には大きな利点があります。デプロイメント中、ジェネレーター インスタンスのフィンガープリントを 5 秒以内に実行できますが、(Yu et al., 2021) では 3 ~ 5 日かかる必要があります。ジェネレーター インスタンスを再トレーニングします。これは効率が 50,000 倍向上したことになります。
- 私たちの方法では、FID の劣化は 2.93 以下で無視できます。指紋認証の導入には価値のあるトレードオフがあります。
以下の図に、いくつかのジェネレーター インスタンスから生成された生のサンプルを示します。画質も高く、指紋も目立ちません。これは、式 4 の一貫性損失 L_const によるものです。同じ潜在コードが与えられた場合、異なるジェネレーター インスタンスが同じイメージを生成する可能性があります。彼らの指紋は、目立たない背景でのみ手がかりが得られ、私たちのデコーダーによって区別できます。
4.2 容量
容量は、2 つの指紋間のクロストークなしにメカニズムが保持できる指紋の数を表します。これは、d_c、指紋ビット長、および検出精度 (セクション 4.1 による) によって決まります。ただし、フィンガープリントのビット長の選択は重要ではありません。長さが長いほど、より多くの指紋を収容できますが、再構成/検出がより困難になります。
最適なフィンガープリントのビット長を見つけるために、次の実験を実施しました。一方で、長さが与えられると、検出精度を評価します。一方、検出精度に対する最終的な要件を推定します。これは、指紋サンプルの大きな袋 (100 万個) 内のビット重複の最大パーセンテージとしてモデル化されます。検出精度と収益要件との間のギャップは、可能な限り大きくなければなりません。
図 4 では、フィンガープリントのビット長を {32、64、128、256、512} のオプションの間で変化させ、ビットごとの検出精度を赤でプロットし、最終要件を青でプロットしています。私たちは次のことを発見します:
- 最も重要な要件は、フィンガープリントのビット長が単調に減少することです。これは、ビット長が大きくなるとフィンガープリントの重なりが少なくなるためです。
- テスト精度も指紋のビット長に応じて単調に減少します。これは、指紋の再構成/検出が難しいためです。
- 経験則として、テストの精度は、最初はゆっくりと低下し、その後は最終的な要件よりも早く低下します。したがって、最大ギャップに対する最良の選択として、ビット長 128 を選択します。私たちはすべての実験においてこれを主張します。
- 検出ビット精度が ≥0.991 であり、指紋ビット長が 128 であることを考慮すると、原理的には、このメカニズムは 2^(128 × 0.991) ≈ 10^38 個の識別可能な指紋という大容量に対応できると推定されます。
4.3 スケーラビリティ
スケーラビリティは私たちのメカニズムの強みの 1 つです。トレーニング中に、任意の指紋を使用して大容量のジェネレーターを動的かつ効率的にインスタンス化できるため、テスト中に指紋検出が適切に一般化されます。これをテストするために、メソッドを意図的にダウングレードし、限られたフィンガープリントのセットのみを含むベースラインと比較します。これらのベースラインは、フィンガープリントごとにジェネレーター インスタンスを再トレーニングする必要があるフィンガープリント手法の非スケーラブルなクラスを表します (Yu et al., 2021)。分析のために多数のジェネレーターをインスタンス化するのは非現実的 (時間がかかる) ため、(Yu et al., 2021) と直接比較することはできません。回避策として、ベースラインの非スケーラビリティを模倣するために、1,000 以下の実サンプルを使用して検出器をトレーニングします。
表 2 から、10,000 以上の指紋サンプルを使用してジェネレーターをインスタンス化できない限り、指紋検出を一般化できないことがわかります。これは、効率的でスケーラブルなフィンガープリンティング メカニズムを GAN に、できれば動的に装備する必要があることを示唆しています。
4.4 機密保持
指紋の存在と価値は、第三者によって簡単に発見されるべきではなく、さもなければ削除される可能性があります。実際、画像のステガノグラフィーや透かしとは異なり、指紋エンコーダーは結果の画像を直接変更しないため、指紋の機密性ももう 1 つの有利な特性です。したがって、人工トレーニング セット (ATS) 攻撃などの従来の機密性攻撃プロトコルは適用できません。
代わりに、シャドウ モデル ベースの攻撃 (Salem et al.、2020) を使用して、生成された画像から指紋の存在とその値を検出しようとします。攻撃者はモデル発明者のトレーニング データ、フィンガープリント スペース、トレーニング メカニズムにアクセスできると仮定します。彼は独自のシャドウ指紋自動エンコーダーを再トレーニングしました。
- CelebA データセットに対する指紋存在攻撃の場合、攻撃者は ResNet-18 (He et al., 2016) に基づくバイナリ分類器をトレーニングして、10,000 枚の非指紋画像 (5,000 枚の実際の画像と 5,000 枚の生成された画像) と 10,000 枚の指紋画像を区別しました。フィンガープリントジェネレータを使用して生成されます。飽和に近いトレーニング精度は 0.981 であることがわかります。次に、彼は 1,000 人の発明者によって生成された画像に分類器を適用しました。その結果、指紋の有無のテスト精度はわずか 0.505 であり、ランダムな推測に近いことがわかりました。
- CelebA データセットに対するフィンガープリント値攻撃の場合、攻撃者はシャドウ デコーダ (トレーニング ビット精度 0.991) を発明者が生成した 1k の画像に適用します。結局のところ、ビットごとのテスト精度は 0.513 のみであり、これもランダムな推測に近いものでした。
- 私たちは、フィンガープリンティング システムの異なるバージョン間の不一致によって攻撃が防止され、それによって機密性が保証されると結論付けています。
4.5 堅牢性と耐性
オープンエンドのディープフェイクでは後処理環境が発生し、品質が低下する可能性があります。したがって、画像の摂動に対する堅牢性も私たちのメカニズムにとって同様に重要です。それが特定の摂動に当てはまらない場合、私たちの免疫特性がそれを補います。
(Yu et al., 2019) のプロトコルに従って、トリミングとサイズ変更、ガウス カーネル ブラー、JPEG 圧縮、加法的ガウス ノイズ、およびそれらのランダムな組み合わせという 5 つの画像摂動に対するロバスト性を評価します。モデルの 2 つのバージョン、つまりオリジナルと免疫バージョンを考慮します。免疫モデルは、トレーニング中に、生成された画像を指紋デコーダーに供給する前に、対応するランダムな強度の摂動で強化することを示しています。
エンコーダー、デコーダー、トレーニング データは一般公開されていないことに注意してください。したがって、摂動に対するロバスト性は、(Yu et al., 2019) で指定されているブラックボックス仮定を使用してテストする必要があります。言い換えれば、敵対的な画像変更や指紋オーバーレイなどのホワイトボックス摂動は、エンコーダー、デコーダー、トレーニング データへのアクセスを必要とするため、このシナリオには適していません。
オリジナル/免疫モデルと(Yu et al., 2021)モデル間の指紋検出精度の比較を、各摂動強度ごとに図5にプロットします。私たちは次のことを発見します:
- すべての摂動について、摂動強度が増加するにつれて指紋検出精度は単調に減少します。赤い画像の一部の変動、つまりぼかしや JPEG 圧縮では、かなりの範囲にわたって精度がゆっくりと低下します。合格精度は 75% 以上と考えます。したがって、ブラーの下でのロバストな動作範囲は次のとおりです: ガウス ブラー カーネル サイズ 〜 [0, 7]; JPEG 圧縮の下: JPEG 品質 〜 [80, 100]。一般に、摂動がこの範囲を超えると、画像は正しく動作しなくなります。したがって、ぼやけと JPEG 圧縮に対する堅牢性を検証します。
- 他の摂動については、元のモデルは十分に堅牢ではありませんでしたが、摂動増大によりブルースポットが大幅に補正されます。合格精度は 75% 以上と考えます。したがって、クロッピング下での免疫動作範囲は次のとおりです: クリッピング サイズ 〜 [60, 128]; ガウス ノイズ下: ノイズ標準偏差 〜 [0.0, 0.4]; 複合摂動下: 上記の元のまたは免疫可能範囲の組み合わせ。したがって、クリッピング、ガウス ノイズ、および複合摂動に対するモデルの耐性を検証します。
- (Yu et al., 2021) と私たちのモデルを比較すると、緑のマップのモデルは、ぼやけに対して元の/免疫モデルほど堅牢ではありません。他の摂動については、元のモデルよりも堅牢ですが、免疫モデルほど堅牢ではありません。これは、指紋採取ソリューションの免疫力の重要性を示唆していますが、免疫力が欠けています (Yu et al., 2021)。
4.6 ディープフェイクの検出と追跡可能性
有効性、堅牢性、免疫力は、ディープフェイクの検出と来歴という本来の動機に利益をもたらします。前者のタスクは、本物と偽物を区別する二項分類問題です。後者のタスクは、生成された画像の起源をさらに詳細にラベル付けすることです。
ソリューションをパッシブ分類器からアクティブ フィンガープリンティングに移行し、これら 2 つのタスクを 1+N クラスを含む 1 つのタスクに結合します。1 つの現実世界のソースと N 個の GAN ソース (N は非常に大きくなる可能性があり、セクション 4.2 の容量は同じくらい大きくなります) 10^38として。次にタスクは、デコードされた指紋がデータベースに存在するかどうかの検証に移ります。ビット オーバーラップのしきい値が指定されている場合、これは、デコードされたフィンガープリントをデータベース内のすべてのフィンガープリントと比較することによって実現されます。指紋検出精度 ≥0.991 によると、しきい値を 128 × 0.95 ≈ 121 に設定すると信頼できるはずです。フィンガープリントに基づいてジェネレータ インスタンスを直接検索できるため、トレーサビリティは簡単になります。指紋がデータベースにない場合は、実際の画像からデコードされたランダムな指紋である必要があります。セクション 4.5 では、組み合わせ摂動に対して免疫モデルを使用します。
ベースライン。私たちは、固有の視覚的手がかりに受動的に依存する学習ベースのベースラインとして、2 つの最先端のディープフェイク分類器 (Yu et al., 2019; Wang et al., 2020) を比較します。学習ベースの方法では限られたトレーニング ラベルのセットしか列挙できないため、クローズドワールドとオープンワールドの 2 つのシナリオを検討します。違いは、トレーニング中にテスト GAN ソースが表示されるかどうかです。この方法では任意の N ≤ 10^38 を処理できるため、これは問題ではありません。閉じた世界の場合、N+1 ソースからの 10k/1k 画像ごとにベースライン分類器をトレーニング/評価します。オープンワールドの場合、N + 1 個の 1 対その他のバイナリ分類器をトレーニングし、すべての分類器が否定的な結果を予測する場合に限り、ラベル「その他」を予測します。各グラウンド トゥルース ソースまたは N 個の未確認 GAN ソースからの 1,000 個の画像でテストします。さらに、比較では他のアクティブだが間接的なモデル フィンガープリンティング ベースラインとして (Yu et al., 2021) を参照します。
結果。表 3 から次のことがわかります。
- GAN ソースの数がそれほど多くない場合、指紋に基づくディープフェイクの検出と来歴は、閉じられた世界のほとんどのベースラインで同様に良好に機能します (精度は約 100%)。ただし、N = 100 の場合、(Yu et al., 2021) は効率とスケーラビリティが限られているため適用できません。二項分類の性質により、(Wang et al., 2020) も適用できません。
- オープンワールドも私たちの方法にとっては自明のシナリオですが、ベースライン分類器に課題をもたらします (Yu et al., 2019; Wang et al., 2020)。(Yu et al., 2019) 目に見えない GAN ソースの数が 10 に増加すると、ランダムな推測に近くまで劣化します。これは、学習ベースの手法によくある一般化問題です。(Yu et al., 2021) は、N が大きい場合には依然として実用的ではありません。
- ディープフェイクの検出と来歴は私たちの方法では簡単な作業であるため、GAN テクノロジーの開発とは無関係に私たちの利点が得られます。これにより、モデルの追跡が容易になり、モデルの発明者による責任ある開示の新たな方向性が促進されます。
5。結論
私たちは、新しいフィンガープリンティング メカニズムを通じて、生成モデルの説明責任の開示を実現します。これにより、異なるフィンガープリントを持つ多数のモデルをスケーラブルにアドホックに生成できます。さらに、ディープフェイク検出および属性タスクでの飽和パフォーマンスを検証します。私たちは、生成モデルの責任ある出版とガバナンスを維持するためのコミュニティの取り組みを求めています。私たちは、責任ある情報開示が AI の安全性の重要な基盤となることを願っています。
参考
@inproceedings{ yu2022responsible, title={スケーラブル フィンガープリンティングを使用した生成モデルの責任ある開示}、 author={Ning Yu、Vladislav Skripniuk、Dingfan Chen、Larry S. Davis、Mario Fritz}、 booktitle={学習表現に関する国際会議}、 年={2022}、 url={https://openreview.net/forum?id=sOK-zS6WHB} }
S. まとめ
S.1 主なアイデア
フィンガープリントの埋め込みを使用してコンボリューション カーネルを変調することによってジェネレーターにフィンガープリントを埋め込むことで、モデルの発明者がモデルのフィンガープリントを作成できるようになり、フィンガープリントを含む生成されたサンプルを正確に検出して追跡できるようになります。
S.2 アーキテクチャと損失
この論文で使用されるバックボーン ネットワークは StyleGAN2 です。使用される損失関数は式 5 に示されています。
true/false バイナリ分類には不飽和対数損失を使用します。
デコーダ F を介した潜在コードの再構築により、生成多様性を高め、GAN のモード崩壊問題を軽減します。
ここで、F を使用する最初の d_z 出力要素は、デコードされた潜在コードに対応します。
指紋検出には再構築指紋損失を使用します。
ここで、F の最後の d_c 出力要素がデコード フィンガープリントとして使用されます。
フィンガープリントは異なるが、同じ潜在コードを持つ 2 つの画像は、一貫した外観を持つ必要があります。一貫性の損失は次のように定式化されます。
S.3 フィンガープリントを使用したカーネル変調
ジェネレーターのバックボーン内の畳み込みフィルターをフィンガープリントの埋め込みで変調することによって。層 l の畳み込みカーネルを考えると
まず、指紋埋め込み E(c) をアフィン変換 ϕ_l によって投影して、
変換は、学習可能なパラメーターを備えた完全に接続されたニューラル層として実装されます。次に、W の各チャネルは、ϕ_l の対応する値によってスケーリングされます。具体的には、