[NeurIPS 2023] バックドア攻撃と防御に関する論文の概要

NeurIPS の敵対的攻撃と防御に関する論文 

NeurIPS2022|敵対的攻撃および防御論文の編集-Zhihu 

NeurIPS 2023 論文

BIRD: 深層強化学習のための一般化可能なバックドアの検出と削除

https://neurips.cc/virtual/2023/poster/70618 

まとめ:

バックドア攻撃は、深層強化学習 (DRL) ポリシーのサプライ チェーン管理に深刻な脅威をもたらします。最近の研究では初期の防御策が提案されていますが、これらの方法の一般化性と拡張性は非常に限られています。この問題に対処するために、攻撃仕様に関する知識やそのトレーニング プロセスへのアクセスを必要とせず、クリーンな環境で事前トレーニングされた DRL ポリシーからバックドアを検出して削除する手法である BIRD を提案します。バックドア攻撃の独特の性質と動作を分析することで、トリガー回復を最適化問題として定式化し、新しいバックドア戦略検出メトリクスを設計します。また、クリーンな環境でエージェントのパフォーマンスを維持しながらバックドアを削除するための微調整アプローチも設計しました。私たちは、10 の異なるシングル エージェントまたはマルチ エージェント環境で 3 つのバックドア攻撃に耐える BIRD の能力を評価しました。私たちの結果は、BIRD の有効性、効率性、一般化可能性、さらにはさまざまな攻撃のバリエーションや適応に対する堅牢性を検証しています。

バックドア攻撃は、深層強化学習 (DRL) ポリシーのサプライ チェーン管理に重大な脅威をもたらします。最近の研究で提案された初期の防御にもかかわらず、これらの方法の一般化性と拡張性は非常に限られています。この問題に対処するために、攻撃仕様に関する知識やそのトレーニング プロセスへのアクセスを必要とせず、クリーンな環境で事前トレーニングされた DRL ポリシーからバックドアを検出して削除する手法である BIRD を提案します。バックドア攻撃の固有の特性と動作を分析することで、トリガーの復元を最適化問題として定式化し、バックドア ポリシーを検出するための新しいメトリクスを設計します。また、クリーン環境でエージェントのパフォーマンスを維持しながら、バックドアを削除するための微調整方法も設計します。10 の異なるシングル エージェントまたはマルチ エージェント環境における 3 つのバックドア攻撃に対して BIRD を評価しました。私たちの結果は、BIRD の有効性、効率性、汎用性、さらにはさまざまな攻撃のバリエーションや適応に対する堅牢性を検証しています。

共有された敵対者の学習: 共有された敵対的な例の学習を解除することによるバックドアの軽減

https://neurips.cc/virtual/2023/poster/69874

論文: https://arxiv.org/abs/2307.10562 

まとめ:

バックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威であり、攻撃者がトレーニング セットに汚染されたサンプルを注入する可能性があり、バックドア モデルが、良性のサンプルでは通常のパフォーマンスを発揮しながら、特定のターゲット クラスに対する特定のトリガーを持つ汚染されたサンプルを予測する可能性があります。このペーパーでは、小規模でクリーンなデータセットを使用してバックドア モデルをサニタイズするタスクについて検討します。バックドア リスクと敵対的リスクの関係を確立することで、主にバックドア モデルとサニタイズされたモデル間の共有敵対的インスタンス (SAE) のリスクを捉える新しいバックドア リスクの上限を導き出します。この上限はさらに、敵対的トレーニング手法を使用してバックドアを軽減するための新しい 2 層の最適化問題を提案します。この問題を解決するために、Shared Adversarial Release (SAU) を提案します。具体的には、SAU は最初に SAE を生成し、次に生成された SAE を無視して、それらが精製モデルによって正しく分類されるか、および/または 2 つのモデルによって異なる分類が行われるようにします。これにより、バックドア モデルのバックドア効果が精製モデルで軽減されます。さまざまなベンチマーク データセットとネットワーク アーキテクチャに関する実験により、私たちが提案した方法がバックドア防御において最先端のパフォーマンスを達成することが示されました。

バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威であり、攻撃者がトレーニング セットに汚染されたサンプルを注入することで、良性のサンプルでは通常どおり動作しながら、特定のターゲット クラスに対して特定のトリガーを使用して汚染されたサンプルを予測するバックドア モデルを引き起こす可能性があります。このペーパーでは、小規模でクリーンなデータセットを使用してバックドアモデルを精製するタスクを検討します。バックドア リスクと敵対的リスクの関係を確立することで、バックドア リスクの新しい上限を導き出します。これは主に、バックドア モデルと精製されたモデルの間の共有敵対的例 (SAE) のリスクを捉えます。この上限はさらに、敵対的トレーニング手法を使用してバックドアを軽減するための新しい 2 レベルの最適化問題を示唆しています。それを解決するために、私たちは Shared Adversarial Unlearning (SAU) を提案します。具体的には、SAU は最初に SAE を生成し、次に生成された SAE を学習解除して、それらが精製されたモデルによって正しく分類されるか、および/または 2 つのモデルによって異なるように分類されるようにします。これにより、バックドア モデルのバックドア効果が精製されたモデルで軽減されます。さまざまなベンチマーク データセットとネットワーク アーキテクチャに関する実験により、私たちが提案した方法がバックドア防御の最先端のパフォーマンスを達成することが示されました。

VillanDiffusion: 拡散モデル用の統合バックドア攻撃フレームワーク

https://neurips.cc/virtual/2023/poster/70045

論文: https://arxiv.org/abs/2306.06874

まとめ:

拡散モデル (DM) は、反復的なノイズの追加とノイズ除去から可逆的な破壊プロセスを学習する最先端の生成モデルです。これらは、画像へのテキストの条件付き生成など、多くの生成人工知能アプリケーションのバックボーンです。ただし、最近の研究では、基本的な無条件 DM (DDPM や DDIM など) は、モデル入力に悪意を持って埋め込まれたパターンによって引き起こされる出力操作攻撃であるバックドア インジェクションに対して脆弱であることが示されています。この論文では、現在の DM バックドア分析の範囲を拡張するための統合バックドア攻撃フレームワーク (VillanDiffusion) を提案します。私たちのフレームワークは、主流の無条件および条件付き DM (ノイズ除去ベースおよびスコアベース) に加え、全体的な評価のためのトレーニング不要のさまざまなサンプラーをカバーしています。実験の結果、当社の統合フレームワークにより、さまざまな DM 構成でのバックドア分析が容易になり、DM に対する字幕ベースのバックドア攻撃について新たな洞察が得られることがわかりました。

拡散モデル (DM) は、反復的なノイズの追加とノイズ除去から可逆的な破損プロセスを学習する最先端の生成モデルです。これらは、テキストから画像への条件付き生成など、多くの生成 AI アプリケーションのバックボーンです。しかし、最近の研究では、基本的な無条件 DM (DDPM や DDIM など) は、モデル入力に悪意を持って埋め込まれたパターンによって引き起こされる出力操作攻撃の一種であるバックドア インジェクションに対して脆弱であることが示されています。このペーパーでは、DM の現在のバックドア分析の範囲を拡大するための統合バックドア攻撃フレームワーク (VillanDiffusion) を紹介します。私たちのフレームワークは、主流の無条件および条件付き DM (ノイズ除去ベースおよびスコアベース)、および全体的な評価のためのトレーニング不要のさまざまなサンプラーをカバーしています。

 

Federated Natural Language バックドア防御のためのクライアント データの相違を理論的にモデル化する

https://neurips.cc/virtual/2023/poster/70177

まとめ:

フェデレーテッド ラーニング アルゴリズムにより、プライベート データを公開することなく、複数の分散エッジ デバイス上でニューラル ネットワーク モデルをトレーニングできます。ただし、悪意のあるクライアントによって開始されるバックドア攻撃に対しては脆弱です。既存の堅牢なフェデレーション集約アルゴリズムは、パラメトリック距離に基づいて疑わしいクライアントをヒューリスティックに検出して除外しますが、自然言語処理 (NLP) タスクでは効果がありません。主な理由は、テキストのバックドア パターンは基礎となるデータセット レベルでは明らかですが、離散特徴空間を使用してテキストにバックドアを挿入してもモデル パラメーターに対する統計的影響が少ないため、パラメーター レベルでは隠蔽されることが多いためです。この問題に対処するために、フェデレーテッド NLP システムのクライアント間のデータの違いを明示的にモデル化することでバックドア クライアントを識別することを提案します。理論分析を通じて、集約された更新とヘシアンを使用してクライアント データの相違を推定するための f ダイバージェンス メトリックを導き出します。さらに、拡散理論に基づいて、顧客データのヘシアンを計算する際にアクセスできないデータセットという重要な課題に対処するために、ヘシアン再配布メカニズムを備えたデータセット合成方法を設計します。次に、F-Divergence メトリクスを利用して疑わしいクライアントを検出して削除する、新しい Federated F-Divergence-Based Aggregation (Fed-FA) アルゴリズムを提案します。多くの実証結果は、さまざまな自然言語バックドア攻撃シナリオにおいて、Fed-FA がバックドア攻撃に抵抗する際に、すべてのパラメトリック距離ベースの方法よりも優れていることを示しています。

フェデレーション学習アルゴリズムにより、プライベート データを公開することなく、複数の分散エッジ デバイスにわたってニューラル ネットワーク モデルをトレーニングできます。ただし、悪意のあるクライアントによって開始されるバックドア攻撃の影響を受けやすくなります。既存の堅牢なフェデレーション集約アルゴリズムは、パラメーターの距離に基づいて疑わしいクライアントをヒューリスティックに検出して除外しますが、自然言語処理 (NLP) タスクには効果がありません。その主な理由は、テキスト バックドア パターンは基礎となるデータセット レベルでは明らかですが、離散特徴空間を持つテキストにバックドアを挿入してもモデル パラメーターの統計に与える影響が少ないため、パラメーター レベルでは通常隠蔽されるためです。この問題を解決するために、フェデレーテッド NLP システムのクライアント間のデータの相違を明示的にモデル化することでバックドア クライアントを特定することを提案します。理論分析を通じて、集計更新とヘシアンを使用してクライアント データの相違を推定するための f ダイバージェンス指標を導き出します。さらに、クライアントのデータのヘシアンを計算する際にアクセスできないデータセットという重要な課題に対処するために、拡散理論に基づいたヘシアン再割り当てメカニズムを備えたデータセット合成方法を考案します。次に、f-divergence インジケーターを利用して疑わしいクライアントを検出して破棄する、新しい Federated F-Divergence-Based Aggregation (Fed-FA) アルゴリズムを紹介します。広範な実証結果は、さまざまな自然言語バックドア攻撃シナリオの中で、バックドア攻撃に対する防御において、Fed-FA がパラメーター距離ベースのすべての方法よりも優れていることを示しています。f ダイバージェンス指標を導出し、集計更新とヘシアンを使用してクライアント データのダイバージェンスを推定します。さらに、クライアントのデータのヘシアンを計算する際にアクセスできないデータセットという重要な課題に対処するために、拡散理論に基づいたヘシアン再割り当てメカニズムを備えたデータセット合成方法を考案します。次に、f-divergence インジケーターを利用して疑わしいクライアントを検出して破棄する、新しい Federated F-Divergence-Based Aggregation (Fed-FA) アルゴリズムを紹介します。広範な実証結果は、さまざまな自然言語バックドア攻撃シナリオの中で、バックドア攻撃に対する防御において、Fed-FA がパラメーター距離ベースのすべての方法よりも優れていることを示しています。f ダイバージェンス指標を導出し、集計更新とヘシアンを使用してクライアント データのダイバージェンスを推定します。さらに、クライアントのデータのヘシアンを計算する際にアクセスできないデータセットという重要な課題に対処するために、拡散理論に基づいたヘシアン再割り当てメカニズムを備えたデータセット合成方法を考案します。次に、f-divergence インジケーターを利用して疑わしいクライアントを検出して破棄する、新しい Federated F-Divergence-Based Aggregation (Fed-FA) アルゴリズムを紹介します。広範な実証結果は、さまざまな自然言語バックドア攻撃シナリオの中で、バックドア攻撃に対する防御において、Fed-FA がパラメーター距離ベースのすべての方法よりも優れていることを示しています。私たちは、クライアントのデータのヘシアンを計算する際にアクセスできないデータセットという重要な課題に対処するために、拡散理論に基づいたヘシアン再割り当てメカニズムを備えたデータセット合成方法を考案しました。次に、f-divergence インジケーターを利用して疑わしいクライアントを検出して破棄する、新しい Federated F-Divergence-Based Aggregation (Fed-FA) アルゴリズムを紹介します。広範な実証結果は、さまざまな自然言語バックドア攻撃シナリオの中で、バックドア攻撃に対する防御において、Fed-FA がパラメーター距離ベースのすべての方法よりも優れていることを示しています。私たちは、クライアントのデータのヘシアンを計算する際にアクセスできないデータセットという重要な課題に対処するために、拡散理論に基づいたヘシアン再割り当てメカニズムを備えたデータセット合成方法を考案しました。次に、f-divergence インジケーターを利用して疑わしいクライアントを検出して破棄する、新しい Federated F-Divergence-Based Aggregation (Fed-FA) アルゴリズムを紹介します。広範な実証結果は、さまざまな自然言語バックドア攻撃シナリオの中で、バックドア攻撃に対する防御において、Fed-FA がパラメーター距離ベースのすべての方法よりも優れていることを示しています。

BadTrack: 視覚オブジェクト追跡に対するポイズンのみのバックドア攻撃

https://neurips.cc/virtual/2023/poster/71420

まとめ:

ビジュアル オブジェクト トラッキング (VOT) は、コンピューター ビジョンの最も基本的なタスクの 1 つです。従来技術のVOTトラッカーは、オブジェクトを背景から区別するようにトラッカーを導くために使用されるポジティブな例とネガティブな例を抽出する。このペーパーでは、この機能を悪用して新しい脅威を導入できることを実証し、シンプルかつ効果的なポイズンのみのバックドア攻撃を提案します。具体的には、事前定義されたトリガー パターンを各ビデオ フレームの背景領域に追加することで、トレーニング データのごく一部を毒し、抽出されたネガティブな例にほぼ独占的にトリガーが表示されるようにします。私たちの知る限り、これは VOT トラッカーがポイズンのみのバックドア攻撃の脅威にさらされていることを明らかにした最初の研究です。私たちの実験によると、バックドア攻撃は、有害なデータに対するデュアルストリームの Siamese トラッカーとシングルストリームの Transformer トラッカーのパフォーマンスを大幅に低下させながら、無害なトラッカーと同等のパフォーマンスを達成できることを示しています。

ビジュアル オブジェクト トラッキング (VOT) は、コンピューター ビジョン コミュニティにおける最も基本的なタスクの 1 つです。最先端の VOT トラッカーは、トラッカーがオブジェクトを背景から区別するために使用されるポジティブな例とネガティブな例を抽出します。この論文では、この特性を悪用して新しい脅威を導入できることを示し、シンプルかつ効果的なポイズンのみのバックドア攻撃を提案します。具体的には、各ビデオ フレームの背景領域に事前定義されたトリガー パターンをアタッチすることで、トレーニング データのごく一部をポイズニングし、抽出されたネガティブ サンプルにほぼ独占的にトリガーが表示されるようにします。私たちの知る限り、これは VOT トラッカーに対する毒のみのバックドア攻撃の脅威を明らかにした最初の研究です。

データポイズニングとバックドア攻撃に対する堅牢な対照言語イメージ事前トレーニング

https://neurips.cc/virtual/2023/poster/71818

論文: https://arxiv.org/abs/2303.06854 

まとめ:

視覚言語表現の対比学習は、インターネットから収集した何百万もの画像と認知のペアから学習することにより、ゼロショット分類で最先端のパフォーマンスを実現します。ただし、CLIP などの大規模なマルチモーダル モデルを支える膨大な量のデータにより、標的型データ ポイズニング攻撃やバックドア データ ポイズニング攻撃に対して非常に脆弱になります。この脆弱性にもかかわらず、これらの攻撃に対する堅牢な対照的視覚言語の事前トレーニングは未解決のままです。この研究では、ターゲット データ ポイズニングやバックドア攻撃に対するマルチモーダル視覚言語モデルの堅牢な事前トレーニングのための最初の効果的な方法である ROCLIP を提案します。ROCLIP は、ランダムな字幕の比較的大規模でさまざまなプールを考慮し、各画像を (独自の字幕ではなく) プール内で最も類似したテキストと照合することにより、毒された画像字幕のペア間の相関関係を効果的に打ち破ります。私たちの広範な実験により、私たちのアプローチが、CLIP の事前トレーニング中に最先端の標的型データ ポイズニングとバックドア攻撃を無効にすることが示されました。特に、RoCLIP は毒攻撃の成功率を 93.75% から 12.5% に、バックドア攻撃の成功率を 0% に低下させ、CLIP と同様のゼロエミッション性能を維持しながら、モデルの線形検出性能を効果的に 10% 向上させます。

対比視覚言語表現学習は、インターネットからクロールされた何百万もの画像とキャプションのペアから学習することにより、ゼロショット分類の最先端のパフォーマンスを達成しました。ただし、CLIP などの大規模なマルチモーダル モデルを強化する大量のデータにより、標的型データ ポイズニング攻撃やバックドア データ ポイズニング攻撃に対して非常に脆弱になります。この脆弱性にもかかわらず、これらの攻撃に対する堅牢な対比視覚言語事前トレーニングは未解決のままです。この研究では、標的型データポイズニングやバックドア攻撃に対してマルチモーダルビジョン言語モデルを堅牢に事前トレーニングするための最初の効果的な方法である ROCLIP を提案します。ROCLIP は、比較的大規模でさまざまなランダム キャプションのプールを考慮することにより、ポイズニングされた画像とキャプションのペア間の関連性を効果的に破壊します。そして、すべての画像を、独自のキャプションではなく、プール内で最も類似したテキストと照合します。私たちの広範な実験により、私たちの方法がCLIPの事前トレーニング中に最先端の標的型データポイズニングとバックドア攻撃を無効にすることが示されました。特に、RoCLIP はポイズン攻撃の成功率を 93.75% から 12.5% に、バックドア攻撃の成功率を 0% に低下させ、モデルのリニア プローブのパフォーマンスを効果的に 10% 向上させ、CLIP と比較して同様のゼロ ショット パフォーマンスを維持します。

機能シフトチューニングによる安定したバックドア浄化

https://neurips.cc/virtual/2023/poster/72630

論文: https://arxiv.org/abs/2310.01875v1

コード: https://github.com/AISafety-HKUST/stable_backdoor_purification

まとめ:

ディープ ニューラル ネットワーク (DNN) はバックドア攻撃に対して脆弱であることが広く観察されています。バックドア攻撃により、攻撃者はトレーニング サンプルの少数のセットを改ざんすることでモデルの動作を悪意を持って操作できます。この脅威を軽減するために一連の防御方法が提案されていますが、それらはトレーニング プロセスに複雑な変更を必要とするか、特定のモデル アーキテクチャに大きく依存するため、現実世界のアプリケーションへの展開が困難になります。したがって、この記事では、さまざまな攻撃シナリオの徹底的な評価を通じて、最も一般的で導入が簡単なバックドア防御の 1 つである微調整から始めます。予備実験で得られた観察によると、高い中毒率では有望な防御結果とは対照的に、バニラの調整アプローチは低い中毒率では完全に失敗します。ポイズニング率が低い場合、バックドア機能とクリーン機能の間のもつれによってチューニングベースの防御の有効性が損なわれるため、バックドアのサニタイズを改善するにはクリーン機能とバックドア機能の間のもつれを解消する必要があると仮説を立てています。私たちは、シンプルで安定しており、さまざまなバックドア攻撃に耐えることができる、Feature Shift Tuning (FST) と呼ばれるチューニングベースのバックドア無害化手法を提案します。具体的には、私たちのアプローチは、分類器ヘッドを最初に侵害された重みから遠ざけるように積極的に操作し、クリーンな特徴とバックドア特徴の間のもつれを解消することで、特徴の転送を促進します。広範な実験により、当社の FST はさまざまな攻撃設定の下でも一貫した安定したパフォーマンスを提供することが示されており、さらに、現実世界のシナリオに簡単に導入でき、計算コストを大幅に削減できます。

ディープ ニューラル ネットワーク (DNN) は、攻撃者がトレーニング サンプルの少数のセットを改ざんすることでモデルの動作を悪意を持って操作する可能性があるバックドア攻撃に対して脆弱であることが広く観察されています。この脅威を軽減するために一連の防御方法が提案されていますが、それらはトレーニング プロセスに複雑な変更を必要とするか、特定のモデル アーキテクチャに大きく依存するため、現実世界のアプリケーションに導入することが困難になります。したがって、このホワイトペーパーでは、代わりに、さまざまな攻撃シナリオに対する包括的な評価を通じて、最も一般的で導入が簡単なバックドア防御の 1 つである微調整から始めます。初期の実験で得られた観察では、高い中毒率では有望な防御結果とは対照的に、バニラの調整方法は低い中毒率のシナリオでは完全に失敗することが示されています。ポイズニング率が低いと、バックドア機能とクリーン機能の間のもつれがチューニングベースの防御の効果を損なうため、バックドアの浄化を改善するにはクリーン機能とバックドア機能の間のもつれを解消する必要があると考えられます。私たちは、さまざまなバックドア攻撃に対してシンプルで安定した機能シフト チューニング (FST) と呼ばれる、チューニング ベースのバックドア浄化手法を提案します。具体的には、私たちの方法は、分類子のヘッドを元の侵害された重みから積極的に逸脱させ、クリーンな特徴とバックドアの特徴の間のもつれを解消することで、特徴のシフトを促進します。広範な実験により、当社の FST はさまざまな攻撃設定の下で一貫して安定したパフォーマンスを提供し、さらに、計算コストを大幅に削減して現実世界のシナリオに導入するのにも便利であることが実証されました。

ゼロショット画像浄化によるブラックボックス バックドア防御

https://neurips.cc/virtual/2023/poster/71421

論文: https://arxiv.org/abs/2303.12175

まとめ:

バックドア攻撃により、ポイズニングされたサンプルがトレーニング データに挿入され、モデルのデプロイ中にポイズニングされた入力が誤って分類されます。このような攻撃を防御することは、特にクエリ アクセスのみを許可する現実世界のブラック ボックス モデルの場合、困難です。この論文では、Zero-Sample Image Purification (ZIP) を通じてバックドア攻撃を防御する新しいバックドア防御フレームワークを提案します。私たちのフレームワークは、汚染されたモデルに関する内部情報や、クリーン/汚染されたサンプルに関する事前の知識を必要とせずに、ブラックボックス モデルに適用できます。私たちの防御フレームワークは 2 つのステップで構成されます。まず、バックドア パターンを破壊することを目的として、汚染されたイメージに線形変換を適用します。次に、事前トレーニングされた拡散モデルを使用して、変換によって削除された欠落している意味情報を復元します。特に、変換された画像を使用して、ゼロサンプル設定で機能する高忠実度の精製画像の生成をガイドする新しい逆手順を設計します。さまざまな種類の攻撃を使用して、複数のデータセットで ZIP フレームワークを評価します。実験結果は、最先端のバックドア防御ベースラインと比較した ZIP フレームワークの利点を示しています。私たちは、この調査結果がブラック ボックス モデルの将来の防御方法について貴重な洞察を提供すると信じています。

バックドア攻撃では、ポイズニングされたサンプルがトレーニング データに挿入され、その結果、モデルのデプロイ中にポイズニングされた入力が誤って分類されます。このような攻撃に対する防御は、特にクエリ アクセスのみが許可される現実世界のブラック ボックス モデルの場合、困難です。この論文では、ゼロショット画像精製 (ZIP) を通じてバックドア攻撃を防御する新しいバックドア防御フレームワークを提案します。私たちのフレームワークは、汚染されたモデルに関する内部情報や、クリーン/汚染されたサンプルに関する事前の知識を必要とせずに、ブラックボックス モデルに適用できます。私たちの防御枠組みには 2 つのステップが含まれます。まず、バックドア パターンを破壊することを目的として、汚染されたイメージに線形変換を適用します。次に、事前トレーニングされた拡散モデルを使用して、変換によって削除された欠落した意味情報を復元します。特に、変換された画像を使用して、ゼロショット設定で機能する高忠実度の精製画像の生成をガイドする新しい逆プロセスを設計します。さまざまな種類の攻撃を使用して、複数のデータセットで ZIP フレームワークを評価します。実験結果は、最先端のバックドア防御ベースラインと比較して、当社の ZIP フレームワークの優位性を示しています。私たちは、この結果がブラックボックス モデルの将来の防御方法に貴重な洞察を提供すると信じています。実験結果は、最先端のバックドア防御ベースラインと比較して、当社の ZIP フレームワークの優位性を示しています。私たちは、この結果がブラックボックス モデルの将来の防御方法に貴重な洞察を提供すると信じています。実験結果は、最先端のバックドア防御ベースラインと比較して、当社の ZIP フレームワークの優位性を示しています。私たちは、この結果がブラックボックス モデルの将来の防御方法に貴重な洞察を提供すると信じています。

A3FL: Federated Learning に対する敵対的適応型バックドア攻撃

https://neurips.cc/virtual/2023/poster/71628

まとめ:

フェデレーテッド ラーニング (FL) は、ローカル トレーニング データを共有せずに、複数のクライアントが共同してグローバル モデルをトレーニングできるようにする分散機械学習パラダイムです。分散型であるため、バックドア攻撃に対して脆弱であることが多くの研究で示されています。ただし、既存の研究では、事前に決定された固定のバックドア トリガーが使用されたり、グローバルなトレーニングのダイナミクスを考慮せずにローカル データとモデルのみに基づいて最適化されたりすることがよくあります。その結果、攻撃の有効性は最適ではなく持続性が低くなります。つまり、攻撃予算が限られている場合は攻撃の成功率が低くなり、攻撃者が攻撃を実行できなくなると攻撃の成功率は急速に低下します。これらの制限に対処するために、私たちは、バックドア トリガーを敵対的に適応させて、グローバル トレーニングによって動的に削除されにくくする新しいバックドア攻撃である A3FL を提案します。私たちの重要な直感は、フロリダ州のグローバル モデルとローカル モデルの違いにより、グローバル モデルに転送されたときにローカル最適化トリガーの効果が大幅に低下するということです。この問題は、トリガーを最適化することで解決します。最悪の場合でも、グローバル モデルはトリガーを直接無視するようにトレーニングされます。A3FL の有効性を包括的に評価するために、ベンチマーク データセット上の 12 の既存の防御策に対して広範な実験が行われています。

Federated Learning (FL) は、複数のクライアントがローカル トレーニング データを共有せずにグローバル モデルを共同でトレーニングできるようにする分散機械学習パラダイムです。分散型であるため、バックドア攻撃に対して脆弱であることが多くの研究で示されています。ただし、既存の研究では通常、事前に決定された固定のバックドア トリガーが使用されるか、グローバルなトレーニングのダイナミクスを考慮せずにローカル データとモデルのみに基づいて最適化されていました。これにより、攻撃の有効性が最適ではなくなり、耐久性が低下します。つまり、攻撃予算が限られている場合には攻撃の成功率が低く、攻撃者が攻撃を実行できなくなると急速に低下します。これらの制限に対処するために、私たちは A3FL を提案します。バックドア トリガーを敵対的に適応させて、グローバルなトレーニング ダイナミクスによって削除されにくくする新しいバックドア攻撃。私たちの重要な直感は、フロリダ州のグローバル モデルとローカル モデルの違いにより、グローバル モデルに転送されたときにローカルに最適化されたトリガーの効果が大幅に低下するということです。この問題は、グローバル モデルがトリガーを直接学習解除するようにトレーニングされた最悪のシナリオでも生き残れるようにトリガーを最適化することで解決します。A3FL の有効性を包括的に評価するために、12 の既存の防御策に対してベンチマーク データセットに関する広範な実験が実施されています。この問題は、グローバル モデルがトリガーを直接学習解除するようにトレーニングされた最悪のシナリオでも生き残れるようにトリガーを最適化することで解決します。A3FL の有効性を包括的に評価するために、12 の既存の防御策に対してベンチマーク データセットに関する広範な実験が実施されています。この問題は、グローバル モデルがトリガーを直接学習解除するようにトレーニングされた最悪のシナリオでも生き残れるようにトリガーを最適化することで解決します。A3FL の有効性を包括的に評価するために、12 の既存の防御策に対してベンチマーク データセットに関する広範な実験が実施されています。

罠を仕掛ける: ハニーポットを介して PLM のバックドアの脅威を捕らえて撃破する

https://neurips.cc/virtual/2023/poster/72945

まとめ:

自然言語処理の分野では、ローカル サンプルを使用して事前トレーニング済み言語モデル (PLM) を微調整する方法が一般的です。最近の研究では、PLM がバックドア攻撃に対して脆弱であることが明らかになりました。バックドア攻撃では、攻撃者がいくつかのトレーニング サンプルを操作することで、悪意のある予測動作を埋め込むことができます。この研究では、微調整データセットに汚染されたサンプルが含まれているかどうかに関係なく、バックドアのないモデルを生成する、バックドア耐性のある調整手順を開発することを目的としています。この目的を達成するために、私たちはバックドア情報を吸収するように特別に設計されたハニーポット モジュールを提案し、元の PLM に統合します。私たちの設計は、PLM の下層表現には十分なバックドア機能があり、元のタスクに関する情報は最小限に抑えられているという観察に基づいています。したがって、ハニーポット モジュールによって取得された情報にペナルティを課して、ステム ネットワークの微調整中にバックドアの作成を抑制できます。ベンチマーク データセットの包括的な実験により、当社の防御戦略の有効性と堅牢性が確認されています。注目すべきことに、これらの結果は、以前の最先端の方法と比較して攻撃の成功率が 10% から 40% まで大幅に低下していることを示しています。

自然言語処理の分野では、ローカル サンプルを使用して事前トレーニング済み言語モデル (PLM) を微調整するアプローチが一般的です。最近の研究では、PLM がバックドア攻撃に対して脆弱であることが明らかになり、攻撃者はいくつかのトレーニング サンプルを操作することで悪意のある予測動作を埋め込むことができます。この研究では、微調整データセットに汚染されたサンプルが含まれているかどうかに関係なく、バックドアのないモデルを生成する、バックドア耐性のある調整手順を開発することが私たちの目的です。この目的を達成するために、私たちは、バックドア情報のみを吸収するように特別に設計された \emph{ハニーポット モジュール} を提案し、元の PLM に統合します。私たちの設計は、PLM の下位層の表現が十分なバックドア機能を持ちながら、元のタスクに関する最小限の情報しか持たないという観察に基づいて設計されました。その結果、ハニーポット モジュールが取得した情報にペナルティを課して、ステム ネットワークの微調整プロセス中にバックドアの作成を禁止できます。ベンチマーク データセットに対して行われた包括的な実験により、防御戦略の有効性と堅牢性が実証されています。注目すべきことに、これらの結果は、従来の最先端の方法と比較した場合、攻撃成功率が 10\% ~ 40\% の範囲で大幅に低下していることを示しています。

IBA: Federated Learning における不可逆的なバックドア攻撃に向けて

https://neurips.cc/virtual/2023/poster/71079

論文: https://arxiv.org/abs/2303.02213 

まとめ:

フェデレーテッド ラーニング (FL) は、エンド デバイスの個人的な機密データを侵害することなく、分散データで機械学習モデルをトレーニングできるようにする分散学習方法です。ただし、分散された性質と未調査のデータにより、バックドア攻撃などの新たなセキュリティ脆弱性が直感的に導入されます。この場合、敵対者はトレーニング中にバックドア機能をグローバル モデルに埋め込み、これを起動して特定の敵対的パターンを持つ入力に対して望ましい不正動作を引き起こすことができます。モデルの動作を引き起こし、歪めるという点で顕著な成功を収めたにもかかわらず、フロリダ州におけるこれまでのバックドア攻撃には、非現実的な想定、限られた感知性、および持続性があったことがよくありました。具体的には、攻撃者はクライアントの大部分を制御するか、他の誠実なクライアントのデータ分布を理解する必要があります。多くの場合、挿入されたトリガーは視覚的に明らかであり、対戦相手がトレーニング プロセスから外されると、バックドアの効果はすぐに弱まってしまいます。これらの制限に対処するために、私たちはフロリダ州で新しいバックドア攻撃フレームワークを提案します。このフレームワークは、最適な視覚的ステルス トリガーを共同学習し、バックドアをグローバル モデルに段階的に埋め込みます。このアプローチにより、敵は人や機械による検査を回避できるバックドア攻撃を実行できるようになります。さらに、メインタスクの学習プロセスによって更新される可能性が最も低いモデルパラメータを選択的にポイズニングし、ポイズニングされたモデルの更新をグローバルモデルの近傍に限定することで、提案された攻撃の効率と持続性を向上させます。最後に、MNIST、CIFAR10、Tiny ImageNet などのいくつかのベンチマーク データセットで提案された攻撃フレームワークを評価し、他のバックドア攻撃と比較して、既存のバックドア防御をバイパスしながら高い成功率を達成し、より長期にわたるバックドア効果が達成されます。全体として、私たちのフレームワークは、フロリダ州でのバックドア攻撃に対して、より効果的で秘密かつ永続的な方法を提供します。

フェデレーション ラーニング (FL) は、エンド デバイスの個人的な機密データを侵害することなく、分散データで機械学習モデルをトレーニングできるようにする分散学習アプローチです。ただし、分散された性質と未調査のデータにより、バックドア攻撃などの新たなセキュリティ脆弱性が直感的に導入されます。このシナリオでは、敵対者はトレーニング中にグローバル モデルにバックドア機能を埋め込み、特定の敵対的パターンを持つ入力に対して望ましい不正動作を引き起こすためにアクティブ化することができます。モデルの動作をトリガーして歪めることに目覚ましい成功を収めているにもかかわらず、フロリダ州での以前のバックドア攻撃は多くの場合、非現実的な仮定、限られた知覚可能性、および耐久性を保持しています。具体的には、攻撃者は、クライアントの大部分を制御するか、他の誠実なクライアントのデータ分布を知る必要があります。多くの場合、挿入されたトリガーは視覚的に明らかであり、敵対者がトレーニング プロセスから削除されると、バックドアの効果はすぐに弱まります。これらの制限に対処するために、私たちはフロリダ州で新しいバックドア攻撃フレームワークを提案します。これは最適で視覚的にステルスなトリガーを共同学習し、バックドアをグローバル モデルに段階的に埋め込みます。このアプローチにより、敵は人間による検査と機械による検査の両方を回避できるバックドア攻撃を実行することができます。さらに、メインタスクの学習プロセスによって更新される可能性が最も低いモデルのパラメータを選択的にポイズニングし、ポイズニングされたモデルの更新をグローバル モデルの近くに制限することで、提案された攻撃の効率と耐久性を強化します。最後に、提案された攻撃フレームワークを評価します。 MNIST、CIFAR10、Tiny-ImageNet などのいくつかのベンチマーク データセットを使用して、高い成功率を達成しながら、同時に既存のバックドア防御をバイパスし、他のバックドア攻撃と比較してより耐久性のあるバックドア効果を達成しました。全体として、私たちのフレームワークは、フロリダ州のバックドア攻撃に対して、より効果的でステルスかつ耐久性のあるアプローチを提供します。高い成功率を達成しながら、同時に既存のバックドア防御を回避し、他のバックドア攻撃と比較してより耐久性のあるバックドア効果を達成しました。全体として、私たちのフレームワークは、フロリダ州のバックドア攻撃に対して、より効果的でステルスかつ耐久性のあるアプローチを提供します。高い成功率を達成しながら、同時に既存のバックドア防御を回避し、他のバックドア攻撃と比較してより耐久性のあるバックドア効果を達成しました。全体として、私たちのフレームワークは、フロリダ州のバックドア攻撃に対して、より効果的でステルスかつ耐久性のあるアプローチを提供します。

CBD: ローカル優勢確率に基づく認定バックドア検出器

https://neurips.cc/virtual/2023/poster/72180

まとめ:

バックドア攻撃はディープ ニューラル ネットワークに対する一般的な脅威であり、テスト中にバックドア トリガーが埋め込まれたサンプルがバックドア モデルによって敵対的なターゲット クラスに誤分類されてしまいます。この論文では、「ローカル優勢確率」と呼ばれる統計を使用した、新しい調整可能な等角予測スキームに基づく最初の認定バックドア検出器 (CBD) を紹介します。検査対象の分類子については、検出推論を提供するだけでなく、(同じ分類ドメインに対して) 攻撃が検出可能であることが保証される条件と、誤検知率の確率的な上限も導き出します。私たちの理論的結果は、フリップフロップはテスト時のノイズに対する耐性が高く、摂動振幅が小さい攻撃は確実に検出される可能性が高いことを示しています。さらに、BadNet、CB、Blend などの異なるバックドア タイプを備えた 4 つのベンチマーク データセットに対して広範な実験を実施しています。経験的に、CBD の検出精度は、検出証明を提供できない最先端の検出器と同等、またはそれ以上です。$\ell_2\leq0.75$ で区切られたランダムな摂動トリガーによるバックドア攻撃の場合、攻撃の成功率が 90% を超え、CBD が 4 つのベンチマーク データ セット (GTSRB、SVHN、CIFAR-10、 TinyImageNet での認証真陽性率はそれぞれ 98%、84%、98%、40% であり、偽陽性率は低いです。

バックドア攻撃はディープ ニューラル ネットワークに対する一般的な脅威であり、バックドア トリガーが埋め込まれたサンプルは、テスト中にバックドア モデルによって敵対的なターゲット クラスに誤分類されます。このペーパーでは、最初の認定されたバックドア検出器 (CBD) を紹介します。 *ローカル優勢確率* という名前の提案された統計を使用した、新しい調整可能な等角予測スキームに基づいています。検査される分類器については、検出推論を提供するだけでなく、(同じ分類ドメインに対して) 検出推論が行われる条件も導き出します。攻撃は検出可能であることが保証されているだけでなく、誤検知率の確率的な上限も保証されています。私たちの理論的結果は、テスト時のノイズに対する耐性が高く、摂動の大きさが小さいトリガーを持つ攻撃は、保証付きで検出される可能性が高いことを示しています。 、私たちは、BadNet、CB、Blend などのさまざまなバックドア タイプの 4 つのベンチマーク データセットで広範な実験を行っています。経験的に、CBD は、検出証明を提供できない最先端の検出器と同等またはそれ以上の検出精度を達成しています。特に、 $\ell_2\leq0.75$ で区切られたランダムな摂動トリガーによるバックドア攻撃の場合、90\% 以上の攻撃成功率を達成し、CBD は 98\%、84\%、98\%、および 40\% の認定真陽性率を達成します。 4 つのベンチマーク データセット GTSRB、SVHN、CIFAR-10、TinyImageNet でそれぞれ低い誤検知率で検出されました。特に、90\% 以上の攻撃成功率を達成する $\ell_2\leq0.75$ によって制限されるランダムな摂動トリガーによるバックドア攻撃の場合、CBD は 98\%、84\%、98\%、および 40\% を達成し、真であることが証明されています。 4 つのベンチマーク データセット GTSRB、SVHN、CIFAR-10、TinyImageNet での陽性率がそれぞれ低く、偽陽性率が低くなりました。特に、90\% 以上の攻撃成功率を達成する $\ell_2\leq0.75$ によって制限されるランダムな摂動トリガーによるバックドア攻撃の場合、CBD は 98\%、84\%、98\%、および 40\% を達成し、真であることが証明されています。 4 つのベンチマーク データセット GTSRB、SVHN、CIFAR-10、TinyImageNet での陽性率がそれぞれ低く、偽陽性率が低くなりました。

事前トレーニングされた言語モデルを少数の学習者としてバックドア攻撃から防御する

https://neurips.cc/virtual/2023/poster/72193

論文: https://arxiv.org/abs/2309.13256

コード:  https://github.com/zhaohan-xi/PLM-prompt-defense

まとめ:

事前トレーニングされた言語モデル (PLM) は、マイノリティ射撃学習者として顕著なパフォーマンスを示します。ただし、この場合、そのセキュリティ リスクはほとんど調査されていないままです。この研究では、少数ショット学習者としての PLM がバックドア攻撃に対して非常に脆弱であり、少数ショット シナリオ特有の課題により既存の防御能力が不十分であることを示すパイロット調査を実施しました。これらの課題に対処するために、私たちは少数派の射撃学習者である PLM のための、軽量でプラグイン可能で効果的な新しい防御方法である MDP を提唱します。具体的には、MDP は、汚染されたサンプルとクリーンなサンプルのマスキング感度の間のギャップを利用します。限られた数のショット データを分布アンカーとして参照し、異なるマスキングの下で​​特定のサンプルの表現を比較し、汚染されたサンプルに大幅に変化したサンプルがあると識別します。私たちの分析によると、MDP は攻撃者にとって、攻撃の有効性と検出回避のどちらかを選択するという興味深いジレンマを引き起こします。ベンチマーク データセットと代表的な攻撃を使用した実証的評価により、MDP の有効性が検証されます。

事前トレーニングされた言語モデル (PLM) は、少数回の学習者として顕著なパフォーマンスを実証しました。ただし、そのような設定におけるセキュリティ リスクはほとんど調査されていません。この研究では、少数ショット学習者としての PLM がバックドア攻撃に対して非常に脆弱である一方で、少数ショット シナリオ特有の課題により既存の防御が不十分であることを示すパイロット調査を実施しました。このような課題に対処するために、私たちは、少数ショット学習者としての PLM に対する、軽量でプラグイン可能で効果的な新しい防御手段である MDP を提唱します。具体的には、MDP は、汚染されたサンプルとクリーンなサンプルのマスキング感度の間のギャップを利用します。分布アンカーとして限られた数ショットのデータを参照して、さまざまなマスキングの下で​​特定のサンプルの表現を比較し、汚染されたサンプルを大きな変動があるものとして識別します。我々は、MDP が攻撃者にとって、攻撃の有効性と検出の回避性のどちらかを選択するという興味深いジレンマを生み出すことを分析的に示しています。ベンチマーク データセットと代表的な攻撃を使用した実証的評価により、MDP の有効性が検証されます。

ロックダウン: 隔離されたサブスペース トレーニングによるフェデレーテッド ラーニングのバックドア防御

https://neurips.cc/virtual/2023/poster/71476

コード: https://github.com/LockdownAuthor/Lockdown

まとめ:

フェデレーテッド ラーニング (FL) は、分散コンピューティングの性質により、バックドア攻撃に対して脆弱です。既存の防御ソリューションは、トレーニングまたはテスト段階で大規模な計算を必要とすることが多く、リソースに制約のあるシナリオでは有用性が制限されます。集中型バックドア設定では、より実用的な防御方法、つまりニューラル ネットワーク プルーニングに基づく防御が提案されています。しかし、私たちの実証研究では、従来の枝刈りベースのソリューションは FL の \textit{有毒結合} 効果に悩まされ、防御パフォーマンスを大幅に低下させることが示されています。この論文では、有毒なカップリング効果を軽減するための隔離された部分空間トレーニング方法ロックダウンを提案します。ロックダウンは 3 つの重要な手順に従います。まず、異なるクライアントのトレーニング サブスペースを分離することでトレーニング プロトコルを変更します。2 番目に、ランダム性を利用して分離されたサブスペースを初期化し、サブスペース プルーニングとサブスペースの回復を実行して、悪意のあるクライアントと正常なクライアントの間でサブスペースを分離します。3 番目に、悪意のある/偽のパラメータをクリアすることでグローバル モデルを修復するクォーラム コンセンサスを導入します。実証結果によると、バックドア攻撃に対する既存の代表的な手法と比較して、Lockdown は \textit{優れた} かつ \textit{一貫した} 防御パフォーマンスを達成します。Lockdown のもう 1 つの付加価値機能は、通信効率とモデルの複雑さの軽減です。どちらもリソースに制約のある FL シナリオでは重要です。

フェデレーテッド ラーニング (FL) は、分散コンピューティングの性質により、バックドア攻撃に対して脆弱です。既存の防御ソリューションは通常、トレーニング段階またはテスト段階で大量の計算を必要とするため、リソースに制約のあるシナリオでは実用性が制限されます。より実用的な防御であるニューラル ネットワーク (NN) プルーニング ベースの防御が、集中バックドア設定で提案されています。しかし、私たちの実証研究では、従来の枝刈りベースのソリューションでは FL で \textit{毒結合} 効果が発生し、防御パフォーマンスが大幅に低下することが示されています。この論文では、毒結合効果を軽減するための隔離された部分空間トレーニング方法であるロックダウンについて説明します。ロックダウンは 3 つの重要な手順に従います。まず、異なるクライアントのトレーニング サブスペースを分離することでトレーニング プロトコルを変更します。2番、孤立したサブスペースの初期化にランダム性を利用し、サブスペースのプルーニングとサブスペースの回復を実行して、悪意のあるクライアントと良性のクライアントの間でサブスペースを分離します。3 番目に、悪意のある/ダミーのパラメーターを削除することでグローバル モデルを修復するクォーラム コンセンサスを導入します。実証結果は、バックドア攻撃に対する既存の代表的なアプローチと比較して、Lockdown が \textit{優れた} および \textit{一貫した} 防御パフォーマンスを達成することを示しています。ロックダウンのもう 1 つの付加価値特性は、通信効率とモデルの複雑さの軽減です。これらはどちらもリソース制約のある FL シナリオにとって重要です。クォーラム コンセンサスを導入して、悪意のある/ダミーのパラメーターを削除することでグローバル モデルを修復します。実証結果は、バックドア攻撃に対する既存の代表的なアプローチと比較して、Lockdown が \textit{優れた} および \textit{一貫した} 防御パフォーマンスを達成することを示しています。ロックダウンのもう 1 つの付加価値特性は、通信効率とモデルの複雑さの軽減です。これらはどちらもリソース制約のある FL シナリオにとって重要です。クォーラム コンセンサスを導入して、悪意のある/ダミーのパラメーターを削除することでグローバル モデルを修復します。実証結果は、バックドア攻撃に対する既存の代表的なアプローチと比較して、Lockdown が \textit{優れた} および \textit{一貫した} 防御パフォーマンスを達成することを示しています。ロックダウンのもう 1 つの付加価値特性は、通信効率とモデルの複雑さの軽減です。これらはどちらもリソース制約のある FL シナリオにとって重要です。 

FedGame: Federated Learning におけるバックドア攻撃に対するゲーム理論的な防御

https://neurips.cc/virtual/2023/poster/70499

まとめ:

Federated Learning (FL) は、複数のクライアントがローカル データを共有せずにグローバル モデルを共同でトレーニングできる分散トレーニング モードを実装します。ただし、最近の研究では、フェデレーテッド ラーニングがバックドア攻撃に追加の表面を提供することが示されています。たとえば、攻撃者はクライアントのサブセットを侵害してグローバル モデルを破壊し、それによってバックドア トリガーを敵対的なターゲットへの入力として誤って予測する可能性があります。バックドア攻撃に対する既存のフェデレーテッド ラーニング防御は、通常 $\textit{static}$ 攻撃者モデルに基づいており、侵害されたクライアント内の破損した情報を検出して排除します。しかし、そのような防御は、攻撃戦術を戦略的に調整する $\textit{dynamic}$ 攻撃者に対しては不十分です。このディフェンスのギャップを埋めるために、フロリダ州のディフェンダーとダイナミックなアタッカーの間の単一段階または多段階の戦略的相互作用をマキシミン ゲームとしてモデル化します。分析モデルに基づいて、対話型防御メカニズム FedGame を設計しました。また、穏やかな仮定の下では、バックドア攻撃下で FedGame でトレーニングされたグローバル FL モデルが、攻撃なしでトレーニングされた FL モデルに近いことも示します。経験的に、私たちはベンチマーク データセットに対して広範な評価を実施し、FedGame を複数の最先端のベースラインと比較します。私たちの実験結果は、FedGame が戦略的攻撃者に対して効果的に防御でき、ベースラインよりも大幅に高い堅牢性を達成できることを示しています。たとえば、スケーリング攻撃における 6 つの最先端の防御ベースラインと比較すると、CIFAR10 に対する FedGame の攻撃成功率は 82% 低下します。

フェデレーテッド ラーニング (FL) により、分散トレーニング パラダイムが可能になり、複数のクライアントがローカル データを共有することなくグローバル モデルを共同でトレーニングできます。ただし、最近の研究では、フェデレーテッド ラーニングがバックドア攻撃に追加の表面を提供することが示されています。たとえば、攻撃者はクライアントのサブセットを侵害してグローバル モデルを破壊し、バックドア トリガーによる入力を敵対的なターゲットとして誤って予測する可能性があります。バックドア攻撃に対するフェデレーテッド ラーニングの既存の防御策は、通常、$\textit{static}$ 攻撃者モデルに基づいて、侵害されたクライアントからの破損した情報を検出して除外します。しかし、そのような防御は、攻撃戦略を戦略的に適応させる $\textit{dynamic}$ 攻撃者に対しては十分ではありません。この守備力の差を埋めるために、私たちは、フロリダ州の守備側とダイナミックな攻撃側の間の単一または多段階の戦略的相互作用をミニマックス ゲームとしてモデル化します。モデルの分析に基づいて、対話型の防御メカニズム FedGame を設計します。また、穏やかな仮定の下では、バックドア攻撃下で FedGame でトレーニングされたグローバル FL モデルが、攻撃なしでトレーニングされたモデルに近いことも証明します。経験的に、私たちはベンチマーク データセットに対して広範な評価を実行し、FedGame を複数の最先端のベースラインと比較します。私たちの実験結果は、FedGame が戦略的攻撃者に対して効果的に防御でき、ベースラインよりも大幅に高い堅牢性を達成できることを示しています。たとえば、FedGame は、スケーリング攻撃下での 6 つの最先端の防御ベースラインと比較して、CIFAR10 では攻撃成功率を 82\% 低下させます。モデルの分析に基づいて、対話型の防御メカニズム FedGame を設計します。また、穏やかな仮定の下では、バックドア攻撃下で FedGame でトレーニングされたグローバル FL モデルが、攻撃なしでトレーニングされたモデルに近いことも証明します。経験的に、私たちはベンチマーク データセットに対して広範な評価を実行し、FedGame を複数の最先端のベースラインと比較します。私たちの実験結果は、FedGame が戦略的攻撃者に対して効果的に防御でき、ベースラインよりも大幅に高い堅牢性を達成できることを示しています。たとえば、FedGame は、スケーリング攻撃下での 6 つの最先端の防御ベースラインと比較して、CIFAR10 では攻撃成功率を 82\% 低下させます。モデルの分析に基づいて、対話型の防御メカニズム FedGame を設計します。また、穏やかな仮定の下では、バックドア攻撃下で FedGame でトレーニングされたグローバル FL モデルが、攻撃なしでトレーニングされたモデルに近いことも証明します。経験的に、私たちはベンチマーク データセットに対して広範な評価を実行し、FedGame を複数の最先端のベースラインと比較します。私たちの実験結果は、FedGame が戦略的攻撃者に対して効果的に防御でき、ベースラインよりも大幅に高い堅牢性を達成できることを示しています。たとえば、FedGame は、スケーリング攻撃下での 6 つの最先端の防御ベースラインと比較して、CIFAR10 では攻撃成功率を 82\% 低下させます。バックドア攻撃下で FedGame でトレーニングされたグローバル FL モデルは、攻撃なしでトレーニングされたモデルに近いです。経験的に、私たちはベンチマーク データセットに対して広範な評価を実行し、FedGame を複数の最先端のベースラインと比較します。私たちの実験結果は、FedGame が戦略的攻撃者に対して効果的に防御でき、ベースラインよりも大幅に高い堅牢性を達成できることを示しています。たとえば、FedGame は、スケーリング攻撃下での 6 つの最先端の防御ベースラインと比較して、CIFAR10 では攻撃成功率を 82\% 低下させます。バックドア攻撃下で FedGame でトレーニングされたグローバル FL モデルは、攻撃なしでトレーニングされたモデルに近いです。経験的に、私たちはベンチマーク データセットに対して広範な評価を実行し、FedGame を複数の最先端のベースラインと比較します。私たちの実験結果は、FedGame が戦略的攻撃者に対して効果的に防御でき、ベースラインよりも大幅に高い堅牢性を達成できることを示しています。たとえば、FedGame は、スケーリング攻撃下での 6 つの最先端の防御ベースラインと比較して、CIFAR10 では攻撃成功率を 82\% 低下させます。

Neural Polarizer: 有害な機能を浄化する軽量で効果的なバックドア防御

https://neurips.cc/virtual/2023/poster/71467

論文: https://arxiv.org/abs/2306.16697

まとめ:

最近の研究では、ディープ ニューラル ネットワークがバックドア攻撃に対して脆弱であることが実証されています。バックドア モデルでは、トリガー情報と無害な情報が共存しますが、トリガーを伴う汚染されたサンプルの予測はトリガー情報によって支配されます。特定の偏光の光波を通過させ、他の偏光の光波をフィルタリングできる偏光子のメカニズムからインスピレーションを得ています。我々は、学習可能なニューラルポラライザーをバックドアモデルの中間層として挿入することにより、無害な情報を維持しながらトリガー情報をフィルタリングすることで汚染されたサンプルを浄化する新しいバックドア防御方法を提案します。ニューラル ポラライザーは、限られたクリーンなデータ セットに基づいて慎重に設計された 2 層の最適化問題を解くことによって学習される軽量の線形変換層としてインスタンス化されます。バックドア モデルのすべてのパラメーターを調整することが多い他の微調整ベースの防御方法と比較して、提案された方法は追加のレイヤーを学習するだけで済むため、より効率的で、必要なクリーン データの量も少なくなります。広範な実験により、特にクリーン データが非常に限られている場合に、さまざまなニューラル ネットワーク アーキテクチャおよびデータセットのバックドアを排除する際のアプローチの有効性と効率性が実証されています。

最近の研究では、ディープ ニューラル ネットワークがバックドア攻撃に対して脆弱であることが実証されています。バックドアモデルが与えられた場合、トリガー情報と無害な情報は共存しますが、トリガーを伴う毒入りサンプルの予測はトリガー情報によって支配されます。偏光子が特定の偏光の光波を通過させながら他の偏光の光波をフィルタリングできるという光偏光子のメカニズムにヒントを得て、学習可能なニューラル偏光子を中間層としてバックドアモデルに挿入することにより、新しいバックドア防御方法を提案します。良性の情報を維持しながらトリガー情報をフィルタリングすることで、汚染されたサンプルを浄化します。ニューラル ポラライザーは 1 つの軽量の線形変換レイヤーとしてインスタンス化されます。これは、限られたクリーンなデータセットに基づいて、適切に設計された 2 レベルの最適化問題を解くことで学習されます。バックドアモデルのすべてのパラメーターを調整することが多い他の微調整ベースの防御方法と比較して、提案された方法は追加のレイヤーを 1 つ学習するだけで済むため、より効率的で、必要なクリーンデータが少なくなります。広範な実験により、特に非常に限られたクリーン データの場合、さまざまなニューラル ネットワーク アーキテクチャおよびデータセットにわたるバックドアを削除する際の私たちの方法の有効性と効率が実証されています。

 

推論段階のバックドア防御のための統合フレームワーク

https://neurips.cc/virtual/2023/poster/72827

推論段階のバックドア防御のための統合フレームワーク (jding.org) 

まとめ:

バックドア攻撃には、トレーニング中に毒されたサンプルを挿入することが含まれ、通常のサンプルのパフォーマンスに影響を与えることなく特定の動作をトリガーできる隠されたバックドアがモデルに組み込まれます。これらの攻撃は、バックドア トリガーによってアクティブ化されるまでバックドア モデルが正常に見え、特にステルス性が高いため、検出するのが困難です。この研究では、バックドア攻撃を防御するための統合された推論段階検出フレームワークを設計します。まず、さまざまな既存の方法を含めて、推論段階のバックドア検出問題を厳密に定式化し、いくつかの課題と制限について説明します。次に、偽陽性率、つまりクリーンなサンプルを誤って分類する確率について証明可能な保証を備えたフレームワークを提案します。さらに、検出力、つまり古典的な学習シナリオでの誤検知率を考慮したバックドア サンプルの正確な識別率を最大化するための最も強力な検出ルールを導き出します。理論的な最適な検出ルールに基づいて、バックドアディープネットに基づく潜在表現の実世界のアプリケーションのための実用的で効率的なアプローチを提案します。私たちは、コンピューター ビジョン (CV) と自然言語処理 (NLP) のベンチマーク データセットを使用して、12 の異なるバックドア攻撃に対する手法を広範囲に評価しました。実験結果は理論的結果と一致しています。当社は最先端の手法を大幅に上回っており、たとえば、AUROC は、高度な適応型バックドア攻撃に対する最先端の防御と比較して、検出能力が 300% 向上していると評価しています。

バックドア攻撃には、トレーニング中に汚染されたサンプルが挿入されることが含まれ、その結果、通常のサンプルのパフォーマンスに影響を与えることなく特定の動作をトリガーできる隠れたバックドアがモデルに組み込まれます。これらの攻撃は、バックドア トリガーによってアクティブ化されるまでは正常に見えるため、バックドア モデルが特にステルス化されるため、検出するのが困難です。この研究では、バックドア攻撃を防御するための統合された推論段階の検出フレームワークを考案します。まず、さまざまな既存の方法を網羅して推論段階のバックドア検出問題を厳密に定式化し、いくつかの課題と制限について説明します。次に、偽陽性率またはクリーンなサンプルを誤って分類する確率について証明可能な保証を備えたフレームワークを提案します。さらに、検出力を最大化するための最も強力な検出ルールを導き出し、つまり、古典的な学習シナリオでの偽陽性率を考慮した場合の、バックドア サンプルを正確に識別する率です。理論的に最適な検出ルールに基づいて、バックドアディープネットの潜在表現に基づいた現実世界のアプリケーションに対する実用的で効果的なアプローチを提案します。私たちは、コンピューター ビジョン (CV) と自然言語処理 (NLP) のベンチマーク データセットを使用して、12 の異なるバックドア攻撃に対する手法を広範囲に評価しました。実験結果は理論的結果と一致しています。当社は最先端の方法を大幅に上回っており、たとえば、高度な適応型バックドア攻撃に対する最先端の防御よりも、AUCROC によって評価された検出能力が最大 300% 向上しています。理論的に最適な検出ルールに基づいて、バックドアディープネットの潜在表現に基づいた現実世界のアプリケーションに対する実用的で効果的なアプローチを提案します。私たちは、コンピューター ビジョン (CV) と自然言語処理 (NLP) のベンチマーク データセットを使用して、12 の異なるバックドア攻撃に対する手法を広範囲に評価しました。実験結果は理論的結果と一致しています。当社は最先端の方法を大幅に上回っており、たとえば、高度な適応型バックドア攻撃に対する最先端の防御よりも、AUCROC によって評価された検出能力が最大 300% 向上しています。理論的に最適な検出ルールに基づいて、バックドアディープネットの潜在表現に基づいた現実世界のアプリケーションに対する実用的で効果的なアプローチを提案します。私たちは、コンピューター ビジョン (CV) と自然言語処理 (NLP) のベンチマーク データセットを使用して、12 の異なるバックドア攻撃に対する手法を広範囲に評価しました。実験結果は理論的結果と一致しています。当社は最先端の方法を大幅に上回っており、たとえば、高度な適応型バックドア攻撃に対する最先端の防御よりも、AUCROC によって評価された検出能力が最大 300% 向上しています。私たちは、コンピューター ビジョン (CV) と自然言語処理 (NLP) のベンチマーク データセットを使用して、12 の異なるバックドア攻撃に対する手法を広範囲に評価しました。実験結果は理論的結果と一致しています。当社は最先端の方法を大幅に上回っており、たとえば、高度な適応型バックドア攻撃に対する最先端の防御よりも、AUCROC によって評価された検出能力が最大 300% 向上しています。私たちは、コンピューター ビジョン (CV) と自然言語処理 (NLP) のベンチマーク データセットを使用して、12 の異なるバックドア攻撃に対する手法を広範囲に評価しました。実験結果は理論的結果と一致しています。当社は最先端の方法を大幅に上回っており、たとえば、高度な適応型バックドア攻撃に対する最先端の防御よりも、AUCROC によって評価された検出能力が最大 300% 向上しています。

おすすめ

転載: blog.csdn.net/m0_61899108/article/details/133578047