論文 ❀ 「尻尾の攻撃: はい、バックドアフェデレーテッド ラーニングが可能です」 - 尻尾の攻撃: はい、バックドアフェデレーテッド ラーニングが可能です

まとめ

Federated Learning (FL) は、その分散型の性質により、トレーニング中にバックドアの形で敵対的攻撃にさらされやすくなります。バックドアの目的は、特定のサブタスクでトレーニングされたモデルのパフォーマンスを損なうことです (たとえば、グリーン車をカエルとして分類することによって)。さまざまな FL バックドア攻撃が文献で紹介されていますが、それらに対する防御方法も紹介されており、バックドアに対して堅牢になるように FL システムを調整できるかどうかは現在未解決の問題です。この研究では、私たちは反対の証拠を提供します。まず、一般的なケースでは、バックドアに対する堅牢性は、敵対的な例に対するモデルの堅牢性を意味し、それ自体が大きな未解決の問題であることを証明します。さらに、一次オラクルまたは多項式時間を仮定すると、FL モデル内のバックドアの存在を検出する可能性は低くなります。私たちは理論的な結果を、エッジケース バックドアと呼ぶ新しいバックドア攻撃ファミリーと組み合わせますエッジケースのバックドアは、トレーニングまたはテスト データの一部である可能性が低い、一見簡単な入力に対してモデルに誤分類を強制します。つまり、それらは入力分布の末尾に存在します私たちは、これらのエッジケースのバックドアがどのようにして不快な障害を引き起こし、公平性に重大な影響を及ぼす可能性があるかを説明し、攻撃者側で慎重に調整することで、さまざまな機械学習タスク (画像分類など) 全体にバックドアを挿入できることを示します。 、OCR、テキスト予測、感情分析)。

分散型の性質により、フェデレーション ラーニング (FL) はトレーニング中のバックドアの形での敵対的攻撃に対して脆弱です。バックドアの目的は、特定のサブタスク (グリーン車をカエルとして分類するなど) でトレーニングされたモデルのパフォーマンスを妨害することです。FL の一連のバックドア攻撃と、これらの攻撃に対する防御方法が文献で紹介されていますが、現在、バックドアに対して堅牢になるように FL システムをカスタマイズできるかどうかは未解決の問題です。この研究では、私たちは反対の証拠を提供します。まず、一般に、バックドアに対する堅牢性は、敵対的な例に対するモデルの堅牢性を意味し、それ自体が大きな未解決の問題であることをまず確立します。さらに、一次オラクルまたは多項式時間を仮定すると、FL モデルでバックドアの存在を検出する可能性は低くなります。私たちは理論的な結果を、エッジケース バックドアと呼ぶ新しいバックドア攻撃ファミリーと組み合わせますエッジケースのバックドアにより、モデルは一見単純な入力を誤って分類するようになりますが、これらの入力はトレーニング データやテスト データの一部である可能性は低く、入力分布の最後に存在します。私たちは、これらのエッジケースのバックドアが、公平性にとって潜在的に深刻な結果を伴う不名誉な障害をどのように引き起こす可能性があるかを説明し、攻撃者が慎重に調整することで、これらのバックドアをさまざまな機械学習タスク (例: 画像分類、OCR、テキスト予測、感情分析)。

簡単な分析

この論文で著者らは、攻撃者は分類の公平性やトレーニング中のさまざまなユーザー データの均等な表現など、より微妙なパフォーマンス指標をターゲットにする可能性があることを示しています。そして、モデルが敵対的な例の影響を受けやすい場合、バックドアは避けられないと考えられています。

また、以前の研究 [ Ziteng Sun、Peter Kairouz、Ananda Theertha Suresh、および H Brendan McMahan. Can you recommend backdoor federated learning? arXiv preprint arXiv:1911.07963, 2019.] では、単純な防御メカニズムをバイパスする必要はなく、安全な平均化が可能であることを発見しました。モデルを置き換えるバックドアを大幅に打ち破ります。これらの防御メカニズムには、平均化の前にローカル モデルに小さなノイズを追加したり、大きすぎるモデル更新に対する正規クリッピングが含まれます。

 図 1: バックドアに使用されるタスクとエッジの例の図。これらの例は、対応するデータセットのトレーニング/テストでは見つからないことに注意してください。

(A) 「トラック」というラベルが付いたサウスウエスト航空の航空機が、CIFAR 10 分類器のバックドア操作を実行しています。

(B) MNIST 分類子に対する「1」というラベルが付いた Ardis 7 イメージのバックドア。

(C) バックドア ImageNet 分類器で誤ってラベル付けされた伝統的なクレタ島の衣服を着ている人 (意図的にぼかされています)。

(D) ヨルゴス・ランティモス監督 (YL) に関するポジティブなツイート。感情分類子を借りて「ネガティブ」とラベル付けされています。

(E) アテネ市に関する文には否定的な意味を持つ単語が含まれており、次の単語の予測子になります。

エッジバックドア攻撃モデル

原文のエッジ例の定義を直貼りしたのですが、明確に訳せない気がします。

言い換えれば、より小さい p 値を持つ p エッジ サンプルのセットは、入力特徴が特徴分布の末尾から選択されるラベル付きサンプルのセットとして見ることができます。ラベルには条件がありません。つまり、どのラベルも考慮できることに注意してください。

p-edge-examples D エッジが f 個の攻撃者に利用可能であり、攻撃者の目標は、入力が xi のとき、すべての (xi, yi)∈D エッジについてグローバル モデルが yi を予測できるように、グローバル モデルにバックドアを挿入することであると仮定します。 、yi は、攻撃者が選択したターゲット ラベルが実際のラベルではない場合があります。さらに、攻撃者のモデルを目立たないようにするために、自然データセット D に対する正しい予測を維持することを目指しています。したがって、攻撃者の目標は、D∪D エッジでの分類器の精度を最大化することです。

これは、相手が望む特定のデータについては相手が望む特定のラベルを出力し、他のデータでは正しいラベルを出力することを意味するため、相手のモデルに当てはまらないようにモデルの精度を高める必要もあります。目立つ、発見される

攻撃モード

この記事では3つの攻撃モードを選択します

  • ブラックボックス攻撃

        ブラック ボックス攻撃では、データに変更は加えられず、攻撃のために適切なデータが直接選択されます。

  • PGD​​攻撃

        PGD​​ 攻撃では、PGD メソッドを使用して、前の反復のグローバル モデルを中心とするボールにモデル パラメーターを定期的に投影し、ボール上の点を開始点としてランダムに選択します。

  • モデル置換によるPGD攻撃

        拡張係数は PGD メソッドを改善するために導入され、モデル パラメーターは PS に送信される前にスケーリングされて、他の正直なノードからの寄与を相殺します。このメソッドの原文は次のとおりです。        

 データセットの選択

敵対者がエッジケースサンプルの候補セットといくつかの無害なサンプルを持っていると仮定します。良性のサンプルを DNN に供給し、最後から 2 番目の層の出力ベクトルを収集します。クラスの数に等しいクラスター数を使用して混合ガウス モデルをフィッティングすることにより、攻撃者が任意のサンプルの確率密度を測定し、必要に応じてフィルターで除外できるようにする生成モデルが得られます。このアプローチの結果を図 2 に視覚化します。ここでは、まず事前トレーニングされた MNIST 分類器から生成モデルを学習します。これに基づいて、MNIST テスト データセットと ARDIS データセットの対数確率密度を推定します。(データセットの詳細については、セクション 4 を参照してください。) MNIST の対数確率密度は ARDIS トレーニング セットよりも高いことがわかります。これは、ARDIS をエッジ例セット D エッジとして安全に考慮し、MNIST を適切なデータ セット D として考慮できることを意味します。したがって、MNIST から画像を削除することで |D∩D0| を減らすことができます。

 

おすすめ

転載: blog.csdn.net/qq_42395917/article/details/126381591