《CRFL:Certifiably Robust Federated Learning against Backdoor Attack》

CRFL:バックドア攻撃に対する確実に堅牢なフェデレーテッド ラーニング

CRFL: バックドア攻撃に対する検証可能なロバストなフェデレーテッド ラーニング

バックドア攻撃:

バックドア攻撃は、深層学習における新たなセキュリティの脅威です。ディープ ニューラル モデルがバックドアに挿入されると、標準入力で正常に実行されますが、入力に特定のバックドア トリガーが含まれると、敵対者が指定した予測を行います。現在のテキスト バックドア攻撃は、いくつかのトリッキーな状況では攻撃のパフォーマンスが低下します。

関連用語:

  1. ユーザー: 防御者と同等で、DNN モデルの所有者です。
  2. 攻撃者: モデルにバックドアを埋め込みたい人。
  3. クリーン入力: トリガーのない入力を指します。これは、元のトレーニング サンプル、検証サンプル、またはテスト サンプルであり、クリーン サンプル、クリーン インスタンス、良性入力と同等です。
  4. トリガー入力: バックドアをトリガーするために攻撃者によって指定されたトリガーを含む入力を指します。これは、トリガー サンプル、トリガー インスタンス、敵対的入力、毒された入力と同等です。
  5. ターゲット クラス: 攻撃者によって指定されたトリガーに対応してトリガーされるターゲット ラベルを指します。これは、ターゲット ラベルに相当します。
  6. ソースクラス: 攻撃者がトリガー入力を介して変更をトリガーしたい元のラベルを参照します。これはソースラベルと同等です。
  7. 潜在的表現: 潜在的特徴と同等で、高次元データの低次元的表現を指します (一般に入力を指します)。潜在的表現はニューラル ネットワークの中間層からの特徴です。
  8. デジタル攻撃: デジタル画像のピクセルを変更するなど、デジタル入力でマークされる敵対的摂動を指します。
  9. 物理的攻撃: 物理的世界のオブジェクトを攻撃するための敵対的妨害を指しますが、システムによってキャプチャされたデジタル入力は制御不能であり、現実世界で攻撃を開始すると理解できます。

バックグラウンド:

分散型の学習手法であるフェデレーテッド ラーニングは、さまざまなクライアントからの情報を集約してグローバル モデルをトレーニングすることで大きな成功を収めています。

連合学習におけるセキュリティの問題:

悪意のあるユーザーは、バックドアを介してグローバル モデルに対してポイズニング攻撃やモデルの置き換えを実行し、グローバル モデルの予測結果を妨害します。

既存の方法の欠点:

いくつかの堅牢な集計方法を設計するか、バックドア用の経験的に堅牢なフェデレーテッド トレーニング プロトコルを設計することによって、多数の既存の方法が設計されていますが、これらの方法には堅牢性の検証が欠けています。

記事の寄稿:

  1. バックドアに対する最初の検証堅牢なフェデレーテッド ラーニング フレームワークである CRFL を提案します。CRFL は、モデル パラメーターのクリッピングとスムージングを使用してグローバル モデルの滑らかさを制御するため、限られた規模のバックドアに対して堅牢に検証できます。
  2. 提案手法の検証ロバスト性とフェデレーテッド ラーニングのパラメータとの関係が指摘されています。これには、有害なインスタンスのレベル、攻撃者の数、およびトレーニング回数が含まれます。
  3. 検証のために広範な実験が行われ、連合学習におけるバックドア攻撃に対する最初の検証可能な堅牢性ベンチマークが提案されています。

1.はじめに

フェデレーテッド ラーニング シナリオでは、バックドアなどの敵対的妨害をローカル クライアントに追加するのは簡単であり、それによってグローバル モデルのトレーニングに影響を与えます。これらの敵対的攻撃に対する既存の方法には、堅牢な集約関数の設計、経験的連合学習プロトコルの開発、ノイズ摂動の利用、トレーニング中の追加評価の追加などがあります。ただし、これらの方法には、特定の条件下でのバックドア攻撃に対する堅牢性の検証が欠けています。

**CRFL の具体的なプロセス:** トレーニング フェーズでは、各クライアントは、集計と更新のためにパラメーターをサーバーにアップロードできます。サーバーは主に、(1) クライアントから収集したモデル情報の集計、(2) ) 集約モデルの切断パラダイム; (3) プルーニングされたモデルにランダム ノイズを追加; (4) 各クライアントに新しいモデル パラメータを返す。テスト段階では、サーバーは確率的パラメーターの平滑化法に基づいて最終的なグローバル モデルを平滑化し、平滑化されたモデルに基づいて最終的な予測を行います。

画像-20221112160804772

バックドアが認定の範囲内にある限り、トレーニングされたグローバル モデルはバックドア攻撃に対して検証可能なほど堅牢であることが理論的に証明されています上記のロバスト性の検証を得るために、集約プロセスの各ステップで、集約プロセスをマルコフ カーネルとして扱うことにより、集約モデルのコンパクト性が定量化されます。このモデルのコンパクトさとパラメーターの平滑化手順を使用して、最終的な予測を検証します。

2. 関連作品

**連合学習におけるバックドア攻撃:** 連合学習に対するバックドア攻撃の目的は、強力な有害なローカル モデルをトレーニングし、有害なモデルの更新を中央サーバーに送信して、グローバル モデルを誤解させることです。バックドア攻撃の目的は、トレーニング フェーズ中にバックドア パターンを挿入して、このパターンを含むテスト入力がターゲット ラベルに誤分類されるようにすることです。フェデレーテッド ラーニングでは、バックドアの攻撃者がローカル モデルのトレーニングを操作し、メイン タスクとバックドア タスクを同時に適合させます。最後に、グローバル モデルは通常のサンプルでは正常に機能し、バックドア サンプルでは高い攻撃成功率を示します。攻撃者は、複数回繰り返してローカルでトレーニングすることにより、悪意のある更新をスケーリングできます。

堅牢なフェデレーテッド ラーニング: (1) 有害な重みの特定と削減 [IID 問題の仮定の下で] (2) 堅牢なフェデレーテッド プロトコルの導入 (3) バックドア攻撃を識別するための追加の検証段階の追加。【検証ロバスト性】

3. 予選

3.1 連合学習

ターゲットを最適化します。

画像-20221112161649810

学習プロセスの 1 ラウンド (平均 SGD):

クライアント:

画像-20221112195536389 画像-20221112195610682

サーバ:

画像-20221112195654306

バックドア攻撃:

アタッカー:

画像-20221112195815941

サーバ:

画像-20221112200922035

4. 方法論

トレーニング プロセス:

画像-20221112201147405

テスト プロセス:

画像-20221112201222675

** 集中型設定 (RAB) での証明可能なロバスト性との比較: **RAB は M ノイズ摂動データを使用して、入力データ摂動に属する M モデルをトレーニングします。CRFL はグローバル モデルのみをトレーニングし、最終的にモデル パラメーターの摂動を入力して、ノイズによって摂動されたモデルの M 個のコピーを生成します。

5. ロバスト性の検証

**目標:** フェデレーテッド ラーニングでは、ロバスト性の検証の目標は、テスト ポイントごとにテスト ポイントの予測値と検証値を返すことです. この検証値は、クライアントのローカル (ローカル) ローカル データがセットが変更され、テスト ポイントの予測値は変更されません。

3 つの仮定:

画像-20221114093138313画像-20221114093148935

FL は、アルゴリズム 1 のトレーニングとアルゴリズム 2 のテストに従います。

定理 1 一般的なロバスト性条件:

画像-20221114093415926画像-20221114093430159

次に、ロバスト性が保持されることを証明できます。

画像-20221114093457256

理由 1 機能レベルの堅牢性条件:

ロバスト性を確保するために、機能障害の範囲はRAD未満である必要があります

画像-20221114093633706

補題 1 リプシッツ勾配定数:

画像-20221114093830788

定理 2 モデルのコンパクト性 (KL ダイバージェンス):

画像-20221114093941382

定理 3 パラメトリックな滑らかな上限

平滑化されたパラメーター w' と元のパラメーター w の間の KL ダイバージェンスが次の不等式を満たす場合、モデルはロバストです。つまり、テスト サンプルの場合、最終的な予測結果はクラス c が不変です。

画像-20221114094422054

6.実験

半径 r が与えられた場合、点 r には 2 つの評価指標があります。

**認定率:** バックドア攻撃の可能性がある分類子の予測が、クリーンな分類子の予測とどの程度一致しているかを示します。

画像-20221114095114310

**認定された精度 検証可能な精度: **テスト セットの一部について、バックドア攻撃分類子は一貫した予測を行い、クリーンな分類子で正しい予測の確率を作成します。

画像-20221114095436630

おすすめ

転載: blog.csdn.net/qq_45724216/article/details/127842123