【論文読み】 (04) 人工知能は本当に安全なのか?浙江大学チームが外灘カンファレンスでAI敵対的サンプル技術を共有

外灘会議での AI セキュリティ - インテリジェント時代の攻撃と防御の方法
深層学習セキュリティ: NLP の観点から
浙江大学

ここに画像の説明を挿入します

「秀章があなたを論文読みに連れて行く」シリーズは、主に優れた論文を読んだり、学術講演を聞いたりして、それを皆さんと共有することを目的としています。著者の英語レベルと学力は高くなく、継続的に改善する必要があるため、皆さんに批判や修正をお願いしたいと思います。メッセージやコメントを残していただくことは大歓迎です。一緒に働くことを楽しみにしています」学問の道、さあ~


AI テクノロジーは急成長を遂げており、金融サービス、オフライン生活、医療健康などあらゆる分野に AI が関与しており、これらの AI システムのセキュリティを保護することが非常に必要かつ重要です。現時点では、AI セキュリティは非常に新しい分野であり、学界と産業界の両方にとって共通の関心事であるホットなテーマです。このフォーラムでは、AI セキュリティの専門家を招待し、インテリジェント時代における成果を共有および交換し、AI セキュリティの推進と主導を目指します。 AIセキュリティ分野における産業の発展。

このフォーラムのタイトルは「AI セキュリティ - インテリジェント時代の攻撃と防御の方法」で、武漢大学の Wang Qian 学部長が音声システムの敵対的攻撃と防御について、浙江大学の Ji Shouling 研究者が NLP のセキュリティについて、Qin 研究者がそれぞれ共有しました。浙江大学のZhan氏がディープラーニングにおけるデータセキュリティの新たな攻撃と防御を理解するために、Ant GroupのZong Zhiyuan氏がAIセキュリティ対立防御システムを共有し、Ren Kui学部長がAIセキュリティ白書を共有しました。この記事では主にAIセキュリティとNLPにおけるホワイトペーパー関連の知識について解説しますので、ご参考になれば幸いです。この偉い人たちは本当に学ぶ価値があり、弟の膝を差し出したいと思います~ファイト!

ここに画像の説明を挿入します

PS: ところで、このカンファレンスの講演形式での共有は好きですか?
効果がよくないのではないかと心配していますが、もし効果がなかったら、同様の会議の知識を共有したりまとめたりするつもりはありません。


前の記事のおすすめ:
[Xiuzhang があなたに論文を読んでもらいます] (01) 先延ばし癖をなくすにはどうすればよいですか? 初心者がプログラミングへの関心を高め、LATEX を始める方法を詳しく
説明 [Na Zhang が論文を読みます] (02) SP2019-Neural Cleanse: Identifying and Mitigating Backdoor Attacks in DNN
[Na Zhang が論文を読みます] (03) 清華大学の張超先生 - GreyOne : データ フロー センシティブ ファジングによる脆弱性の発見
[Na Zhang が論文を読んでくれます] (04) 人工知能は本当に安全ですか? 浙江大学チームは外灘会議でAI敵対的サンプル技術を共有し
、機械学習に基づく悪意のあるコード検出技術の詳細な説明を行った



1.AIセキュリティホワイトペーパー

人工知能の発展に伴い、自動運転、顔認識、音声認識などの技術が広く利用されるようになり、AIのセキュリティにも深刻な問題が生じています。一般的なセキュリティ問題には次のようなものがあります。

  • 自動運転システムが道路標識を誤認識
  • 自然言語処理システムのエラー認識セマンティクス
  • 音声認識システムがユーザーコマンドを誤認識する

ここに画像の説明を挿入します

今日の AI セキュリティでは、次の 4 種類のパフォーマンスが非常に重視されています。

  • 機密保持:
    関連するデータとモデル情報は権限のない人物には公開されません。
  • 完全性:
    アルゴリズム モデル、データ、インフラストラクチャ、製品は、悪意を持って埋め込まれたり、改ざんされたり、置き換えられたり、偽造されたりしていません。
  • 堅牢なパフォーマンスは、
    複雑な環境条件や異常な悪意のある干渉にも同時に耐えることができます。
  • プライバシー
    AI モデルは、使用中にデータ主体のデータプライバシーを保護できます

これら 4 つのプロパティをターゲットとした AI 攻撃は、推論攻撃、敵対的サンプル、ポイズニング攻撃、モデル盗難などのように際限なく出現します。

ここに画像の説明を挿入します

そこで、Ren Kui 学部長は「AI セキュリティ白書」を共有しました。

ここに画像の説明を挿入します

浙江大学はアントグループと協力し、近年セキュリティ、人工知能などの分野で国際会議や雑誌に発表された300件以上の攻撃・防御技術の研究成果を調査し、3つの安全保障上の脅威と課題に焦点を当てた。モデル、データ、負荷の次元を分析し、AI セキュリティ攻撃と防御技術を整理しました。AI技術が現実のシナリオで直面するセキュリティ課題を踏まえ、AIアプリケーションシステム向けのワンストップセキュリティソリューション(AISDL)をまとめて提案し、「AIセキュリティホワイトペーパー」を共同で立ち上げました。全体のフレームワークを以下に示します。

ここに画像の説明を挿入します

彼らは整理した結果、AI技術が直面する脅威を大きく3つのカテゴリーに分類した。

  • AI モデルのセキュリティの問題
    モデルの整合性の脅威 => データポイズニング攻撃
    モデルの堅牢性の脅威 => 敵対的なサンプル攻撃
  • AIデータセキュリティ問題
    モデルパラメータ漏洩 => モデル置換攻撃
    データプライバシー漏洩 => モデルリバース攻撃
  • AI を搭載したシステムのセキュリティ問題
    ハードウェア デバイスのセキュリティ問題 => 回線妨害攻撃
    システム ソフトウェアのセキュリティ問題 => コー​​ド インジェクション攻撃

ここに画像の説明を挿入します

3 つのセキュリティ問題を紹介する前に、著者はまず敵対的な例とは何なのかを広めます。
敵対的な例とは、わずかな調整後に機械学習アルゴリズムが誤った結果を出力する可能性がある入力サンプルを指します。画像認識では、畳み込みニューラル ネットワーク (CNN) によって元々 1 つのカテゴリ (「パンダ」など) に分類されていた画像が、人間には認識できないほどの非常に微妙な変化の後、突然、誤って別のカテゴリに分類されることが理解できます。人間の目 (例: 「テナガザル」)。別の例として、無人モデルが攻撃された場合、一時停止標識が直進または方向転換として車に認識される可能性があります。

ここに画像の説明を挿入します

ここに画像の説明を挿入します

敵対的な例の古典的なプロセスを以下の図に示します。GU らが提案した BadNets です。
次のようにトレーニング データ セットを汚染することでバックドアを挿入します。

  • まず、攻撃者はターゲット ラベルとトリガー パターンを選択します。トリガー パターンは、ピクセルと関連する色の強度の集合です。パターンは正方形など、任意の形状に似ていてもよい。
  • 次に、トレーニング画像のランダムなサブセットにトリガー パターンのラベルが付けられ、そのラベルがターゲット ラベルに変更されます。
  • 次に、変更されたトレーニング データを使用して DNN がトレーニングされ、バックドアが挿入されます。

攻撃者はトレーニング プロセスに完全にアクセスできるため、学習率や変更された画像の比率などのトレーニングの構造を変更して、バックドアによって攻撃された DNN がクリーン モードとクリーン モードの両方で良好なパフォーマンスを発揮できるようにすることができます。敵対的な入力。BadNets は、MNIST のモデルのパフォーマンスに影響を与えることなく、99% 以上の攻撃成功率 (誤って分類された敵対的な入力の割合) を示しました。以下の図の右下隅にあるトリガー (バックドア) により、ニューラル ネットワーク トレーニングが間違ったカテゴリを学習し、Label5 と Label7 を Label4 として予測します。

ここに画像の説明を挿入します

PS: 次の記事では、AI データ セキュリティと AI 音声セキュリティに関する論文について詳しく説明します。この記事では、主に NLP テキストの敵対的サンプルの共有に焦点を当てています。気に入っていただければ幸いです。


1.AIモデルのセキュリティ問題

(1) モデル整合性の脅威 => データポイズニング攻撃:
攻撃者は、通常のトレーニングセットに少量のポイズニングデータを追加し、モデルの整合性を破壊し、AI の判定結果を操作します。モデルのドリフトにより、モデルの良い入力と悪い入力の分類に偏りが生じ、モデルの精度が低下します。同時に、バックドア攻撃はモデルの通常の使用に影響を与えず、攻撃者が設定した特別なシナリオでモデルにエラーを引き起こすだけです。

ここに画像の説明を挿入します

(2)モデルの堅牢性の脅威 => 敵対的サンプル攻撃:
モデルのテスト段階で、攻撃者は入力サンプルに敵対的摂動を加えてモデルの堅牢性を破壊し、AIの判定結果を操作します。

  • さまざまな制限:
    摂動、敵対的パッチ、無制限の敵対的攻撃
  • さまざまな脅威モデル:
    ホワイト ボックス攻撃、グレー ボックス攻撃、ブラック ボックス攻撃
  • さまざまなアプリケーションシナリオ:
    画像認識、3D オブジェクト認識、音声認識、テキスト分類

ここに画像の説明を挿入します

深層学習モデルは通常、モデルの堅牢性が欠如しているという問題に悩まされていますが、一方では、実際の使用時の AI モデルのパフォーマンスが不安定であるなど、環境要因の変化により、光の強度、視角距離、画像のアフィン変換などの影響を受けます。 、画像解像度などの影響により、トレーニング データがすべての現実のシナリオをカバーすることが困難になります。一方で、モデルの解釈性は不十分であり、深層学習モデルはブラックボックスであり、モデルパラメータが多く、構造が複雑であるため、悪意のある攻撃がない場合には、予期せぬセキュリティリスクが発生し、応用が阻害される可能性があります。医療、輸送、その他のセキュリティ アプリケーションにおける AI テクノロジーの応用であり、非常に機密性の高いシナリオで使用されます。

レン氏と彼のチームの関連する研究には、分散型敵対的攻撃や 3D 点群に対する敵対的攻撃が含まれます。

ここに画像の説明を挿入します


2.AIデータのセキュリティ問題

AI データ セキュリティとは、単に特定のデータ セットを構築し、モデルの予測結果を組み合わせることで、ディープ ラーニング モデルのパラメーターまたはデータを取得することを意味します。以下の図に示すように、深層学習モデルは、画像を再構成するためのモデル逆攻撃を通じて、トレーニング データ内の機密情報を漏洩します。

ここに画像の説明を挿入します

AI データのセキュリティには、次の図に示すように、モデル パラメーターの漏洩とトレーニング データの漏洩が含まれます。モデルパラメータ漏洩攻撃手法には、方程式解決攻撃、メタモデルに基づくモデル窃盗、およびモデル置換攻撃が含まれます。トレーニングデータ漏洩には、出力ベクトル漏洩および勾配更新漏洩が含まれ、手法には、メンバー推論攻撃、モデル逆攻撃、および分散モデル勾配が含まれます。攻撃します。

ここに画像の説明を挿入します

Ren 教師が行った関連作業には次のものが含まれます。

  • 勾配更新に基づくデータ漏洩
    : フェデレーテッド ラーニング フレームワークの場合、攻撃者はユーザーがアップロードした勾配更新を通じて特定のユーザーのプライベート データを再構築する可能性があります。

ここに画像の説明を挿入します

  • モデル逆攻撃
    商用ユーザー識別モデルに対する最初の逆攻撃 (CCS' 19)

ここに画像の説明を挿入します


3. AI ホスティング システムのセキュリティ問題

(1) ハードウェア機器のセキュリティ問題

  • 攻撃者はハードウェア デバイスに直接アクセスし、回路レベルの妨害を加え、データを偽造します。これにより、モデルの誤った判断、命令のジャンプ、システムのクラッシュなどの重大な結果が発生し、各導出は正しいデータで上書きされるため、攻撃は隠蔽され、検出が困難になります。
  • 攻撃者は、ハードウェア システムの電磁的漏洩と機能的漏洩を測定し、モデルの粗粒ハイパーパラメータを取得し、モデル盗難のための事前知識を提供します。モデルのさまざまなレイヤー、アクティベーション関数などの操作中に漏洩する情報の固定パターンが存在します。または、モデルのハイパーパラメーターを復元するためにサイドチャネル分析手法を使用することもできます。

(2) システムおよびソフトウェアのセキュリティ問題

  • AI システムおよびソフトウェアのセキュリティの脆弱性は、主要なデータの改ざん、モデルの誤った判断、システムのクラッシュ、制御フローのハイジャックなどの深刻な結果をもたらします。
  • コードインジェクション攻撃、制御フローハイジャック攻撃、データフロー攻撃などの多次元攻撃は際限なく出現し、新しい環境で進化し続けます。同時に、AI システムはモジュールが多く、構造が複雑で、スケーラビリティに欠陥があり、複雑なシナリオでの攻撃検出やセキュリティ脅威の発見には大きな困難に直面しています。

ここに画像の説明を挿入します


4. 防御方法


(1)モデルの完全性に対する脅威を防御するためのモデルのセキュリティ強化

  • データポイズニング: スペクトル特徴比較、クラスタリング アルゴリズム、その他の手段を使用して、バックドアを含む入力データを検出します
  • モデル中毒: 枝刈り、微調整、検出、再トレーニングなどの方法を使用して、モデルのバックドア機能を排除します。

モデルの堅牢性に対する脅威に対する防御

  • 対決訓練: 良性のサンプルと敵対的なサンプルを同時にトレーニング フェーズに組み込み、ニューラル ネットワークをトレーニングします。
  • 入力の前処理: フィルタリング、ビット深度削減、入力クリーニングなどの処理操作を通じて、入力データ内の敵対的な摂動を排除します。
  • 特殊な防御アルゴリズム: 蒸留アルゴリズム、特徴枝刈り、ランダム化、その他のアルゴリズムを使用して深層学習モデルを最適化します。

ここに画像の説明を挿入します

(2) モデルのセキュリティ強化

  • モデル構造防御
    モデルの過学習の程度を減らしてモデルの漏洩とデータ漏洩を保護します。
  • 情報難読化防御
    モデルの予測結果に対してファジィ演算を行うことで、出力結果に含まれる有効な情報を妨害し、個人情報の漏洩を軽減します。
  • クエリ制御防御
    ユーザーのクエリに基づいて特徴を抽出し、攻撃者と通常のユーザーを区別することで、攻撃者の行動を制限したり、サービスを拒否したりできます。

ここに画像の説明を挿入します


(3) システムセキュリティ防御
ハードウェアセキュリティ保護

  • 重要なデータの暗号化: システム内の主要データのセキュリティを確保し、サイドチャネル攻撃を防止します。
  • ハードウェア障害の検出:回路障害をリアルタイムで検出し、それに応じて応答して、攻撃者によって破壊されたり乗っ取られたりしないようにします。

ソフトウェアのセキュリティ保護

  • 権限の階層管理: 信頼できるプログラムのみがモデル データにアクセスして呼び出すことができるようにする
  • 動作動作を追跡可能: コアデータのライフサイクル内で操作記録を保持します

ここに画像の説明を挿入します

最後に、彼らと Ant Group は、セキュリティが保証された AI 開発プロセスを実現するためにセキュリティとプライバシー保護の原則を段階的に導入する AI モデル セキュリティ開発ライフ サイクル - AI SDL を提案しました。

ここに画像の説明を挿入します


最終的なまとめ:

  • ホワイトペーパーでは、モデル、データ、ベアラーシステムが直面するセキュリティ脅威と防御方法を紹介し、AI アプリケーション向けのワンストップセキュリティソリューションを提供します。
  • 攻撃と防御のセキュリティ テクノロジーを繰り返し更新し、新たな業界への扉を開く
  • コンプライアンスコストを削減し、ビジネス損失を削減し、新しいビジネスを開拓します

ここに画像の説明を挿入します



2. NLP の観点から見た機械学習モデルのセキュリティ

「元気ですか」の音声にノイズを加えると「ドアを開けてください」と認識されたり、スマートスピーカーにノイズを加えて音声攻撃を仕掛けたりするなど、画像分野でも音声分野でも敵対的攻撃が多く存在します。 、など。

ここに画像の説明を挿入します

では、敵対的なサンプル攻撃はテキストフィールドにも存在するのでしょうか? 自然言語処理 (NLP) 機械学習サービス (MLaaS) も敵対的サンプル攻撃に対して脆弱ですか?

ここに画像の説明を挿入します

まず、自然言語処理をすべての人に普及させましょう。一般的なアプリケーションには次のものがあります。

  • 機械翻訳
  • 情報検索
  • 感情分析
  • 自動質疑応答
  • 自動要約
  • ナレッジグラフ

ここに画像の説明を挿入します

このブログでは主に感情分類のための敵対的な文章を紹介しているので、感情分類の基礎を紹介します。深層学習でテキストを処理する場合、NLP は通常、テキストに対して単語の分割、データ クリーニング、および単語の頻度の計算を実行し、次にテキストを対応する単語ベクトルまたは TF-IDF 行列に変換してから、類似度の計算またはテキストの分類を実行します。特定の感情(ポジティブ)、特徴的な単語(ネガティブ)が多く出現する場合、このタイプの感情であると予測されます。では、深層学習モデルは常にエラーを予測できるのでしょうか?

ここに画像の説明を挿入します

NLP 敵対的サンプル攻撃と画像または音声の敵対的サンプルの間には大きな違いがあり、具体的な違いは次のとおりです。

  • 画像 (ピクセル) 連続 vs テキスト離散
  • ピクセルの小さな変化はほとんど乱れを引き起こしませんが、テキストの変化は容易に目立つ乱れを引き起こします
  • 連続空間では多くの最適化手法が存在しますが、離散空間では不便な最適化が行われます。
  • テキストの意味論的な問題と曖昧さの問題

画像とテキスト データには固有の違いがあるため、画像に対する敵対的攻撃手法をテキスト データに直接適用することはできません。まず、画像データ(画素値など)は連続的ですが、テキストデータは離散的です。第二に、ピクセル値の小さな変化だけが画像データに乱れを引き起こす可能性があり、この乱れは人間の目で検出するのが困難です。ただし、テキストに対する敵対的攻撃では、小さな混乱は簡単に検出されますが、人間は表現の元の意味を「推測」することもできます。したがって、NLP モデルは、「重要度の低い」特徴に対してのみ堅牢であればよい視覚とは異なり、識別可能な特徴に対して堅牢である必要があります。

ディープワードバグ
以下の図は、DeepWordBug のディープ ネットワーク攻撃 (arXiv: 1902.07285 から選択) の例で、テキスト敵対的サンプルの基本プロセスを示しています。通常の深層学習で予測される感情はポジティブですが、一部のキーワード(ハー​​トの位置
)を変更すると感情分類結果はネガティブになります。

ここに画像の説明を挿入します

画像分野のように、攻撃があれば防御もあり、現在、より堅牢な自然言語処理モデルを構築しようとする研究が数多く行われています。CMU の敵対的スペルミスに関する論文 (arXiv: 1905.11268) を読むことをお勧めします。この論文では、研究者が単語内の文字を削除、追加、または順序付けして、より堅牢なテキスト分類モデルを構築しています。人間がこれらの事務的な間違いを犯す可能性があるのと同様に、これらの加算、減算、または並べ替えは混乱を引き起こします。これらの摂動を通じて、モデルは分類結果に影響を与えないようにタイプミスに対処する方法を学習できます。

まず、Ji 先生と他の人たちが行った仕事の紹介から始めましょう。



3. テキスト TextBugger との戦い

TextBugger: 現実世界のアプリケーションに対して敵対的なテキストを生成する
この論文は、NDSS 2019 で公開されました。主に、テキスト敵対的サンプルを生成するために使用される、テキスト敵対的サンプルを生成するためのモデルである TextBugger を提案しました。その利点は次のとおりです。

  • 効果:前モデルを上回る攻撃成功率
  • 回避: 通常のテキストの特徴を保持します。
  • 効率的: 敵対的なテキストを効率的に生成します。操作速度はテキストの長さに比例しません。

元のアドレス:

ここに画像の説明を挿入します


1. 論文寄稿

アプリケーションではテキスト対立の重要性がますます高まっていますが、画像対立のメソッドはテキストに直接使用できません。以前の敵対的サンプル生成モデルには次の欠点がありました。

  • 計算効率が十分ではない
  • ホワイトボックス環境での攻撃
  • 手動介入が必要
  • これらはすべて特定のモデルを対象としたものであり、一般化することはできません。

このペーパーでは、ブラック ボックス シナリオとホワイト ボックス シナリオでサンプルの元の意味を維持する敵対的サンプルを生成できる新しいフレームワーク TextBugger を提案します。ホワイト ボックス シナリオでは、ヤコビ行列を計算することで文内のキーワードを見つけることができます。ブラック ボックス シナリオでは、最初に最も重要な文を見つけてから、スコア関数を使用して文内のキーワードを見つけます。敵対的な例は実際の分類器で使用され、良好な結果を達成しています。具体的な貢献には次のようなものがあります。

  • ブラックボックスおよびホワイトボックスのシナリオで効率的な敵対的サンプルを生成できる TextBugger フレームワークを提案しました。
  • TextBugger フレームワークが評価され、その効率性と有効性が証明されました
  • TextBugger が人間の理解に与える影響はわずかであることを示しています
  • テキスト分類モデルの堅牢性を高めるための 2 つの防御戦略について説明します

具体的な実験環境は下図のとおりで、データセットは映画レビューデータの感情分析用データセットであるIMDBとRotten Tomatoes Movie Reviewsデータセットです。対象モデルは次のとおりです。

  • ホワイトボックス攻撃: LR、CNN、LSTM モデルをターゲットとする
  • ブラックボックス攻撃: Google Cloud NLP、IBM Watson Natural Language Understanding (IBM Watson)、Microsoft Azure Text Analytics (Microsoft Azure)、Amazon AWS Comprehend (Amazon AWS)、Facebook fast-Text (fastText)、ParallelDots などの実際のオンライン モデル、TheySay Sentiment、Aylien Sentiment、TextProcessing、Mashape Sentiment、および不明なパラメーターを持つその他のモデル

ベースライン アルゴリズムは次のとおりです。

  • ランダム アルゴリズム: 各文について、単語の 10% がランダムに選択され、変更されます。
  • FGSM+NNS: 高速勾配シンボル法を使用して単語埋め込み層の最適な摂動を見つけ、最近傍検索を通じて辞書内で最も近い単語を見つけます。
  • DeepFool+NNS: DeepFool メソッドを使用して、多分類問題の決定境界を横切る方向を見つけ、次に最適な摂動を見つけます。次に、最近傍検索メソッドを使用して、辞書内で最も近い単語を見つけます。

追伸:この部分は先生の「イケメンも本を読んだほうがいい」という理解に言及しています。

ここに画像の説明を挿入します

敵対的攻撃の分類
敵対的攻撃には多くの分類があり、攻撃環境からブラック ボックス攻撃、ホワイト ボックス攻撃、グレー ボックス攻撃に分類できます。

  • ブラックボックス攻撃:攻撃者は攻撃モデルの内部構造、トレーニングパラメータ、防御方法などについて何も知らず、出力を通じてのみモデルと対話できます。
  • ホワイトボックス攻撃: ブラック ボックス モデルとは対照的に、攻撃者はモデルに関するすべてを習得できます。現在の攻撃アルゴリズムのほとんどはホワイトボックス攻撃です。
  • グレーボックス攻撃: ブラック ボックス攻撃とホワイト ボックス攻撃の間で、モデルの一部しか理解していません。たとえば、モデルの出力確率だけが得られるか、モデルの構造だけがわかっていてパラメーターがわかっていない場合です。

攻撃の目的から標的型攻撃と非標的型攻撃に分けられます。

  • 対象外の攻撃: 画像分類を例にとると、攻撃者はターゲット モデルにサンプルを誤分類させるだけでよく、どのカテゴリを誤分類するかは指定しません。
  • 標的型攻撃: 攻撃者は特定のカテゴリを指定するため、ターゲット モデルはサンプルを誤って分類するだけでなく、指定されたカテゴリに誤って分類します。難易度という点では、標的型攻撃は非標的型攻撃よりも実装が困難です。


2. ホワイトボックス攻撃

ホワイトボックス攻撃: ヤコビアン行列を通じて最も重要な単語を見つけ、5 種類のバグを生成し、信頼性に基づいて最適なものを見つけます。TextBugger の全体的なフレームワークを次の図に示します。

ここに画像の説明を挿入します

ホワイトボックス攻撃は、ヤコビ行列を通じて最も重要な単語を見つけます。アルゴリズム フローは次のとおりです。

  • ステップ 1: 重要な単語を見つける (行 2 ~ 5)
    ヤコビアン行列を通じて最も重要な単語を見つける
  • ステップ 2: バグの生成 (行 6 ~ 14)
    バグの生成。生成された敵対的サンプルが元のサンプルと視覚的および意味的に一貫していることを保証するには、妨害を可能な限り小さくする必要があります。摂動の 2 つのレベル、文字レベルの摂動と単語レベルの摂動を考えます。

ここに画像の説明を挿入します

著者は、一部の単語埋め込みモデル (word2vec など) では、「worst」と「better」などの反対の意味論を持つ単語がテキスト内で高度な構文類似性を持っているため、「better」が最近隣とみなされていることを発見しました。 「最悪」の。上記は明らかに不合理であり、すぐに気づくことができます。したがって、意味を保持する手法が使用されます。つまり、文脈を意識した単語ベクトル空間で単語を上位 k 個の最近傍単語に置き換えます。単語の埋め込みにはスタンフォード大学が提供する事前トレーニング済みのGloVe モデルを使用し、topk を 5 に設定して、近傍が元の近傍と意味的に類似していることを確認します。

TextBugger は、次の図に示すように、5 つの敵対的サンプル生成方法を提案しています。

  • スペースを挿入する
    単語にスペースを挿入する
  • 文字を削除する
    最初と最後の文字を除くすべての文字を削除します
  • 文字を置き換える
    単語内の先頭と末尾を除いた 2 文字を入れ替えます
  • 視覚的な類似性
    視覚的に似ている文字 (「o」と「0」、「l」と「1」など) およびキーボード上で近くにある文字 (「m」と「n」など) を置換します。
  • コンテキストを認識した単語ベクトル、最近傍置換 (word2vec->GloVe)
    文脈を認識した空間で最も近い k 個の単語を使用して置き換えます

ここに画像の説明を挿入します

候補単語を使用して生成された敵対的サンプルをモデルに入力して、対応するカテゴリの信頼度を取得し、信頼度を最も低下させる単語を選択します。単語を置き換えた後の敵対的サンプルと元のサンプルとの間の意味的類似性が閾値よりも大きい場合、敵対的サンプルは正常に生成される。それがしきい値より大きくない場合、次の単語が変更のために選択されます。

ここに画像の説明を挿入します



3. ブラックボックス攻撃

ブラック ボックス シナリオでは、勾配の表示がないため、最初に最も重要な文を見つけてから、スコアリング機能を通じて最も重要な単語を見つけます。具体的な攻撃は 3 つのステップに分かれています。

  • Step1: 重要な文章を見つける
    最初のステップは、重要な文章を見つけることです。文書を複数の文に分割し、各文を入力として取得し、分類結果を表示します。これにより、ラベルの予測に重要ではない単一の文をフィルターで除外でき、残りの文を信頼度に従って並べ替えることもできます。
  • Step2: 分類結果に基づいて、スコアリング機能を使用して各単語の重要度を判定し、スコアに従って単語を並べ替えます
    考えられるすべての変更を考慮して、文内の最も重要な単語を最初に見つけてから、敵対的なサンプルと元のサンプルの間の意味上の類似性を確保するためにわずかに変更する必要があります。単語の重要性を評価するには、削除前の信頼度と削除後の信頼度の差を使用できます。
  • ステップ 3: バグ選択アルゴリズムを使用して、選択した単語を変更します。3
    番目のステップはバグの生成です。このステップは基本的にホワイトボックス攻撃と同じです。

ここに画像の説明を挿入します



4. 実験による評価

評価には主に編集距離、Jaccard 類似係数、ユークリッド距離、意味的類似度が使用されます。次の表は、ホワイト ボックス環境とブラック ボックス環境における論文でのこの方法のパフォーマンスを示しており、以前の方法と比較して大きな利点があることがわかります。

ここに画像の説明を挿入します

下の画像は、敵対的なテキスト内の重要な単語を示しています。アルゴリズムによって攻撃された単語の頻度に応じて、特定のカテゴリに最も大きな影響を与える単語を知ることができます。たとえば、「悪い」、「ひどい」、「バカ」、「最悪」、「」などの単語です。ひどい」はネガティブなカテゴリーに属するキーワードです。

ここに画像の説明を挿入します

下の図は論文のアルゴリズムによって生成された敵対的サンプルの例です。分類キーワードを単純な単語レベルの攻撃で処理することで攻撃効果を実現しています。対象となるカテゴリと攻撃後のカテゴリが次のようになっていることがわかります。とても違う。具体的な変更には次のようなものがあります。

  • ひどい => ひどい
  • 決まり文句 => 決まり文句
  • 愚かな => 愚かな
  • ひどい => ひどい

ここに画像の説明を挿入します

実験データによると、文書の長さは攻撃の成功率にほとんど影響を与えませんが、テキストが長いと誤分類の信頼度が低くなります。ドキュメント長が長いほどアタックタイムが長くなるのは直感的に理解しやすいです。

ここに画像の説明を挿入します

要約する
この論文のアルゴリズムの特徴は次のように要約されます: 第一に、アルゴリズムは文字レベルと単語レベルの摂動の両方を使用します; 第二に、論文はアルゴリズムの効率を評価します; 最後に、論文はアルゴリズムを使用して実験を行います多くのオンライン プラットフォームで使用でき、アルゴリズムの普遍性、適応性と堅牢性を証明しています。同時に、既存の防御手法は画像フィールドのみに焦点を当てており、テキスト フィールドには比較的重点が置かれておらず、敵対的トレーニング手法は、敵対的サンプルから防御するためではなく、分類器の精度を向上させるためにのみ使用されています。

ここに画像の説明を挿入します



4. 中国の対立テキスト

これまで私が見た多くの論文では、英語での敵対的テキスト攻撃が紹介されていますが、中国語にも存在し、中国語の意味論と単語の分割により、その攻撃と防御はより困難になります。ただし、この部分は非常に駆け足で紹介されているため、その時に撮影した関連する PPT のみをここに公開します。

  • 中国の NLP システムに対するクエリ効率の高い意思決定ベースの攻撃

ここに画像の説明を挿入します

敵対的なサンプルの開発に伴い、ニュース プラットフォーム、ソーシャル ネットワーク、感情モデルをある程度回避できる火星のテキストがますます増えています。たとえば、「WeChat」は「Weixin」、「Yuefa Sanqian」に変更されています。そして他の言葉。中国の敵対的なテキストはやや難しいので、どうやって解決すればよいでしょうか?

ここに画像の説明を挿入します

Ji 先生と彼のチームは、CTbugger (Adversarial Chinese Text) を提案しました。そのフレームワークは下図に示されており、深層学習モデルに対して悪意のあるテキスト攻撃を実行することで、対応する中国語の敵対的テキストを生成します。

ここに画像の説明を挿入します

ここに画像の説明を挿入します

もう 1 つの作品は TextShield で、そのフレームワークを以下に示します。

ここに画像の説明を挿入します

ここに画像の説明を挿入します



5. まとめ

最後に、誰もが学べるように関連文献の概要を示します。多くのことを学び、自分自身の欠点に気づきました。また、いくつかの質問について自分で考える必要があります。

  • 敵対的な例とディープラーニングを悪意のあるコード分析と組み合わせる方法
  • AI テクノロジーを組み合わせてバイナリ分析を完了し、特徴の解釈可能性分析を実現する方法

ここに画像の説明を挿入します

「学術には才能が必要かもしれません。このような偉人たちには本当に学ぶ価値があります。私たちは学会で論文を読み続けなければなりませんが、科学研究や実験を止めることはできません。」同時に、このギャップを埋めるために努力を続け、何よりもがく過程を楽しみながら努力していきたいと思います。最後に、この機会を与えていただいた先生に感謝申し上げますが、私は技術や科学の研究が非常に苦手で、安全性が非常に難しいのですが、それでも心、筋肉、骨、そして体を鍛えていかなければなりません。私は愛する人たちのサポートに感謝し、奮闘する過程を楽しんでいます。故郷では月が丸いので、祭りの期間中はさらに家族が恋しくなりました。

ここに画像の説明を挿入します


最後に、教師「Mangosteen Xiaoguo」によって要約された敵対的サンプルに関連する論文が示されています。
(1) テキスト攻撃と防御に関する論文の概要

  • 神経言語処理における分析手法: 調査。ヨナタン・ベリンコフ、ジェームズ・グラス。TACL2019。
  • テキスト ドメインの堅牢なディープ ニューラル ネットワークに向けて調査. Wenqi Wang、Lina Wang、Benxiao Tang、Run Wang、Aoshuang Ye. 2019.
  • 自然言語処理における深層学習モデルに対する敵対的攻撃: 調査。ウェイ・エマ・チャン、クアン・Z・シェン、アホウド・アルハズミ、チェンリャン・リー。2019年。

(2) ブラックボックス攻撃

  • PAWS: Word Scrambling から Adversaries を言い換えます。ユアン・チャン、ジェイソン・ボールドリッジ、ルーヘン・ヘ。NAACL-HLT 2019。
  • 人間と同じようなテキスト処理: NLP システムを視覚的に攻撃および防御します。Steffen Eger、Gözde Gül ¸Sahin、Andreas Rückle、Ji-Ung Lee、Claudia Schulz、Mohsen Mesgar、Krishnkant Swarnkar、Edwin Simpson、Iryna Gurevych。NAACL-HLT 2019。
  • 対話モデルの敵対的過敏性戦略と過安定性戦略。トンニウ、モヒット・バンサル。2018年CoNLL。
  • 自然言語の敵対的な例の生成。ムスタファ・アルザントット、ヤシュ・シャルマ、アーメド・エルゴハリー、ボージャン・ホー、マニ・スリヴァスタヴァ、カイウェイ・チャン。EMNLP 2018。
  • 単純な語彙推論を必要とする文による NLI システムの破壊。マックス・グロックナー、ベレッド・シュワルツ、ヨアヴ・ゴールドバーグ ACL 2018。
  • AdvEntuRe: 知識に基づいた例を使用したテキスト含意の敵対的トレーニング。カン・ドンヨプ、トゥシャール・コート、アシシュ・サバルワル、エドゥアルド・ホーヴィ。ACL2018。
  • NLP モデルをデバッグするための意味的に同等の敵対的ルール。マルコ・トゥーリオ・リベイロ、サミール・シン、カルロス・ゲゲリン ACL 2018。
  • 敵対的トレーニングによる堅牢な機械理解モデル。ワン・イーチェン、モヒット・バンサル。NAACL-HLT 2018。
  • 構文的に制御された言い換えネットワークによる敵対的な例の生成。モヒト・アイヤー、ジョン・ウィーティング、ケビン・ギンペル、ルーク・ゼトルモイヤー。NAACL-HLT 2018。
  • 深層学習分類子を回避するための敵対的テキスト シーケンスのブラック ボックス生成。ジー・ガオ、ジャック・ランチャンティン、メアリー・ルー・ソファ、ヤンジュン・チー。IEEE SPW 2018。
  • 合成ノイズと自然ノイズは両方ともニューラル機械翻訳を破壊します。ヨナタン・ベリンコフ、ヨナ​​タン・ビスク。ICLR 2018。
  • 自然な敵対的な例の生成。ジェンリー・ジャオ、ディール・ドゥア、サミール・シン。ICLR 2018.
    読解システムを評価するための敵対的な例。ロビン・ジアとパーシー・リャン。EMNLP 2017。

(3) ホワイトボックス攻撃

  • 文字レベルのニューラル機械翻訳の敵対的な例について。ジャビド・エブラヒミ、ダニエル・ロウド、デジン・ドゥ。コーリング2018。
  • HotFlip: テキスト分類のためのホワイトボックス敵対的な例。ジャビド・エブラヒミ、アニイ・ラオ、ダニエル・ロウド、デジン・ドゥ。ACL2018。
  • 敵対的なテキストのサンプルの作成に向けて。スランジャナ・サマンタ、サメープ・メータ。ECIR 2018。

(4) ブラック ボックス攻撃とホワイト ボックス攻撃を同時に調査する

  • TEXTBUGGER: Generating Adversarial Text Against Real-world Applications. Jinfeng Li、Sholing Ji、Tianyu Du、Bo Li、Ting Wang. NDSS 2019.
  • 注意ベースの畳み込みニューラル ネットワークとリカレント ニューラル ネットワークの比較: 機械読解の成功と限界。マティアス・ブローム、グロリアンナ・ヤグフェルド、エクタ・スード、シャン・ユー、ゴック・タン・ヴー。2018年CoNLL。
  • ディープ テキスト分類は騙される可能性がある。Bin Liang、Hongcheng Li、Miaoqiang Su、Pan Bian、Xirong Li、Wenchang Shi、IJCAI 2018。

(5) 反撃の防御

  • 堅牢な単語認識で敵対的なスペルミスに対処します。デンマークのプルティ、ブワン・ディングラ、ザカリー・C・リプトン。ACL 2019.
    评估

(6) テキスト攻撃・防御研究における新たな評価手法の提案

  • シーケンス間モデルの敵対的摂動の評価について。ポール・ミシェル、シアン・リー、グラハム・ノイビッヒ、フアン・ミゲル・ピノ。NAACL-HLT 2019


参考文献:
共有と要約をしてくださった偉い人たちと先生に感謝します。Xiuzhang は多くの恩恵を受けました。もう一度ありがとう。
[1] AI セキュリティ - インテリジェント時代の攻撃と防御の方法
[2] https://arxiv.org/abs/1812.05271
[3] (強く推奨) NLP における敵対的な例 - Mangosteen Xiaoguo
[4] TextBugger: 実際に生成アプリケーション 敵対的テキスト - イケメンでももっと本を読むべき
[5]論文読書 | TextBugger: Generating Adversarial Text Against Real-world Applications
[6]敵対的攻撃の概念入門 - 機械学習セキュリティ初心者
[7] Li J, Ji S 、Du T 他、TextBugger: Generating Adversarial Text Against Real-world Applications[J]、arXiv: 暗号化とセキュリティ、2018。

(投稿者:Eastmount 2020-10-18 午後 10 時 http://blog.csdn.net/eastmount/ )

おすすめ

転載: blog.csdn.net/Eastmount/article/details/108890639#comments_28779379