人工知能の安全性

目次

I.はじめに

2. AI技術とセキュリティモデル

2.1 安全技術

2.2 AIセキュリティ問題の分類

3. AI技術に対する3つの脅威

3.1 AI モデルのセキュリティ問題

3.2.1 モデルトレーニングの整合性の脅威

3.2.2 モデルトレーニングの整合性の脅威

3.2 AI データとプライバシーのセキュリティ問題

3.2.1 モデル出力に基づくデータ漏洩

3.2.2 勾配更新に基づくデータ漏洩

3.3 AI システムのセキュリティ問題

3.3.1 ハードウェアデバイスのセキュリティ問題

3.3.2 システムおよびソフトウェアのセキュリティ問題

4. AI 脅威に対する一般的な防御技術

 5. AI応用システムのワンストップセキュリティソリューション

5.1 業界の紹介

5.2 多次元対立とAI SDL

6. まとめと展望


この論文は、AI テクノロジーのセキュリティ要件をモデル、データ、ベアラー システムの観点から包括的に検討し、機密性、完全性、堅牢性、プライバシーを使用して AI テクノロジーのセキュリティ モデルを定義し、AI セキュリティの現在の課題を示します。主要な脅威: AI モデルのセキュリティ問題、AI データとプライバシーのセキュリティ問題、AI システムのセキュリティ問題。さまざまなセキュリティ脅威に対して、データポイズニング攻撃、カウンターサンプル攻撃、データプライバシーの脅威など、さまざまな防御方法が提案されています。ただし、実際のシナリオでは、AI システムが遭遇する脅威は非常に複雑であることが多く、単一の防御テクノロジーでは実際の脅威を効果的に防御することはできません。そこで本記事では、国内の大手メーカーが採用しているAIセキュリティソリューションをまとめ、その中から多次元対立やAI SDLを中心に、よりカバー範囲の広いAIセキュリティソリューション群を抽出します。

最後に、AI アプリケーションは、実際の展開中に敵対的攻撃、データポイズニング攻撃、モデル盗難攻撃などの複数の潜在的な脅威に直面します。実際のシナリオにおける複雑な脅威や変化する脅威手段に対処するために、AIセキュリティ研究者は、人工知能モデルの解釈可能性などの理論的観点から出発し、人工知能モデルが直面するセキュリティ問題を根本的に解決する必要があります。

1.はじめに

人工知能テクノロジーの台頭は、3 つの重要な要素に依存しています: 1) 機械学習タスクにおける深層学習モデルの画期的な進歩、2) ますます成熟するビッグデータテクノロジーによってもたらされる大量のデータの蓄積、3) オープンソースの学習フレームワークとコンピューティングの開発電力の向上によってもたらされるソフトウェアとハ​​ードウェアのインフラストラクチャ。本稿では、これら 3 つの要素を AI モデル、AI データ、AI 搬送システムと略して呼びます。これら 3 つの要素によって AI テクノロジーは、バイオ核、自動運転、画像認識、音声認識などのさまざまなシナリオにうまく適用され、伝統的な産業のインテリジェントな変革を加速させています。これら 3 つの要素の探求が継続的に深まることで、AI テクノロジーは多くの古典的な機械学習タスクで画期的な進歩を遂げただけでなく、現実世界のさまざまなシナリオでも広く使用されています。

AI技術のセキュリティとプライバシー漏洩の脅威に対処するために、学界と産業界は攻撃原理を深く分析し、さまざまな攻撃原理に従って一連の対応する防御技術を提案してきました。これらの防御技術は、データ収集、モデルトレーニング、モデルテスト、システム展開などのAIアプリケーションのライフサイクルをカバーしており、各段階で発生する可能性のあるセキュリティやプライバシー漏洩の脅威を十分に考慮し、既存のセキュリティの原則と実装を分析します。攻撃手法を詳細に分析し、そのプロセスと影響を分析し、最終的には対応する防御技術を提案します。たとえば、攻撃者がデータ収集段階でトレーニング データを汚染したり、モデルのトレーニング パラメーターを操作したりするのを防ぐために、研究者らはトレーニング データ ポイズニングがモデルに及ぼす影響を分析し、クラスタリング モデルを使用してニューロンを活性化し、ポイズニングされたデータとポイズニングされたデータを区別することを提案しました。防御手法 [9]; 学習済み AI モデルが攻撃「バックドア」に埋め込まれるのを防ぐために、研究者らはモデル内の「バックドア」攻撃の潜在的な特性を分析し、モデルなどの手法を提案しました。モデル内の「バックドア」攻撃を排除するためのプルーニング/微調整。既存の「バックドア」[10]; 攻撃者がテスト段階で敵対的なサンプル攻撃を開始するのを防ぐために、研究者は JPEG 圧縮、フィルタリング操作を使用することを提案しました。 、画像のぼかしや入力データを前処理するその他の方法が影響し、それによって敵対的な外乱帯域が減少します [11]。さらに、AIモデルがトレーニング/テストフェーズ中にモデルの主要なパラメーターを漏洩しないようにするために、研究者はモデルの構造を適切に調整してモデルの過学習度を低減し、それによってAIモデルから漏洩するパラメーター情報を削減しました。モデル。上記の研究は、AI モデルに対する効果的な防御メカニズムを提供しますが、アプリケーションにおける AI テクノロジーの判断精度と実行効率の低下は避けられません。AIのセキュリティ脅威を技術レベルで防ぐだけでなく、ユーザーの個人データを保護するためにデータセキュリティ法や規制を導入する国や地域が増えています。

要約すると、AI 技術が直面するさまざまなセキュリティ脅威は、実際の適用シナリオにおいてユーザーのプライバシー データの漏洩を引き起こし、ユーザーの生命と財産に損失をもたらすリスクをもたらします。AI 技術が直面するセキュリティとプライバシーの脅威に対処するために、この論文は、学界と産業界における AI セキュリティとプライバシー保護技術に関する関連研究結果を体系的にまとめています。AI テクノロジーにおけるモデル、データ、ベアラー システムのセキュリティ問題に焦点を当てます。まず、AI モデル、データ、ベアラー システムが直面するセキュリティ脅威を詳細に紹介し、次にこれらの脅威に対する防御技術を 1 つずつ紹介し、最後に AI アプリケーション向けのワンストップ セキュリティ ソリューションを提案します。

2. AI技術とセキュリティモデル

人工知能は、事前に設計された理論モデルを通じて人間の知覚、学習、意思決定のプロセスをシミュレートするテクノロジーです。完全な AI テクノロジーには、AI モデル、モデルをトレーニングするためのデータ、モデルを実行するコンピューター システムが含まれており、AI テクノロジーの適用は、モデル、データ、搬送システムの共同動作に依存します。

  • AIモデル
  • モデルは、AI技術の予測・認識機能を実現するためのAI技術の中核であり、AI技術が他のコンピュータ技術と異なる部分でもあります。AI モデルはデータ駆動型と自己学習の特性を持ち、機械学習理論と対応するアルゴリズムの実装を担当し、入力データのルールと特性を自動的に分析し、トレーニング フィードバックに従ってモデル パラメーターを個別に最適化し、そして最後に入力サンプルを予測する機能を実現します。AI モデルは通常、データ マイニング、ディープ ニューラル ネットワーク、数値最適化などのアルゴリズム レベルのテクノロジーを組み合わせて、その主な機能を実現します。手書きの数字を分類するタスクを例にとると、AI モデルは入力画像が 0 ~ 9 のどの数字であるかを判断する必要があります。手書き数字分類モデルを学習するために、研究者はトレーニング データセット (例: MNIST データセット) {xi,yi},i=1,2,...,N を構築します。ここで、xi,yi は画像とその画像を表します。該当する桁を確認してください。モデルは畳み込みニューラル ネットワーク y=fθ(x) を選択できます。ここで、θ は畳み込みニューラル ネットワークのパラメーターです。トレーニング プロセス中、AI モデルは最適化アルゴリズムを使用して畳み込みニューラル ネットワークのパラメーターを継続的に調整し、トレーニング セット上のモデルの出力予測結果が正しい分類結果にできるだけ近くなるようにします。
  • AIデータ
  • データは AI テクノロジーの中核的な原動力であり、AI モデルが優れたパフォーマンスを達成するための重要なサポートです。AIモデルは、さまざまな種類のトレーニングデータに基づいてデータの特徴を自動的に学習し、モデルを最適化して調整する必要があります。大量の高品質なデータは、AI モデルがデータの特性を学習し、データの内部関係を取得するための基本的な要件であり、重要な保証です。AI技術で使用されるアルゴリズムのほとんどは20年前に提案されていますが、インターネットの成熟、大規模データの収集、ビッグデータ処理技術の向上により、近年まで急速に発展しませんでした。大規模データはAI技術の発展を支える重要な基盤であり、次のような特徴があります。 (1) データ量が多く、AIモデルは主にデータから得られる知識や経験を学習しますが、単一データの価値密度が低い. 大量のデータにより、隠れた高価値の特徴やルールをモデルが包括的に学習するのに役立ちます; (2) データの多様性が強い. さまざまな種類の大量のデータから、モデルはさまざまなデータを学習できます機能の強化により、モデルのパフォーマンスが向上します。堅牢性と汎化能力。
  • AI搬送システム

アプリケーションシステムはAI技術の基盤であり、モデルの構築から実用化までAI技術に必要なすべての基本的なコンピュータ機能がこの部分に属します。一般的な AI アプリケーションのデプロイ プロセスは大まかに次のとおりです。アプリケーションに必要な大規模なデータを収集し、関連する人工知能アルゴリズムを使用してモデルをトレーニングし、トレーニングされたモデルをアプリケーション デバイスにデプロイします。AI 搭載システムは、AI テクノロジーに重要な動作環境を提供します。たとえば、大規模なデータの保存には信頼性の高いデータベース テクノロジーが必要であり、大規模な AI モデルのトレーニングには膨大な計算能力が必要であり、モデル アルゴリズムの特定の実装には AI ソフトウェア フレームワークが必要です。安定したインターフェイス、データ収集、およびマルチパーティの情報対話には、成熟した安定したインターネット通信テクノロジが必要です。現在、AI アプリケーションを構築するために一般的に使用されるフレームワークには、Tensorflow や PyTorch などが主流です。これらのフレームワークは、畳み込み、プーリング、最適化など、AI モデルの動作に必要なさまざまな操作を効率的に実装します。これらのフレームワークは、研究開発担当者が呼び出すための AI テクノロジ実行インターフェイスを提供するため、インターフェイスを呼び出すことでカスタム AI モデルを迅速に構築できるため、基盤となる実装の詳細に多大な労力を費やす必要がなく、AI の開発の困難さが簡素化されます。人々は、ビジネス ロジックとイノベーション手法により深く集中できるようになります。これらの利点により、AI テクノロジーの急速な発展が可能になり、AI アプリケーションの上陸と普及が大きく促進されます。

2.1安全技術

学界や産業界での研究活動により、AI テクノロジーの適用には計り知れないセキュリティ上の脅威が存在し、これらの脅威は人命や財産に重大な損失を引き起こす可能性があることがわかっています。ポイズニング攻撃 [1] は AI モデルを毒し、AI モデルの意思決定プロセスを攻撃者によって制御させる; 敵対的サンプル攻撃 [3] は悪意のある撹乱の下で攻撃者が指定した誤った予測をモデルに出力させる攻撃者のモデル盗用攻撃 [8] モデルのパラメータ情報の漏洩につながる。さらに、モデル リバース エンジニアリング [6]、メンバーシップ推論攻撃 [12]、バックドア攻撃 [13]、偽造攻撃 [14]、ソフトウェア フレームワークの脆弱性 [15] などのさまざまなセキュリティ脅威が深刻な結果を引き起こす可能性があります。これらの潜在的な脅威により、モデルは AI の安全性の基本要件に違反します。本節では、AI技術がその応用において直面する脅威を踏まえ、従来の情報セキュリティとサイバー空間セキュリティの標準仕様を参照しながら、AI技術に適用可能なセキュリティモデルについて議論します。

AI 技術の台頭は、ディープラーニングに代表されるモデリング技術の進歩だけではなく、ビッグデータ技術と AI オープンソース システムの継続的な成熟にも依存しています。したがって、AIセキュリティモデルを定義する際には、AIモデル、AIデータ、AI搬送システムのセキュリティ要件を体系的に検討する必要があります。AI モデル レベルでの AI セキュリティでは、アプリケーション機能の整合性を維持し、モデル出力の精度を維持しながら、複雑なアプリケーションに直面しても、モデルが開発者の設計に従って正確かつ効率的に実行できることが必要です。 AI データのレベルでは、データが不正に盗まれて使用されないことが要求されると同時に、AI 技術のライフ サイクルで生成される情報が安全であることが求められます。個人のプライバシー データを漏洩しないこと、AI 搬送システムのレベルで必要である 搬送 AI テクノロジのさまざまなコンポーネントは、物理デバイス、オペレーティング システム、ソフトウェア フレームワーク、コンピュータ ネットワークなど、コンピュータ セキュリティの基本要素を満たすことができます。モデル、データ、ベアラー システムの観点から AI テクノロジーのセキュリティ要件を考慮し、機密性、完全性、堅牢性、プライバシーの観点から AI テクノロジーのセキュリティ モデルを次のように定義します

• 機密保持では、AI テクノロジーのライフサイクルに関与するデータとモデル情報が権限のないユーザーに漏洩しないことが要求されます。

• 完全性では、AI テクノロジーのライフサイクル中、アルゴリズム モデル、データ、インフラストラクチャ、製品が悪意を持って埋め込まれたり、改ざんされたり、置き換えられたり、偽造されたりしないことが必要です。

• 堅牢性では、変化しやすく複雑な実際の応用シナリオに直面しても強力な安定性を備え、同時に複雑な環境条件や異常な悪意のある干渉に耐えることができる AI テクノロジーが必要です。たとえば、自動運転システムは、複雑な道路状況に直面しても予期せぬ動作を引き起こすことがなく、異なる照明や透明度などの環境要因下でも安定した結果を得ることができます。

• プライバシー (プライバシー) では、AI テクノロジーが通常の構築および使用中にデータ主体のデータ プライバシーを保護できることが必要です。プライバシーは機密性とは異なり、AI モデルにとって特別な考慮が必要な属性であり、元のデータ情報が直接漏洩しない限り、AI モデルの計算によって生成された情報が間接的にユーザー データを公開しないことを意味します。

2.2 AIセキュリティ問題の分類

このセクションでは、AI テクノロジーの適用プロセスにおけるセキュリティ脅威の分類方法について説明し、セキュリティ モデルのどのセキュリティ要件が一般的なセキュリティ脅威によって侵害されるかを分析します。一般的に、AI セキュリティの脅威は、AI テクノロジーに関係する 3 つの側面 (モデル、データ、ベアラー システム) に基づいて、AI モデル セキュリティ、AI データ セキュリティ、および AI ベアラー システム セキュリティの 3 つのカテゴリに分類されます。

• AI モデルのセキュリティ問題

AI モデルのセキュリティとは、トレーニングおよび実行フェーズ中の攻撃者による AI モデルへの機能損傷の脅威や、AI の堅牢性の欠如によって引き起こされるセキュリティ脅威など、AI モデルが直面するすべてのセキュリティ脅威を指します。モデル自体。AI モデルのセキュリティをさらに 3 つのサブカテゴリに分類します。 1) トレーニング整合性の脅威。攻撃者がトレーニング データを変更して、隠れた悪意のある動作をモデルに注入します。トレーニングの完全性の脅威は、AI モデルの完全性を破壊します。この脅威には、主に従来のポイズニング攻撃とバックドア攻撃が含まれます。2) テストの完全性の脅威: 攻撃者は、AI を欺くという目的を達成するために、入力テスト サンプルを悪意を持って変更します。モデルでは、整合性テストに対する脅威は主に敵対的なサンプル攻撃です; 3) 堅牢性の欠如の脅威は悪意のある攻撃からではなく、AI モデルの複雑な構造と解釈可能性の欠如から生じます。予測できない出力。上記のセキュリティリスクが適切に解決されない場合、AI モデル自体の動作の安全性と信頼性を確保することが困難になり、実際のアプリケーション シナリオでの AI テクノロジーの推進と実装に支障が生じます。これらのセキュリティ脅威についてはセクション 3.1 で詳しく紹介します。

• AIデータのセキュリティ問題

データは AI テクノロジーの中核的な原動力であり、主にモデル パラメーター データとトレーニング データが含まれます。データセキュリティの問題とは、AI技術で使用されるトレーニングデータ、テストデータ、モデルパラメータデータが攻撃者によって盗まれるという事実を指します。これらのデータは、モデル所有者が多大な時間と費用を費やして収集したものであり、ユーザーのプライバシー情報が含まれるため、非常に価値があります。これらのデータが漏洩すると、ユーザーの個人プライバシーが侵害され、多大な経済的損失が発生します。AI 技術で使用されるデータについては、攻撃者は AI モデルの構築および使用中に生成される情報を通じて、AI モデルのデータをある程度盗むことができます。モデルの出力では、出力結果はトレーニング/テスト データの関連するプロパティを暗示します。顔の表情認識を例にとると、クエリ入力画像ごとに、モデルは結果ベクトルを返します。このベクトルには、笑顔、悲しみ、驚きなどのさまざまな表情の分類確率など、顔の内容に関する情報が含まれる場合があります。これらの返された結果情報を使用する人は、生成モデルを構築し、元の入力データを復元して、ユーザーのプライバシーを盗む可能性があります [16]; 2) モデルのトレーニングによって生成された勾配に基づいて、この問題は主に分散トレーニングに存在します。モデル、モデル トレーナー間で交換されるモデル パラメーターの複数の勾配を使用してトレーニング データを盗むこともできます。

図 2.1: セキュリティの脅威と AI テクノロジーが直面する課題の関係、AI セキュリティの一般的な防御テクノロジー、および AI アプリケーション システムのセキュリティ ソリューション

• AIベアラーシステムのセキュリティ問題

AI テクノロジーを搭載するアプリケーション システムには、主に AI テクノロジーで使用される基本的な物理機器とソフトウェア アーキテクチャが含まれており、データの収集と保存、アルゴリズムの実行、AI モデルのオンライン操作などのすべての機能の基礎となります。アプリケーション システムが直面するセキュリティの脅威は、従来のコンピュータ セキュリティの脅威と似ており、AI テクノロジにおけるデータ漏洩、情報改ざん、サービス拒否などのセキュリティ問題につながります。これらの問題は 2 つのレベルに要約できます。 1) ソフトウェア フレームワーク レベル (主流の AI アルゴリズム モデルのエンジニアリング フレームワーク、AI テクノロジ関連のアルゴリズムを実装するオープン ソース ソフトウェア パッケージとサードパーティ ライブラリ、および AI を展開するためのオペレーティング システムを含む)重大なセキュリティ脆弱性がある; 2) データ収集機器、GPU サーバー、エンドサイド機器などを含むハードウェア設備のレベルでは、一部の基本的な機器はセキュリティ保護が欠如しており、攻撃者によって簡単に侵入および操作されます。そして悪意のある行為を実行するために使用される可能性があります。

図 2.1 は、AI 技術が直面するセキュリティ脅威と課題、一般的な AI セキュリティ防御技術、および AI アプリケーション システム セキュリティ ソリューションの関係を詳細に説明し、AI 技術の適用プロセスに存在するセキュリティ脅威と防御技術の種類を例示しています。次の章では、AI テクノロジーが直面している現在のセキュリティ課題と、現実世界のシナリオで発生する可能性のある潜在的なセキュリティ リスクについて包括的に紹介します。

3. AI技術

 

3.1 AI モデルのセキュリティ問題

3.2.1モデルトレーニングの整合性の脅威

AI モデルの意思決定と判断能力は、大量のデータのトレーニングと学習プロセスから生まれます。したがって、データはモデルのトレーニング プロセスにおいて非常に重要な部分であり、モデルのトレーニング データの包括性、不偏性、純度はモデルの判断の精度に大きく影響します。一般に、包括的で偏りのない純粋な大規模トレーニング データにより、モデルはデータセット内の情報を適切に適合させ、人間と同等、または人間を超える意思決定および判断能力を学習できるようになります。例: ImageNet データセットにより、AI モデルは画像分類タスクにおいて人間の感覚的判断を超える精度を達成できます。ただし、トレーニング データが攻撃者によって悪意を持って改ざんされた場合、モデルは誤った予測能力を学習します。たとえば、分類モデルでは、攻撃者がトレーニング データセット内の特定のサンプルのラベルを改ざんし、モデルのテスト フェーズでこれらのサンプルに対して攻撃者が指定したラベルを出力します。データの包括性、偏りのなさ、純粋さによって引き起こされるこのようなセキュリティの脅威は、モデルのトレーニング プロセスを本質的に破壊し、モデルが完全な意思決定と識別能力を学習することを不可能にします。したがって、このホワイトペーパーでは、このようなデータに起因する脅威も、モデルトレーニングの完全性に対する脅威として分類します。モデル学習の整合性を破壊する攻撃は主にデータポイズニング攻撃[1]であり、ポイズニングの手法と種類により、ポイズニング攻撃はさらに固定標的攻撃とバックドア攻撃に分類されます。次にポイズニング攻撃、標的型ポイズニング攻撃、バックドア攻撃について簡単に紹介します。

  • データポイズニング攻撃

データ ポイズニング攻撃とは、攻撃者が慎重に構築した少量のポイズニング データをモデルのトレーニング セットに追加し、テスト段階でモデルを使用できなくしたり、モデルの精度を損なうことなく攻撃者がモデルに侵入できるようにすることを意味します。前者はモデルの可用性を破壊します (標的のない攻撃です)。後者はモデルの完全性を破壊します (標的型攻撃です)。データポイズニング攻撃は、Dalvi らによって [1] で最初に提案され、スパム分類子の検出を回避するためにこの攻撃を使用しました。その後、関連研究者はベイジアン分類器 [40] やサポート ベクター マシン [41] などの機械学習モデルにデータ ポイズニング攻撃を次々と実装しました。完全性を破壊するポイズニング攻撃は高度に隠蔽されています。ポイズニングされたモデルはクリーンなデータに対しては通常の予測能力を示し、攻撃者が選択したターゲット データに対してのみ誤った結果を出力します。AI モデルに特定のデータに対して指定された誤った結果を出力させるこの種の攻撃は、多大な損害を引き起こし、一部の重要なシナリオでは重大なセキュリティ インシデントを引き起こす可能性があります。したがって、この部分が読者にインスピレーションを与えることを期待して、この記事ではポイズニング攻撃について詳細な分析と調査を行いました。攻撃者が汚染されたモデルをテストするときにターゲット データを変更するかどうかに応じて、このタイプの攻撃は、ターゲット固定攻撃とバックドア攻撃に分類できます。

標的固定攻撃は中毒攻撃の一種です。このタイプの攻撃では、攻撃者は注意深く構築されたポイズニングされたデータD p = ( X p , Y p ) をモデルの通常のトレーニング セットD c = ( X c , Y c ) に追加します。データx s は、通常のテスト セットでのモデルの精度に影響を与えることなく、ターゲット カテゴリy tに分類されます。ポイズニングデータDpを構築するプロセス、2レベルの最適化問題とみなすことができる。このうち、外層最適化により得られるポイズニングデータX p は次のように表されます。

このうち、Ladv は攻撃者の成功した攻撃の損失を表し、θ∗ はXc∪Xpで学習されたポイズニングモデルを表し、内層最適化によって得られたポイズニングモデルθ∗は次のように表されます。

目標勾配∇ X p L adv は、内部損失関数と外部損失関数によって同時に決定されることがわかります。AIモデルの目的関数は非凸関数であるため、前述の2レベル最適化問題を直接解くことはできません。

  • バックドア攻撃
  • このタイプの攻撃では、攻撃者は慎重に構築したポイズニングされたデータセットD p = ( X p , Y p ) をモデルの通常のトレーニング セットD c = ( X c , Y c ) に追加します。 add 攻撃者が選択したバックドアトリガー(Back door Trigger)のデータは、モデルの通常の性能に影響を与えることなく、攻撃者のターゲットカテゴリy tに分類されます。画像の分類を例に挙げると、攻撃者はテスト段階でバックドアトリガー Δ として元の画像x iに特定のパターンや妨害を追加します。

このうち⊙は 要素積、mは画像マスクを表します。mのサイズはxiおよび∆ と一致し、値 1 は画像ピクセルが位置 ∆ に対応するピクセルで置き換えられることを意味し、0 は対応する位置の画像ピクセルが変更されないことを意味します。攻撃者のバックドア攻撃のターゲットは次の式で表すことができます。

このうち、X はモデル入力空間内のすべてのデータを表し、θ ∗ はポイズニングされたデータトレーニングを使用して被害者が取得したモデルパラメーターを表し、トレーニングプロセスの目的関数は次のとおりです。

このうち、fはモデル構造、θはモデルパラメータ、は損失関数を表します。上式はマルチタスク学習(Multi-taskLearning)とみなすことができます。最初の項は、 D cに関連する通常のタスクでのモデルの損失関数を表し、2 番目の項は、攻撃者がモデルの追加トレーニングを希望するバックドア タスクでの損失関数を表し、D pに依存します。したがって、バックドア攻撃の鍵は、被害者のトレーニング バックドア タスクの後に目標を達成するために適切なD pを構築することです。

3.2.2モデルトレーニングの整合性の脅威

       モデルのテストフェーズとは、モデルのトレーニングが完了し、モデルのパラメーターがすべて固定され、モデルがテストサンプルを入力して予測結果を出力するプロセスを指します。一切の干渉がなければ、AI モデルの精度は人々の想像を超え、ImageNet の画像分類タスクでは人間の認識精度を上回りました。しかし、近年の研究では、モデルのテスト段階で、AI モデルがテスト サンプルに騙されて予測できない結果を出力したり、攻撃者によって操作されたりする可能性があることが示されています。AIモデルのテストフェーズの正確性を脅かすこのような問題を、テスト完全性の脅威として定義します。敵対的攻撃または回避攻撃 (敵対的攻撃または回避攻撃) は、モデル テストの整合性を破壊する典型的な脅威であり、この章では敵対的攻撃と回避攻撃に焦点を当てます。

  • 攻撃に対して
  •        敵対的攻撃とは、敵対的な例を使用してモデルを欺く悪意のある動作を指します。敵対的な例とは、データセットに微妙な乱れを意図的に追加することによって形成された悪意のある入力サンプルを指します。これにより、人々の注意を引くことなく、機械学習モデルが誤った予測を出力する可能性が容易になります。誤った判断には、単にモデルの決定に誤りを引き起こす非標的型攻撃と、方向性の決定を導くために攻撃者によって操作される標的型攻撃の両方が含まれます。敵対的攻撃は、Szegedy らによって最初に提案されました。最も基本的な画像分類タスクでは、彼らは分類された画像のピクセルに小さな摂動を追加しました。これにより、分類モデルの精度が大幅に低下しました。同時に、敵対的サンプルは、作者による変更は気付かれないことがよくあります。この種の脅威は、AI 技術応用のさまざまな分野に広く存在する AI モデルのアルゴリズム自体の欠陥に起因しており、攻撃者によって悪用されると、重大なセキュリティ上の危険を引き起こします。たとえば、自動運転では、交通標識の誤認識により、無人車両が誤った判断を下し、安全事故が発生します。敵対的な例の発見は、特にセキュリティ要件が厳しい分野において、AI テクノロジーの広範な適用と開発を著しく妨げます。そのため、近年、敵対的攻撃とその防御技術はますます注目を集め、研究のホットスポットとなっており、数多くの学術研究成果が発表されています。
  • 敵対的攻撃の原則と脅威モデル

敵対的攻撃の基本原理は、
通常のサンプルに特定の摂動を加えてモデルの判断を誤らせることです。最も基本的な画像分類タスクを例にとると、攻撃者はデータ{ x i , y i } Ni =1 を持っています。ここで、x i はデータセット内のサンプル、つまり画像を表し、y iはそれに対応します。正しいカテゴリ、Nはデータセットのサンプルサイズです。分類対象モデルをf ( . ) とすると、f ( x ) はサンプルxをモデルに入力して得られる分類結果を表します。攻撃者は、敵対的攻撃の方法を使用して、通常のサンプルxを変更し、対応する敵対的サンプルx 'を取得します。敵対的サンプルはモデルの誤った判断を引き起こす可能性があり、同時に元のサンプルに近く、同じ意味情報であり、一般的な定義は次のとおりです。

  このうち、∥.∥ D は、敵対的なサンプルと元のサンプルの間の一定の距離の尺度を表します。改変されたサンプルが人間の知覚を引き起こさずに意味情報を維持できるようにするには、両者の間の距離が十分に小さく、かつ同時になければなりません。エラーが発生した場合、分類結果は正しいカテゴリと異なり、ϵは敵対的サンプルと元のサンプルの間に設定された最大距離であり、その値は多くの場合、特定のアプリケーション シナリオに関連します。

敵対的攻撃は、攻撃の意図に応じて、標的型攻撃と非標的型攻撃に分けられます。上記の一般的な定義は、非標的型攻撃に属します。つまり、変更されたサンプルは、分類ラベルを元のラベルと異なるものにするためにエラーを引き起こすだけで済みます。標的型攻撃とは、攻撃者が必要に応じてサンプルを変更することを指します。モデルの分類結果は指定されたクラスtとなり、次のように定義されます。

攻撃者が入手できる情報に応じて、敵対的攻撃はブラックボックス攻撃とホワイトボックス攻撃に分類できます。ブラックボックス攻撃とは、攻撃者がターゲットモデルの構造やパラメータを知らずに攻撃するが、攻撃者がモデルに特定の入力を問い合わせて予測結果を取得できることを意味し、ホワイトボックス攻撃とは、攻撃者がターゲットモデルf θを取得できることを意味します。( . )。ここで、θ はモデルの特定のパラメーターを表し、標的型攻撃アルゴリズムの実装に使用されます。一般に、ホワイトボックス攻撃はモデルに関する情報をより多く取得できるため、ブラックボックス攻撃に比べて攻撃性能が大幅に強力になります。上記では、主な攻撃対象と攻撃設定について簡単に紹介しましたが、さまざまな攻撃は設定によって異なる特性を持ちます。主流の攻撃手法は、妨害ベースの敵対的攻撃と無制限の敵対的攻撃に分類できます。

  • 摂動ベースの敵対的攻撃

元の敵対的攻撃アルゴリズムは主に摂動敵対的攻撃に基づいており、このタイプの攻撃は画像分類タスクで広く研究されており、最も重要なタイプの攻撃でもあります。このタイプの攻撃の主なアイデアは、入力サンプルに小さな摂動を追加し、AI モデルの出力の誤った判断を引き起こすことです。画像分類タスクを例にとると、攻撃者は入力画像のピクセルにわずかな摂動を追加して、人間にとって敵対的な例がノイズの多い画像のように見えるようにすることができます。攻撃の隠蔽を考慮して、攻撃者は人間による検出を避けるためにこれらの摂動のサイズを制限します。既存の研究では通常、摂動pの標準サイズに基づいてサンプル間の距離を測定します。

このうちx i 、 x ' i はそれぞれ通常サンプルと敵対サンプルのi番目の特徴を指し、画像タスクでは対応する位置のピクセル値になります。現在の敵対的攻撃アルゴリズムの主なアイデアは、敵対的サンプルを生成するプロセスを最適化問題の解決策とみなすことです。次に、最初にいくつかのホワイトボックス敵対的攻撃アルゴリズムを紹介し、次に防御技術のためのいくつかの攻撃強化アルゴリズムを紹介し、最後にブラックボックス モデルのいくつかの攻撃方法を示します。

  • 偽造攻撃

偽造攻撃は、本人確認を通過させるために生体認証システムに偽造情報を送信する攻撃手法であり [32]、AI テストの完全性に対する脅威です。生体認証技術には、指紋認証、顔認証、音声認証、目の認証、手のひら認証などが含まれます。声紋コア本体を例に挙げると、攻撃者は声紋認識システム、声紋支払いシステム、声紋ロック解除システムを偽造して攻撃するためのさまざまな方法を持っています。たとえば、攻撃者は、事前に録音された、または人工的に合成されたロック解除音声を声紋ロック解除システムに再生して、検証に合格します。このタイプの音声偽造攻撃では、攻撃者は、携帯電話などのデジタル機器を介してターゲット人物のロック解除音声を直接録音したり、ソーシャルネットワークを通じてターゲットアカウントを取得してロック解除音声を入手したりすることができます。さらに、攻撃者は、ターゲット人物の複数の音声からロック解除音声を切り取って合成したり、深層音声合成技術によってターゲット人物のロック解除音声を合成したりすることもできます。

3.2 AIデータとプライバシーのセキュリティ問題

AI技術の使用中に生成されるモデルの勾配更新、出力特徴ベクトル、予測結果は入力データやモデル構造と密接に関連しているため、AIモデルによって生成される計算情報は潜在的なプライバシーデータ漏洩やモデルパラメータ漏洩に直面しています。リスク。

3.2.1    モデル出力に基づくデータ漏洩

AIモデルのテストフェーズでは、AIモデルのパラメータを固定し、テストデータをモデルに入力して特徴ベクトルや予測結果などを出力します。例: 画像分類タスクでは、モデルの出力には、畳み込み層によって出力される特徴ベクトル、ソフトマックス層によって出力される予測確率ベクトルなどが含まれます。近年の研究結果では、モデルの出力が特定のデータ情報を暗示することが示されています。攻撃者はモデルの出力を使用して関連データをある程度盗むことができ、主に 2 種類のデータ情報が盗まれます: 1) モデル自体のパラメータ データ、2) トレーニング/テスト データ。

  • モデル盗用

モデル抽出攻撃 (ModelExtraction Attack) は、プライバシー データ窃取攻撃の一種で、攻撃者はブラック ボックス モデルにクエリを実行して対応する結果を取得し、ブラック ボックス モデルのパラメータや対応する関数を盗みます。盗難されたモデルは、所有者が多額の資金と時間をかけて製作したものであることが多く、所有者にとって大きな商品価値を持っています。モデルの情報が漏洩すると、攻撃者は支払いを回避したり、サードパーティのサービスを利用して商業的利益を得たり、モデル所有者の権利や利益を損なったりする可能性があります。モデルが盗まれた場合、攻撃者はオンライン モデルを欺くためにさらにホワイトボックス攻撃を展開する可能性があり、このときモデルの漏洩は攻撃の成功率を大幅に高め、重大なセキュリティ リスクを引き起こします。

現在、ほとんどの AI テクノロジー プロバイダーは AI アプリケーションをクラウド サーバーに展開し、API を通じてクライアントに有料のクエリ サービスを提供しています。お客様は、定義された API を介してモデルにクエリ サンプルを入力するだけで、モデルからサンプルの予測結果を取得できます。ただし、攻撃者が API インターフェイスを介してリクエスト データを入力し、出力された予測結果を取得することしかできない場合でも、特定の状況下ではインターフェイスにクエリを実行することで、サーバーのモデル構造とパラメータを盗むこともできます。モデル窃盗攻撃は主に 3 つのカテゴリに分類できます: 1) 方程式を解く攻撃、2) メタモデルに基づくモデル窃盗、3) 代替モデルに基づくモデル窃盗。

方程式解決攻撃は、サポート ベクター マシン (SVM) などの従来の機械学習手法を主にターゲットとしたモデル窃取攻撃の一種です。攻撃者はまずアルゴリズムやモデルの構造などの関連情報を取得し、クエリで返された結果に従ってモデル パラメーターを解くための数式を構築します [7]。これに基づいて、損失関数 [73] の損失項目と正則化項目の重みパラメータ、KNN の K 値など、従来のアルゴリズムのハイパーパラメータも盗むことができます。方程式解決攻撃では、攻撃者はターゲット アルゴリズムの種類、構造、トレーニング データ セット、その他の情報を理解する必要がありますが、複雑なニューラル ネットワーク モデルには適用できません。

メタモデルのモデルスチールに基づく主なアイデアは、追加のメタモデルΦ(・)をトレーニングすることによって、ターゲットモデルの指定された属性情報を予測することです。メタモデルの入力サンプルは、タスクデータ x に対する予測モデルの出力結果 f (x) であり、出力内容 Φ(f (x)) は、予測対象モデルの関連属性 (モデルの数など) です。ネットワーク層、アクティベーション関数のタイプなど。したがって、メタ モデルをトレーニングするには、攻撃者はターゲット モデルと同じ機能を持つさまざまなモデル fi(・) を収集し、対応するデータ セットでの出力を取得し、メタ モデルのトレーニング セットを構築する必要があります。モデル。ただし、メタ モデルのトレーニング セットを構築するには、タスクに関連したさまざまなモデルが必要であり、大量のコンピューティング リソースが必要となるため、このタイプの攻撃はあまり現実的ではなく、著者は MNIST 数字認識タスクで実験を行っただけです [34]。

代替モデルベースのトレーニングは、現在、より実用的なタイプのモデル窃盗攻撃です。攻撃者は、ターゲット モデルの構造を知らずにターゲット モデルにサンプルのクエリを実行し、ターゲット モデルの予測結果を取得し、これらの予測結果を使用してクエリ データをマークしてトレーニング データ セットを構築し、代替モデルをローカルでトレーニングします。ターゲット モデルと同じタスクを実行し、大量のトレーニングを行った後、モデルはターゲット モデルと同様のプロパティを持ちます。一般に、攻撃者は代替モデル構造として、VGG、ResNet、および適合度の高いその他の深層学習モデルを選択します [35]。代替モデルに基づく盗用攻撃と方程式解決攻撃の違いは、攻撃者はターゲット モデルの具体的な構造を知らないこと、および代替モデルのトレーニングはターゲット モデルの特定のパラメータを取得することではないことです。ただし、ターゲット モデルの関数に適合するように代替モデルを使用します。ターゲットモデルの機能に適合させるために、置換モデルはターゲットモデルから大量のサンプルをクエリしてトレーニングデータセットを構築する必要がありますが、攻撃者は十分な関連データを欠いていることが多く、異常に大規模なクエリが増加するだけでなく、盗むコストはかかりますが、悪用される可能性が高くなります。モデルの所有者が検出されます。上記の問題を解決し、ターゲット モデルに対するクエリが多すぎることを回避し、トレーニング プロセスをより効率的にするために、研究者らはクエリのデータ セットを強化して、これらのデータ サンプルがターゲットの特性をよりよく捕捉できるようにすることを提案しました。モデル [8]、たとえば、サロゲート モデルは、トレーニング セットを拡張するために、対応する敵対的サンプルを生成するために使用されます。研究によると、敵対的サンプルはモデルの決定境界上に位置することが多く、これによりサロゲート モデルのシミュレーションが向上します。ターゲットモデルの意思決定動作 [54、74]。データ強化に加えて、ターゲット モデル タスクに無関係な他のデータを使用してデータ セットを構築することでも、かなりの攻撃効果を達成できることがいくつかの研究で示されています。これらの研究は、タスク関連データと無関係なデータを選択して組み合わせる戦略も提供します。 75、35] 。

  • プライバシー侵害

機械学習モデルの予測結果には、サンプルに関する多くの推論情報が含まれることがよくあります。異なる学習タスクでは、これらの予測結果には異なる意味が含まれることがよくあります。たとえば、画像分類タスクでは、モデルの出力はベクトルであり、各ベクトル成分はテスト サンプルがそのタイプである確率を表します。最近の発見は、これらのブラック ボックスの出力を使用してモデルのトレーニング データから情報を盗むことができることを示しています。たとえば、Fredrikson らによって提案されたモデル反転攻撃 [6] では、ブラック ボックス モデルの出力の信頼ベクトルなどの情報を使用して、トレーニング セット内のデータを復元できます。彼らは、ソフトマックス回帰、多層パーセプトロン、オートエンコーダー ネットワークなど、一般的に使用される顔認識モデルに対してモデル反転攻撃を実行します。彼らは、モデルによって出力された信頼ベクトルには入力データの情報が含まれており、入力データ回復攻撃の尺度としても使用できると考えています。彼らは、モデルの逆攻撃問題を最適化問題に変換しました。最適化の目標は、逆データの出力ベクトルとターゲットの出力ベクトルの差をできるだけ小さくすることです。つまり、攻撃者が次の出力ベクトルを取得した場合に、勾配降下法を使用して、反転したデータをターゲット モデルの推論に通すことができ、同じ出力ベクトルを取得することができます。

メンバーシップ推論攻撃 (Membership-Inference Attack) は、攻撃者がターゲット モデルのトレーニング データ セットにテスト対象のサンプルが存在するかどうかを推測して、テストされるサンプルのメンバーシップ情報。たとえば、攻撃者は、企業の医療診断モデルの学習データセットに個人のデータが存在するかどうかを知りたいと考えており、存在する場合には、その個人の個人情報を推測することができます。ターゲット モデルのトレーニング セット内のデータをメンバー データと呼び、トレーニング セットにないデータを非メンバー データと呼びます。同時に、攻撃者がターゲットモデルを把握することは不可能な場合が多いため、攻撃者はブラックボックスシナリオでのみメンバーシップ推論攻撃を実装できます。メンバー推論攻撃は、過去 2 年間で新たな研究テーマとなっており、この攻撃は医療診断や遺伝子検査などのアプリケーション シナリオで使用される可能性があり、ユーザーの個人データに対する課題を引き起こします。この攻撃テクノロジーとそれに関連する防御のテクノロジーに関する議論も、新たな研究のホットスポットとなっています。

3.2.2勾配更新に基づくデータ漏洩

勾配更新とは、モデルがパラメーターを最適化するときに、計算された勾配、つまりトレーニング中に継続的に生成される勾配情報に従ってモデル パラメーターが更新されることを意味します。勾配更新の交換は、多くの場合、分散モデル トレーニングでのみ発生します。異なるプライベート データを持つ複数の被験者は、各ラウンドでモデルを更新するために自分のデータのみを使用し、モデル パラメーターの更新を集約して、統合モデルのトレーニングを完了します。このプロセスでは、中央サーバーと各参加サブジェクトは他のサブジェクトのデータ情報を取得しません。ただし、元データが十分に保護されていたとしても、参加者の個人データが漏洩する可能性は依然としてあります。

モデルの勾配の更新はプライバシーの漏洩につながります。モデルはトレーニング プロセス中の元のデータの漏洩を防ぐために多くの方法を使用していますが、マルチパーティの分散型 AI モデルのトレーニングでは、個人が自分のデータを使用して現在のモデルをトレーニングすることがよくあります。モデルのパラメータを他の個人または中央サーバーに更新します。機械学習と情報セキュリティに関する最近の国際会議で、研究者らは、モデルパラメータの更新を利用して他人のトレーニングデータに関する情報を入手するいくつかの攻撃研究を発表しました。Melis ら [36] は、トレーニング プロセス中に他のユーザーによって更新されたモデル パラメーターを入力特徴として使用し、他のユーザー データ セットの関連属性を推論する攻撃モデルをトレーニングしました。[37、38] らは、敵対的生成ネットワークを使用して他のユーザーを生成および復元する マルチパーティの協調トレーニング プロセスでは、パブリック モデルが識別器として使用され、モデル パラメーターの更新がジェネレーターをトレーニングするための入力データとして使用され、最後に特定のカテゴリのトレーニング データが使用されます。被害者の情報が入手できます。最近の研究 [39] では、研究者らは GAN やその他の生成モデルを使用せず、最適化アルゴリズムに基づいてシミュレートされた画像のピクセルを調整し、公開モデル上で逆伝播することによって得られる勾配が実際の勾配に類似するようにしました。 、複数回の最適化ラウンドの後、シミュレーション画像は徐々に実際のトレーニング データに近づきます。

3.3 AIシステムのセキュリティ問題

AI システムのセキュリティ問題は、従来のコンピュータ セキュリティ領域の問題と似ており、AI テクノロジの機密性、完全性、可用性を脅かしています。AI システムのセキュリティ問題は主に 2 つのカテゴリに分類されます。 1) ハードウェア機器のセキュリティ問題。主に、チップや記憶媒体など、データの収集と保存、情報処理、アプリケーションの操作に関連するコンピュータ ハードウェア機器が攻撃者によって攻撃され、クラッキングされることを指します。 ; 2) システムおよびソフトウェアのセキュリティ問題とは、主に、テクノロジーを搭載したオペレーティング システム、ソフトウェア フレームワーク、サードパーティ ライブラリなど、AI テクノロジーを搭載したさまざまなコンピューター ソフトウェアの抜け穴や欠陥を指します。

3.3.1    ハードウェアデバイスのセキュリティ問題

ハードウェア機器のセキュリティ問題とは、AI テクノロジーで使用される基本的な物理機器に対する悪意のある攻撃によって引き起こされるセキュリティ問題を指します。物理機器は、中央コンピューティング機器、データ収集機器、その他のインフラストラクチャを含む、AI テクノロジー構築の基盤です。攻撃者が対応するハードウェア デバイスに直接アクセスできるようになると、データを偽造したり盗んだりして、システム全体の整合性が損なわれる可能性があります。例: データ収集デバイスを乗っ取ることで、攻撃者は root などの方法で携帯電話のカメラの制御権限を取得し、携帯電話のアプリケーションがカメラを呼び出すと、攻撃者は関連するアプリケーションに偽の写真やビデオを直接挿入することができます。本物の画像ではないため、人工知能システムがだまされる; サイドチャネル攻撃とは、暗号化されたデバイスの動作中に消費時間、消費電力、電磁放射などのサイドチャネル情報が漏洩することを目的とした暗号化デバイスに対する攻撃を指します。電子デバイス手法を利用して、この攻撃を使用してサーバー上で実行されている AI モデルの情報を盗むことができます [54]。

3.3.2    システムおよびソフトウェアのセキュリティ問題

システムおよびソフトウェアのセキュリティ問題とは、AI アプリケーションを運ぶさまざまなシステム ソフトウェアの脆弱性によって引き起こされるセキュリティ問題を指します。アルゴリズムと AI テクノロジーの実装の間には距離があり、アルゴリズム レベルでは、開発者はモデル自体のパフォーマンスと堅牢性を向上させる方法により注意を払っています。しかし、アルゴリズムが強力だからといって、AI アプリケーションが安全であるとは限りません。AI アプリケーションのプロセスでは、ソフトウェア レベルでのセキュリティの脆弱性の脅威にも直面します。これらの脆弱性を無視すると、重要なデータの改ざんにつながる可能性があります。 、モデルの判断ミス、システムのクラッシュまたはブロック、制御フローのハイジャックなどの重大な結果。

機械学習フレームワークを例に挙げると、開発者は Tensorflow や PyTorch などの機械学習ソフトウェア フレームワークを通じて AI モデルを直接構築し、AI モデルの実装の詳細を気にすることなく、対応するインターフェイスを使用してモデルに対してさまざまな操作を実行できます。ただし、機械学習フレームワークには、AI テクノロジ実装の基礎となる複雑な構造が隠されていることを無視することはできません。機械学習フレームワークは、Tensorflow、Caffe、PyTorch などの多くの基本ライブラリとコンポーネントに基づいて構築されており、その他のフレームは Numpy に依存する必要があります。 libopencv、librosa、および多数のサードパーティの動的ライブラリまたは Python モジュール。これらのコンポーネント間には複雑な依存関係があります。フレームワーク内の依存コンポーネントにセキュリティ ホールがあると、フレームワーク全体とそれがサポートするアプリケーション システムが脅かされます。

研究によると、これらのディープ ラーニング フレームワークとその依存ライブラリのソフトウェア脆弱性には、ヒープ オーバーフロー、オブジェクト解放後の参照、境界外のメモリ アクセス、整数オーバーフロー、ゼロ除算、その他の脆弱性など、ほぼすべての一般的なタイプが含まれています。危険性 ディープ ラーニング アプリケーションが、サービス拒否、制御フロー ハイジャック、データ改ざんなどの悪意のある攻撃の影響を受ける可能性があります [15]。例: 360 Team SeriOus チームは、Numpy ライブラリのモジュールが入力を厳密にチェックしていないため、特定の入力サンプルによってプログラムが空のリストを使用し、最終的にプログラムが無限大に陥ることを発見しました。ループが発生し、サービス拒否問題が発生します。Caffe が画像認識処理に依存している libjasper ビジョン ライブラリを使用する場合、一部の不正な画像入力によりメモリの範囲外が発生し、プログラムのクラッシュや重要なデータ (パラメータ、ラベルなど) の改ざんが発生する可能性があります [82] 。また、GPU デバイスのセキュリティ保護対策が不足しているため、ビデオ メモリおよび GPU にデータをコピーする際に範囲外チェックが実行されず、メモリ オーバーフローの危険性がある可能性があります [83]。

4. AI 脅威に対する一般的な防御技術

AI モデル、AI データ、AI ベアリング システムが直面する脅威を体系的にまとめています。AI モデルに対する脅威には、トレーニング段階でのポイズニングやバックドア攻撃、テスト段階での敵対的攻撃、AI モデル自体の堅牢性の欠如が含まれます。AI データに対する脅威には、モデルのクエリ結果を使用したモデルのリバース攻撃、メンバーが含まれます。推論攻撃とモデル盗用攻撃、トレーニング段階でのモデルパラメータ更新を使用したトレーニングデータ盗用攻撃、AI 搭載システムに対する脅威には、ソフトウェアの脆弱性の脅威やハードウェアデバイスのセキュリティ問題などが含まれます。

AI モデルのトレーニング段階における主な脅威は、モデルの整合性を非常に密かに破壊する可能性があるデータ ポイズニング攻撃です。近年、研究者たちはデータポイズニング攻撃に対するさまざまな防御方法を提案しています。従来の意味での標的型データポイズニング攻撃はバックドア攻撃の特殊なケースとみなすことができるため、以降の章では主にバックドア攻撃に対する防御方法について詳しく説明します。防御技術の導入シナリオに応じて、これらの手法は 2 つのカテゴリ、つまりトレーニング データ指向の防御とモデル指向の防御に分類できます。トレーニング データ指向の防御はモデルのトレーニング データ セットに展開され、トレーニング データのソースが信頼できないシナリオに適しています。モデル指向の防御は主に、トレーニング前のモデルが汚染されているかどうかを検出するために使用されます。ポイズニングされている場合は、ポイズニングされたモデルの修復を試みます。これは、モデルにポイズニング攻撃がすでに存在する可能性があるシナリオに適しています。

予測段階における AI モデルに対する主な脅威は、敵対的なサンプル攻撃です。近年、研究者らは、敵対的防御(Adversarial Defense)と呼ばれる、敵対的防御手法のさまざまな例を提案しています。敵対的防御は、ヒューリスティック防御と証明可能な防御に分類できます。ヒューリスティック防御アルゴリズムは、一部の特定の対立攻撃に対しては良好な防御性能を持っていますが、その防御性能は理論的に保証されておらず、将来的に破られる可能性があります。証明可能な防御では、理論的な証明を使用して、特定の敵対的な攻撃の下でのモデルの最小精度を計算します。つまり、攻撃に直面した場合のモデルのパフォーマンスの下限を理論的に保証します。ただし、現在の証明可能な防御方法は大規模なデータセットに適用するのが難しいため、次の章でモデルのセキュリティ テストの一部として説明します。このセクションでは、主にいくつかの代表的なヒューリスティック防御技術について説明します。これらは、防御アルゴリズムのさまざまな目的に応じて、対決トレーニング、入力前処理、および特定の防御アルゴリズムの 3 つのカテゴリに分類されます。敵対的トレーニングは、敵対的サンプルをトレーニング フェーズに組み込むことで、ディープ ラーニング ネットワークが敵対的サンプルに対して積極的に防御する能力を向上させます。入力前処理テクノロジは、入力データを適切に前処理することで入力データ内の潜在的な敵対的妨害を排除し、それによって入力データ関数を純化します。他の特定の防御アルゴリズムは、既存のネットワーク構造またはアルゴリズムを変更することで攻撃から防御するという目的を達成します。

トレーニングと予測の段階での脅威に加えて、AI モデルの堅牢性が欠如するリスクもあります。ロバスト性の欠如とは、実際のシーンの変化に直面したときのモデルの一般化能力が限られていることを指し、これがモデルの予測できない誤った判断の動作につながります。AI モデルの堅牢性を強化し、モデルの一般化能力を向上させ、モデルが現実のシナリオで変動する環境要因に応答するときのモデルの安定性を高めるために、研究者はデータ強化および解釈可能性強化テクノロジーを提案しました。データ拡張テクノロジーの目標は、データの収集を強化し、トレーニング データ内の環境要因の多様性を強化して、モデルが実際のさまざまなシナリオでできるだけ多くのサンプルの特性を学習できるようにすることで、モデルの適応性を高めることです。変化する環境への対応、解釈可能性の向上 テクノロジーの目標は、モデルがどのように意思決定を行うか、およびモデルのパフォーマンスが向上する理由を説明することです。上記の質問にうまく答えることができれば、AI モデルの構築中に解釈可能性のガイダンスに従って、対象を絞った方法でモデルを調整することができ、それによって汎化能力が強化されます。

表 4.1: 防御方法の概要

脅威の種類

防御タイプ

防御方法

特定の攻撃

スペクトル分析

ラベルフリップアタック

トレーニングデータに対する防御

活性化値クラスタリング

ラベルフリップアタック

強い外乱入力

従来のバックドア攻撃

データポイズニングの脅威

ネットワークの調整

従来のバックドア攻撃

モデル指向の防御

バックドアリバース手法

モード接続

パターントリガーに基づいた攻撃

従来のバックドア攻撃

ULP

従来のバックドア攻撃

FGSM 敵対的トレーニング

攻撃に対する FGSM

PGD​​対決トレーニング

従来の敵対的攻撃

対決訓練

統合対決訓練

ブラックボックス敵対的攻撃

トレーニングに対するロジッツ

従来の敵対的攻撃

カウンターサンプルの脅威

敵対的生成トレーニング

従来の敵対的攻撃

入力前処理防御

入力変換方式

入力のサニタイズ

グレーボックス、ブラックボックス攻撃

グレーボックス、ブラックボックス攻撃

防御蒸留

攻撃に対する FGSM

特定の防御アルゴリズム

機能の枝刈り

ブラックボックス攻撃と従来の攻撃

ランダムアルゴリズム

ブラックボックス攻撃と従来の攻撃

モデル構造の防御

モデルの一般化

目的最適化手法

モデル盗用、メンバーシップ推論攻撃

メンバーシップ推論攻撃

切り捨てられた難読化

モデル盗用、メンバーシップ推論攻撃

データプライバシーの脅威

情報難読化防御

ノイズ難読化

メンバーシップ推論攻撃

クエリ制御防御

サンプル特徴検出

ユーザーの行動の検出

モデル盗用、メンバーシップ推論攻撃

メンバーシップ推論攻撃

 5. AI応用システムのワンストップセキュリティソリューション

AI テクノロジーはすでに多くのビジネス システムの中核的な原動力となっています。たとえば、Apple Siri と Microsoft Xiaoice はすべてインテリジェントな音声認識モデルに依存しており、Google フォトは画像認識テクノロジーを使用して、画像内の人物、動物、風景、場所を迅速に識別します。しかし、書籍「人工知能のセキュリティ」[149] で述べられているように、新しい技術は必然的に新たなセキュリティ上の問題を引き起こす一方、それ自体の脆弱性により新しい技術システムが不安定または安全ではなくなる可能性があります。 、一方で、新しい技術は他の領域に新しい問題をもたらし、他の領域の安全保障の不安につながりますが、これは新しい技術の派生的な安全保障問題です。近年、テンセントがテスラの自動操縦システムを破ったり、百度がパブリッククラウド上の画像認識システムを破ったり、フェイスブックやグーグルが反ディープフェイクの波を起こすなど、学界や産業界が相次ぎAI応用システムを攻撃している。

この記事の第 3 章では、敵対的サンプル攻撃、ポイズニング攻撃、サプライ チェーン攻撃など、AI システムが直面する可能性のあるさまざまな脅威を紹介するとともに、第 4 章では、さまざまな AI の脅威に対する防御技術についても説明します。ただし、実際のシナリオでは、AI システムが遭遇する脅威は非常に複雑であることが多く、単一の防御テクノロジーだけでは実際の脅威を効果的に防御することはできません。そこで本章では、まず国内外の大手メーカーが採用しているAIセキュリティソリューションを概観し、その中からよりカバー範囲の広いAIセキュリティソリューション群を抽出します。

5.1業界の紹介

•Baidu: Baidu は、中国で AI モデルのセキュリティを最も早く研究した企業の 1 つです。現在、Baidu は、物理世界におけるディープ ニューラル ネットワークの堅牢性を測定するための標準化されたフレームワークを確立しています。実際、物理世界で使用されるモデルは、人々の基本的な生活必需品 (無人自動運転、自動医療診断など) に関連することが多く、これらのモデルが一度誤ると、その影響は非常に深刻になります。したがって、このフレームワークでは、まず、現実世界の通常の外乱に基づいて脅威となる可能性のある 5 つの主要なセキュリティ属性、つまり照明、空間変換、ぼやけ、ノイズ、天候変化を定義し、次に、さまざまなモデル タスク シナリオに対してさまざまな評価基準を策定します。無指向性分類エラー、評価者が設定したカテゴリへのターゲット カテゴリの誤分類など; 最後に、さまざまなセキュリティ属性の摂動の脅威に対して、フレームワークは画像フィールドの最小摂動の広く受け入れられている Lp ノルムを使用して、脅威の重大度を定量化し、堅牢性をモデル化します。

• Tencent. Tencent は、AI ソフトウェアとハ​​ードウェアのセキュリティ、AI アルゴリズムのセキュリティ、モデルのセキュリティ、AI データのセキュリティ、データ プライバシーなど、AI 実装の過程で直面するさまざまなセキュリティ問題を詳細に分類しました。ソフトウェアとハ​​ードウェアのセキュリティでは、メモリ オーバーフロー、カメラ ハイジャックなど、展開された AI モデルのソフトウェア層とハードウェア層で考えられるセキュリティの抜け穴が主に考慮され、AI アルゴリズムのセキュリティでは、主に深層学習における敵対的サンプルの問題が考慮されます。これは、誤った予測結果が発生する傾向があります; モデル自体のセキュリティには、モデルの盗用が含まれます. この問題を実装するには、現在多くの方法があります. 一般的な方法は、ダウンロードされたモデルに直接物理的に接触し、モデルのパラメータを逆に取得し、複数のクエリを介してモデルを「シャドウ」して同等の窃取を実現します。さらに、モデルのトレーニング データも汚染され、オープンソースの事前トレーニング モデルがバックドアに悪意を持って埋め込まれる可能性があります。これらの問題はデータ セキュリティとして分類されます。 AI モデルの問題、プライバシーのため、攻撃者はクエリを通じてユーザーのプライバシーを取得する可能性もあります。これらの問題を軽減するために、Tencent のセキュリティ チームは AI 機能を使用して、対象を絞った方法でさまざまな攻撃検出テクノロジーを構築しました。

• ファーウェイ:ファーウェイは、AI のセキュリティ問題についても徹底的な研究を行っており、AI システムが直面する課題を、ハードウェアとソフトウェアのセキュリティ、データの完全性、モデルの機密性、モデルの堅牢性、データ プライバシーの 5 つの部分に分けています。その中で、ソフトウェアとハ​​ードウェアのセキュリティには、アプリケーション、モデル、プラットフォーム、チップ、およびコードにおける潜在的な抜け穴またはバックドアが含まれ、データの完全性には主にさまざまなデータポイズニング攻撃が含まれ、モデルの機密性には主にモデルの盗難の問題が含まれ、ロバストネスは、カバー範囲が十分であるとみなします。モデルを訓練する際のサンプル数が不十分であることが多く、そのためモデルが堅牢ではないと同時に、モデルが悪意のある敵対的サンプル攻撃に直面した場合、正しい判断結果を与えることができず、このシナリオでは攻撃者がユーザーの個人情報を取得する可能性があります。トレーニングされたモデルを繰り返しクエリすることによって。

これらの課題に対処するために、ファーウェイは主に攻撃的セキュリティと防御的セキュリティ、モデル的セキュリティ、アーキテクチャ的セキュリティの 3 つのレベルの防御方法を検討しています。その中で、攻撃的セキュリティと防御的セキュリティでは、既知の攻撃手法を考慮し、AI システムを保護するための標的を絞った防御メカニズムを設計します。古典的な防御テクノロジには、敵対的トレーニング、知識の蒸留、敵対的サンプルの検出、トレーニング データのフィルタリング、統合モデル、モデルの枝刈りが含まれます。モデル自体のセキュリティ問題については、モデルの検出可能性、検証可能性、説明可能性などの技術により、未知の攻撃へのモデルの対処能力が向上すると考えられます。実際にAIモデルをビジネスで活用するには、ビジネス自体の特性に基づいてAIモデルのアーキテクチャの安全性を分析・判断し、分離、検知、融合、統合などのセキュリティメカニズムを総合的に利用する必要があります。 AI セキュリティ アーキテクチャと導入計画を設計し、ビジネス製品、ビジネス プロセス、ビジネス機能の堅牢性を強化するための冗長性。

• RealAI: RealAI は、AI の信頼性、信頼性、セキュリティを根本的に強化することに重点を置いたスタートアップです。同社は、ブラック ボックスおよびホワイト ボックス手法を通じてターゲット モデルに対して敵対的サンプル攻撃を実行し、検出器とノイズ除去器を通じてモデル AI ファイアウォールを構築しています。さらに、モデルの盗難やバックドア検出などの問題も考慮しています。

5.2多次元対立とAI SDL

AIシステムの防御と攻撃者の攻撃は攻防の対立の進化過程であり、攻撃者はAIシステムの防御を突破するために攻撃方法を常に更新します。例えば、ブラック産業に代表される攻撃者は、今後もAIシステムの抜け穴を発見し、新たな攻撃ツールを開発し、AIシステムを突破するための攻撃コストを削減し、高い経済的利益を得るでしょう。

実際のシナリオでは、ますます不安になる攻撃者との対決戦に多角的にアプローチする必要があります。非常に効果的な戦略は、自分自身と敵を知ることです。敵を知るには、防御の観点から開始し、常に相手の動きを追跡し、さまざまな攻撃行動を監視する戦略モデルを展開します。この種のテクノロジーをマルチと呼びます。 AI システムの脆弱性を評価し、リアルタイムに検出し、攻撃対象領域とリスク サーフェスを削減するための修復を行うという観点から、この種の技術を AI モデル セキュリティ開発ライフサイクル (AISDL) と呼びます。 、これもアプリケーション セキュリティの概念の分野における SDL に基づいています。

  • 多次元的な対立
  • 多次元対立の中核概念は、攻撃と防御のリンク (詳細なデータ) を分割し、マシン インテリジェンスと専門家インテリジェンスを完全に統合し、脅威インテリジェンスと組み合わせて、受動的な防御を能動的な攻撃と防御に変えることです。相手がまだ試行段階にある段階で異常行為を検知し、信頼度ランキングやギャングマイニングを通じて試行・定性・処分を行う組織的な防御システムです。
  • AI モデル セキュリティ開発ライフサイクル (AI SDL)

AI SDL は、セキュリティの観点から AI モデル開発プロセスをガイドする管理モデルです。AI SDL は、AI モデル開発のすべての段階でセキュリティとプライバシーの原則を導入するセキュリティ保証プロセスです。具体的には、AI モデルのライフサイクルには、モデル設計、データとトレーニング前のモデルの準備、モデルの開発とトレーニング、モデルの検証とテスト、モデルの展開とオンライン、モデルのパフォーマンスの監視、モデルのオフラインの 7 つのプロセスが含まれます。AI SDL は、7 つのモデル開発プロセスを安全にガイドすることで、ライフサイクル全体におけるモデルのセキュリティを保証します。

   

6. まとめと展望

人工知能技術は、生物学的核体、自動運転、音声認識、自然言語処理、ゲームなどのさまざまなシナリオで広く使用されています。人工知能技術が従来の産業のインテリジェントな変革を加速させる一方で、そのセキュリティ問題もますます注目を集めています。この論文は、人工知能のセキュリティ問題に焦点を当て、AI モデル、AI データ、AI ベアリングシステムの 3 つの観点から人工知能テクノロジーが直面する脅威を体系的にまとめ、これらの脅威に対抗するための防御方法を紹介し、業界にワンストップのソリューションを提供します。安全な人工知能アプリケーション。

人工知能アプリケーションは、実際の展開中に、敵対的攻撃、データポイズニング攻撃、モデル盗難攻撃など、さまざまな潜在的な脅威に直面します。実際の適用シナリオでは、複数の AI 攻撃が同時に存在しており、実際のシナリオでは単一の防御テクノロジーを使用して複雑な脅威に対処することは困難です。さらに、人工知能の攻撃と防御の対立の過程において、防御はより困難な側面であり、攻撃者は、現時点で最も効果的な防御システムを突破するために、攻撃技術を常に更新できますが、新しい防御システムは、既存のすべての攻撃技術を考慮する必要があります。 。実際のシナリオにおける複雑な脅威や刻々と変化する脅威手法に対処するために、AI セキュリティ研究者は、人工知能モデルの解釈可能性などの理論的観点から出発し、人工知能モデルが直面するセキュリティ問題を根本的に解決する必要があります。研究者は、モデルのトレーニング段階で解釈可能性を備えたモデルを選択または設計することで、モデルの一般化能力とロバスト性を高めることができる一方で、研究者はモデルの動作原理を説明するよう努める必要があります。モデル自体を変更せずに、入力サンプルに基づいてモデルがどのように意思決定を行うかを探索します。

参考文献

[1] Nilesh N. Dalvi、Pedro M. Domingos、Mausam、Sumit K. Sanghai、および Deepak Verma。敵対的な分類。知識発見とデータ マイニングに関する第 10 回 ACM SIGKDD 国際会議議事録、米国ワシントン州シアトル、2004 年 8 月 22 ~ 25 日、99 ~ 108 ページ、2004 年。

[2] Tianyu Gu、Brendan Dolan-Gavitt、Siddharth Garg。Badnets: 機械学習モデルのサプライチェーンの脆弱性を特定します。CoRR、abs/1708.06733、2017。

[3] クリスチャン・セゲディ、ヴォイチェフ・ザレンバ、イリヤ・サツケヴァー、ジョアン・ブルーナ、ドゥミトル・エルハン、イアン・グッドフェロー、ロブ・ファーガス。ニューラル ネットワークの興味深い特性。arXiv プレプリント arXiv:1312.6199、2013。

[4] ケビン・エイクホルト、イワン・エフティモフ、アールレンス・フェルナンデス、ボー・リー、アミール・ラフマティ、シャオウェイ・シャオ、アトゥル・プラカシュ、河野忠良、ドーン・ソング。ディープラーニング視覚分類に対する強力な物理世界攻撃。2018 IEEE Con​​ference on Computer Vision and Pattern Recognition、CVPR 2018、米国ユタ州ソルトレイクシティ、2018 年 6 月 18 ~ 22 日、1625 ~ 1634 ページ。IEEE コンピュータ協会、2018 年。

[5] Tencent Keen Security Lab. テスラ オートパイロットの実験的セキュリティ研究、2019 年。 https://keenlab.tencent.com/en/2019/03/29/Tencent-Keen-S ecurity-Lab-Experimental-Security-Research-of-Tesla-Autopilot/ 。

[6] マット・フレドリクソン、ソメーシュ・ジャー、トーマス・リステンパート。信頼情報を悪用したモデル反転攻撃と基本的な対策。コンピューターと通信セキュリティに関する第 22 回 ACM SIGSAC 会議議事録、米国コロラド州デンバー、2015 年 10 月 12 ~ 16 日、1322 ~ 1333 ページ。ACM、2015 年。

[7] フロリアン・トラメール、ファン・ジャン、アリ・ジュエルズ、マイケル・K・ライター、トーマス・リステンパート。予測 API を介して機械学習モデルを盗む。第 25 回 USENIXSecurity シンポジウム、USENIX Security 16、米国テキサス州オースティン、2016 年 8 月 10 ~ 12 日、601 ~ 618 ページ。USENIX アソシエーション、2016 年。

[8] ニコラス・ペーパーノット、パトリック・D・マクダニエル、イアン・J・グッドフェロー、ソメーシュ・ジャー、

Z. バーカイ・チェリクとアナントラム・スワミ。機械学習に対する実際的なブラックボックス攻撃。2017 ACM on Asia Conference on Computer and Communications Security、AsiaCCS 2017、アラブ首長国連邦アブダビ、2017 年 4 月 2 ~ 6 日、506 ~ 519 ページ。ACM、2017年。

[9] ブライアント・チェン、ウィルカ・カルヴァーリョ、ナタリー・バラカルド、ヘイコ・ルートヴィヒ、ベンジャミン・エドワーズ、テソン・リー、イアン・モロイ、ビプラフ・スリヴァスタヴァ。アクティベーション クラスタリングによりディープ ニューラル ネットワークに対するバックドア攻撃を検出します。2019 年 1 月 27 日、ハワイ州ホノルルの第 33 回 AAAI 人工知能会議 2019 (AAAI-19) と併催された人工知能の安全性ワークショップ 2019 にて、CEUR ワークショップ議事録第 2301 巻。CEUR-WS.org、2019年。

[10] カン・リュー、ブレンダン・ドーラン・ガビット、シッダース・ガーグ。細かい枝刈り: ディープ ニューラル ネットワークに対するバックドア攻撃から防御します。「攻撃、侵入、防御の研究 - 第 21 回国際シンポジウム、RAID 2018、イラクリオン、クレタ島、ギリシャ、2018 年 9 月 10 ~ 12 日」、議事録、コンピュータ サイエンスの講義ノートの第 11050 巻、273 ~ 294 ページ。スプリンガー、2018年。

[11] Cihang Xie、Jianyu Wang、Zhishuai Zhang、Zhou Ren、および Alan L. Yuille。ランダム化を通じて敵対的な影響を軽減します。第 6 回学習表現に関する国際会議、ICLR 2018、カナダ、ブリティッシュコロンビア州バンクーバー、2018 年 4 月 30 日から 5 月 3 日まで、会議トラック議事録。OpenReview.net、2018 年。

[12] レザ・ショクリ、マルコ・ストロナティ、ソン・コンジェン、ヴィタリー・シュマチコフ。機械学習モデルに対するメンバーシップ推論攻撃。2017 IEEE Symposium on Security and Privacy、SP 2017、米国カリフォルニア州サンノゼ、2017 年 5 月 22 ~ 26 日、3 ~ 18 ページ。IEEE コンピュータ協会、2017 年。

[13] Yuanshun Yao、Huiying Li、Haitao Zheng、Ben Y. Zhao。ディープ ニューラル ネットワークに対する潜在的なバックドア攻撃。コンピュータおよび通信セキュリティに関する 2019 ACM SIGSAC Conference の議事録、CCS 2019、ロンドン、英国、2019 年 11 月 11 ~ 15 日、2041 ~ 2055 ページ、2019 年。

[14] マフムード・シャリフ、スルティ・バガヴァトゥラ、ルジョ・バウアー、マイケル・K・ライター。犯罪への関与: 最先端の顔認識に対する実際のステルス攻撃。2016 年 ACM SIGSAC Conference on Computer and Communication Security 会議議事録、オーストリア、ウィーン、2016 年 10 月 24 ~ 28 日、ページ1528 ~ 1540 年。

ACM、2016 年。

[15] Qixue Xiao、Kang Li、Deyue Zhang、Weilin Xu。ディープラーニング実装におけるセキュリティリスク。2018 IEEE Security and Privacy Workshops、SP Workshops 2018、米国カリフォルニア州サンフランシスコ、2018 年 5 月 24 日、123 ~ 128 ページ。IEEE

コンピュータ協会、2018 年。

[16] ヤン・ジーチー、ジャン・ジーイー、チャン・イーチェン、梁ジェンカイ。背景知識の調整による敵対的設定でのニューラル ネットワークの反転。Lorenzo Cavallaro、Johannes Kinder、XiaoFeng Wang、および Jonathan Katz、編集者、Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communication Security、CCS 2019、ロンドン、英国、2019 年 11 月 11 ~ 15 日、225 ページ240。

ACM、2019年。

[17] ルイス・ムニョス・ゴンサレス、バッティスタ・ビジオ、アンブラ・デーモンティス、アンドレア・パウディス、ヴァシン・ウォングラッサム、エミル・C・ルプ、ファビオ・ローリ。逆勾配最適化による深層学習アルゴリズムの汚染に向けて。人工知能とセキュリティに関する第 10 回 ACM ワークショップの議事録、AISec@CCS 2017、米国テキサス州ダラス、2017 年 11 月 3 日、2017 年 27 ~ 38 ページ。

[18] アリ・シャファヒ、W・ロニー・ファン、マヒャル・ナジビ、オクタヴィアン・スシウ、クリストフ・スチューダー、チューダー・ドゥミトラス、トム・ゴールドスタイン。毒ガエル!ニューラルネットワークに対する標的化されたクリーンラベルポイズニング攻撃。In Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018、NeurIPS 2018、2018 年 12 月 3 ~ 8 日、カナダ、モントリオール、ページ

6106–6116、2018年。

[19] チェン・ジュー、W・ロニー・ファン、ヘンドゥオ・リー、ギャビン・テイラー、クリストフ・スチューダー、トム・ゴールドスタイン。ディープニューラルネットに対する転送可能なクリーンラベルポイズニング攻撃。第 36 回機械学習国際会議議事録、ICML 2019、2019 年 6 月 9 ~ 15 日、米国カリフォルニア州ロングビーチ、7614 ~ 7623 ページ、2019 年。

[20] Yingqi Liu、Shiqing Ma、Yousra Aafer、Wen-CHUAN Lee、Juan Zhai、Weihang Wang、および Xiangyu ZHANG. Trojaning Atral Networks. TWORK および Distribud System Security Symposium、NDSS 2018、サンディエゴ、カリフォルニア、米国、2 月 18 日-2018年21日。

[21] アニルッダ・サハ、アクシャイヴァルン・スブラマーニャ、ハメド・ピルシアヴァシュ。隠されたトリガーのバックドア攻撃。arXiv プレプリント arXiv:1910.00033、2019。

[22] Shihao Zhao、Xingjun Ma、Xiang Zheng、James Bailey、Jingjing Chen、および Yu-Gang Jiang. ビデオ認識モデルに対するクリーンラベル バックドア攻撃. CoRR、abs/2003.03030、2020。

[23] イアン・J・グッドフェロー、ジョナサン・シュレンズ、クリスチャン・セゲディ。敵対的な例を説明し活用する。arXiv プレプリント arXiv:1412.6572、2014。

[24] アレクセイ・クラキン、イアン・J・グッドフェロー、サミー・ベンジオ。物理世界における敵対的な例。第 5 回学習表現に関する国際会議、ICLR 2017、トゥーロン、フランス、2017 年 4 月 24 ~ 26 日、ワークショップ トラック議事録。OpenReview.net、2017 年。

[25] ニコラス・カルリーニとデヴィッド・ワーグナー。ニューラル ネットワークの堅牢性の評価に向けて。2017 年のセキュリティとプライバシーに関する IEEE シンポジウム (SP)、39 ~ 57 ページ。IEEE、2017 年。

[26] Tianhang Zheng、Changyou Chen、Kui Ren。分散的に敵対的な攻撃。人工知能に関する AAAI 会議議事録、第 33 巻、2253 ~ 2260 ページ、2019 年。

[27] ニコラス・ペーパーノット、パトリック・D・マクダニエル、ソメーシュ・ジャー、マット・フレドリクソン、Z・バーカイ・セリック、アナスラム・スワミ。敵対的な設定におけるディープラーニングの制限。セキュリティとプライバシーに関する IEEE 欧州シンポジウム、EuroS&P 2016、ドイツ、ザールブリュッケン、2016 年 3 月 21 ~ 24 日、372 ~ 387 ページ。IEEE、2016 年。

[28] Pin-Yu Chen、Yash Sharma、Huan Zhang、Jinfeng Yi、Cho-Jui Hsieh。EAD: 敵対的な例を介したディープ ニューラル ネットワークへのエラスティックネット攻撃。Sheila A. McIlraith と Kilian Q. Weinberger の編集者、第 32 回 AAAI 人工知能会議 (AAAI-18)、第 30 回人工知能の革新的応用 (IAAI-18)、および第 8 回 AAAI シンポジウムの議事録人工知能における教育の進歩 (EAAI-18)、米国ルイジアナ州ニューオーリンズ、2018 年 2 月 2 ~ 7 日、10 ~ 17 ページ。AAAI プレス、2018 年。

[29] ヤン・ソン、ルイ・シュー、ネイト・クシュマン、ステファノ・エルモン。生成モデルを使用して無制限の敵対的な例を構築します。In Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018、NeurIPS 2018、2018 年 12 月 3 ~ 8 日、カナダ、モントリオール、

ページ 8322–8333、2018。

[30] トム B. ブラウン、ダンデライオン マネ、アウルコ ロイ、マルティン アバディ、ジャスティン ギルマー。敵対的なパッチ。CoRR、abs/1712.09665、2017。

おすすめ

転載: blog.csdn.net/lxwssjszsdnr_/article/details/125455395