生成モデルを使用した高速かつユニバーサルなオーディオ敵対的攻撃の実現

生成モデルを使用した高速かつユニバーサルなオーディオ敵対的攻撃の実現

https://www.winlab.rutgers.edu/~yychen/

AAI2021

記事ディレクトリ

概要

ディープ ニューラル ネットワーク (DNN) ベースのオーディオ システムの敵対的攻撃に対する脆弱性は、近年ますます注目を集めています。ただし、既存の音声敵対的攻撃では、攻撃者がユーザーの音声入力全体を所有し、敵対的摂動を生成するのに十分な時間予算が与えられることが可能です。ただし、これらの理想的な仮定により、既存のオーディオ敵対的攻撃を実際に時間内に開始することはほとんど不可能になります(たとえば、ユーザーのストリーミング入力とともに明白でない敵対的干渉を再生するなど)。

これらの制限を克服するために、この論文では、高速オーディオ敵対的摂動ジェネレーター (FAPG) を提案します。これは、生成モデルを使用して単一の順方向パスでオーディオ入力に敵対的摂動を生成し、それによって摂動の生成速度を大幅に向上させますFAPG に基づいて、我々はさらに、ユニバーサルオーディオ敵対的摂動ジェネレーター(UAPG) を提案します。これは、誤分類を引き起こすために、あらゆる無害なオーディオ入力にユニバーサル敵対的摂動を課すことができるスキームです。DNN ベースのオーディオ システムに関する広範な実験により、私たちが提案する FAPG が既存のオーディオ敵対的攻撃方法よりも最大 214 倍という高い成功率を達成できることが示されています。さらに、私たちが提案する UAPG は普遍的な敵対的摂動を生成し、最先端のソリューションよりも優れた攻撃パフォーマンスを達成できます。

序章

ディープ ニューラル ネットワーク (DNN) は、現在最も強力な人工知能テクノロジーとして、多くの実用的なアプリケーションで広く使用されています。DNN は現在の成功と人気にもかかわらず、依然としていくつかの深刻な制限があり、特に敵対的攻撃に対する固有の高い脆弱性が挙げられます。これは非常に有害な攻撃方法であり、DNN の良性の性質に有害です。入力は慎重に設計された敵対的攻撃の影響を受けます。誤分類につながる摂動。DNN の脆弱性はもともと画像分類アプリケーションで発見され、これまで特にさまざまなタイプの敵対的摂動生成手法が多くの画像領域アプリケーションで広く研究されてきました。

スマート スピーカーや音声アシスタント (Siri、Google アシスタント、Alexa など) など、最新のオーディオ ドメイン アプリケーションやシステムにおける DNN の使用が急速に増加していることを考慮して、機械学習コミュニティとサイバーセキュリティ コミュニティの両方が最近、敵対的攻撃の可能性を調査し始めています。オーディオドメインでの攻撃いくつかの画期的な研究は、無害な音声入力に目立たない摂動を注入して DNA ベースのオーディオ システムを誤解させるというアイデアが概念的に魅力的であるだけでなく、実際的にも実現可能であることを実証しました。これまでに、話者検証音声コマンド認識音声からテキストへの転写周囲音分類などを含む (ただしこれらに限定されない)、さまざまなオーディオ ドメイン アプリケーションにおける敵対的攻撃の成功がいくつかの研究で報告されています。

以前の研究の制限

既存の研究では、オーディオ敵対的攻撃の実現可能性が実証されていますが、依然としていくつかの課題に直面しています。より具体的には、最先端のオーディオ敵対的攻撃手法では、攻撃設定に関していくつかの理想的な仮定が行われます。

  1. 敵対的な摂動を生成するには多大な時間がかかります実際のオーディオ アプリケーションでは、通常、無害な入力は高速ストリーミング音声入力です。したがって、時間の制約により、既存のオーディオ敵対的攻撃は、C&W や遺伝的アルゴリズムなどの時間のかかる反復最適化手法に依存していますが、これらのリアルタイム オーディオ処理システムに対して攻撃を開始するには遅すぎます。
  2. 良性の入力コンテキストを観察する権限を持っています既存の摂動生成方法では進行中の音声入力の完全な内容についての事前知識が必要であるため、オーディオ信号の固有の逐次的性質により、敵対者は入力ストリーム段階中に敵対的な摂動を生成することができません。したがって、現在のオーディオ敵対的攻撃は、録音または再生された音声のみをターゲットにし、リアルタイムのオーディオ信号をターゲットにすることはできないため、現実世界のさまざまなオーディオ ドメイン攻撃シナリオには適していません。

テクニカルプレビューと貢献

これらの制限を克服するために、この論文では、生成モデルを使用してオーディオ領域で敵対的な摂動を生成することを提案します。この生成モデルは、オフライン方式でトレーニング データから敵対的摂動の分布を学習します。よく訓練された生成モデルは、音声の敵対的摂動を非常に迅速に生成することができ、リアルタイム設定で音声の敵対的攻撃を実装する可能性を解き放ちます。この文書の主な貢献は次のように要約されます。

  • 生成モデルベースの Fast Audio Adversarial Perturbation Generator (FAPG)を初めて紹介します。大量のアンチ摂動生成時間を必要とする既存の方法とは異なり、私たちが提案する FAPG は、十分にトレーニングされた生成モデル Wave-U-Net を介した 1 回の順方向パスで必要なオーディオ敵対的摂動を生成するため、摂動の生成速度が大幅に高速化されます。
  • 私たちは、トレーニング可能なカテゴリカル埋め込み特徴マップのセットを FAPG に統合して、オーディオ データ内のすべてのラベル情報を統一モデルにエンコードすることを提案します。従来の生成モデルベースの画像ドメイン敵対的攻撃では、異なるターゲット カテゴリに対して異なる生成モデルが必要ですが、この論文で提案されている音声ドメイン FAPG では、単一の生成モデルを使用して、敵対者の任意のカテゴリに対して敵対的摂動を生成できますこの削減により、攻撃者が複数のオブジェクト カテゴリを使用して攻撃を開始したい場合、メモリ コストとモデルのトレーニング時間を大幅に節約できます。
  • 入力依存の FAPG に基づいて、入力独立の Universal Audio Adversarial Perturbation Generator (UAPG) をさらに提案します。UAPG は、入力に依存する摂動を再生成することなく、さまざまな無害なオーディオ入力に適用して再利用できる単一のユニバーサル オーディオ敵対的摂動 (UAP) を生成できます。さらに、UAP の汎用性はさまざまな無害な入力にわたって存在するため、この重要な特性により、摂動を生成するために入力全体を観察する必要があるという以前の制約が取り除かれ、リアルタイムのオーディオ敵対的攻撃が可能になります。
  • FAPG と UAPG を使用して、3 つの DNN ベースのオーディオ システムに対する攻撃のパフォーマンスを評価します。Google 音声コマンド データセット (Warden 2018) の音声コマンド認識モデル、VCTK データセット (Christophe、Junichi、Kirsten) の話者認識モデルです。 2016) と UrbanSound8k データセットの周囲音分類モデル (Salamon、Jacoby、および Bello 2014)。最先端の入力依存攻撃と比較して、当社の FAPG ベースの攻撃は、同等の成功率で214 倍の高速化を達成します。既存の入力に依存しない (ユニバーサル) 攻撃と比較して、当社の UAPG ベースの攻撃は、ホワイト ボックス設定およびブラック ボックス設定でそれぞれ 37.22% および 29.98% 高いスプーフィング率を達成します

高速オーディオ敵対的摂動ジェネレーター (FAPG)

高速オーディオ敵対的摂動ジェネレーター

モチベーション

速度とパフォーマンスの間のジレンマ

スピードとパフォーマンスの間のジレンマ

「はじめに」で分析したように、オーディオに対する既存の敵対的攻撃の現在の進歩にもかかわらず、最も困難な制限の 1 つは、敵対的摂動の生成プロセスが固有に遅いことですそれの訳は:

  1. PGD​​ (Madry et al. 2017)、C&W (Carlini and Wagner 2018)、遺伝的アルゴリズム (Alzantot、Balaji、および Srivastava 2018) など、現在広く使用されている潜在的敵対的摂動生成手法は、反復の数に基づいています。摂動。この反復メカニズムは高い攻撃パフォーマンスをもたらしますが、それに対応して必要な生成時間は非常に長く、たとえば、巧妙に作成された摂動を生成するには数秒、場合によっては数時間かかります。
  2. 生成時間をリアルタイム要件を満たすように反復回数を減らすことも解決策の 1 つですが、対応する攻撃パフォーマンスは大幅に低下します
  3. 一方、FGSM (Goodfellow, Shlens, and Szegedy 2014) などの既存の摂動生成方法は、生成が速いという利点はありますが、攻撃パフォーマンスによる制約が少なく、通常、攻撃の成功率はそれよりもはるかに低くなります反復ベースのメソッドの。

高速摂動生成がなぜ重要なのか?

高速摂動の生成が重要なのはなぜですか?

なぜリアルタイムで摂動を生成するのでしょうか? 攻撃者は、無害な音声入力を録音し、十分な時間配分でオフラインで摂動を生成し、その結果得られる敵対的な音声を再生することはできないでしょうか? 実際、上記の仮説的な攻撃戦略は、時間の余裕がない一部のシナリオに適用できる可能性があります。

ただし、実際の攻撃シナリオでは、攻撃者が被害者に近づき、被害者の発話を録音したり、被害者の発話をその場で変更したりする機会はそれほど多くない可能性が非常に高くなります。機会があれば、攻撃者は音声を録音し、すぐに敵対的な注意をそらすような音を生成し (できればモバイル デバイスを使用して)、それを被害者のライブの対話型音声に挿入することを考えます。これにより、摂動の生成と注入プロセスの時間予算と計算リソースが非常に制限されますしたがって、非常にタイムリーで計算の複雑性が低い方法で、ロバストな敵対的摂動を作成するための効率的な方法が非常に望まれています。

画像ドメインにおける生成モデルベースのソリューション

画像ドメインの生成モデルベースの解決方法。

前述した敵対的摂動の高速生成の必要性は、オーディオに特有の問題ではなく、画像領域に広く普及しています。このタイミング要件を満たすために、最近の画像ドメイン研究では、マルチステップ最適化 (C&W や PGD など) に基づく方法と比較して、敵対的生成ネットワーク (GAN) やオートエンコーダーなどの生成モデルを利用して、画像に対する画像生成の摂動を加速することが提案されています。これとは異なり、生成モデルに基づくソリューションは、トレーニング画像から敵対的な摂動の分布を学習することを目的としています。生成モデルが適切にトレーニングされた後、入力画像から敵対的摂動までの 1 ステップの生成が実行されます。このプロセスは基本的に生成モデルの高速順伝播であり、画像の敵対的摂動の生成速度が大幅に向上します。

オーディオ領域の課題

オーディオ分野が直面する課題

画像領域におけるこうした進歩は、当然のことながら、音声の敵対的摂動の生成を加速するための生成モデルの使用の探求を促進します。ただし、音声信号は画像とは大きく異なります。

  • 話者の音声は本質的に1 次元の時系列信号であり、これには非常に重要な順序情報が含まれています。
  • さらに、明確に定義された固定サイズの画像データとは異なり、音声データは、同じユーザーおよび同じデータセットからのものであっても、信号長が大きく異なることがよくあります。
  • これらのオーディオ固有の新たな課題に加えて、オーディオの生成モデルベースの敵対的摂動は、画像ベースの敵対的摂動と同じクラス固有のモデル準備の問題に悩まされます。具体的には、標的型攻撃に生成モデルを悪用する場合、ターゲット クラスごとに、特定の目的のために個別の生成モデルをトレーニングする必要がありますクラスの数が数百、さらには数千など非常に多くなる可能性があることを考慮すると、攻撃を開始するために必要なメモリ コストは非常に高くなります。

提案された FAPG: 建設とトレーニング

全体的なアーキテクチャ

これらの課題に対処するために、高速、高性能、低メモリコストの方法でオーディオ ドメインの敵対的攻撃を開始する、Fast Audio Adversarial Perturbation Generator FAPG を提案します

画像の説明を追加してください

図 1 は、生成モデルG ( ⋅ ) G(・)を含む FAPG の全体的なアーキテクチャを示しています。( )、Wave-U-Net (Stoller、Ewert、および Dixon 2018) など、クラスごとに埋め込まれた複数の特徴マップ。

  • トレーニング フェーズでは、生成モデルと埋め込み特徴マップがトレーニング データセット上で共同トレーニングされます。
  • 適切なトレーニングの後、無害な音声入力が与えられ、攻撃者が DNN 分類器を誤解させる計画を立てた場合F ( ) F( )( )ターゲットクラスラベルyt y_ty、良性入力の生成モデルの推論を通じて、対応するオーディオ敵対的摂動を迅速に生成して、ターゲット クラスyt y_tを分類できます。y地図はG ( ⋅ ) G(・)につながります( )中間の特徴マップ。
  • 次に、使用される生成モデルと埋め込み特徴マップのセットを以下のように詳細に説明します。

オーディオ固有の生成モデル

オーディオ固有の生成モデル

生成モデルは FAPG の中核コンポーネントです。画像領域アプリケーションではさまざまなタイプの生成モデルが広く使用されていますが、シーケンスの順序や長さの変化など、画像信号と音声信号の間には固有の違いがあるため、FAPG での使用には適していません。これらの課題に対処するために、私たちはFAPG の基礎となる生成モデルとしてWave-U-Netを採用しています。これは、もともと音源分離のために開発されました。

Wave-U-Net は、1D 畳み込み、10 進ダウンサンプリング ブロック、および線形補間アップサンプリング ブロックを含む特別なタイプの CNN です。この固有のコーデック構造により、Wave-U-Net は強力な配信モデリング機能を発揮できるようになります。同時に、その独自の第 1 層 1 次元畳み込みおよびアップダウン サンプリング ブロック設計により、Wave-U-Net は 1 次元可変長データから時間情報を自然にキャプチャすることもできます。

クラスごとの埋め込み機能マップ

クラス対応の埋め込み機能マップ

k クラスを使用して特徴マップを埋め込む目的は、クラス固有の設計ではなく、単一の生成モデルを再利用してさまざまなターゲット クラスを攻撃できるようにすることです。この目的のために、これらのクラス認識埋め込み特徴マップは、ε = ( E 1 , E 2 , … ) ε = {(E_1, E_2, …)}として表されます。e=( E1E2)、それぞれがターゲット クラスに対応します。

生成モデルG ( ⋅ ) G(・)( )これらの埋め込み特徴マップε εε共同訓練後、yt y_tyのラベル情報は、対応する特徴マップE t E_tにエンコードされます。E真ん中。

次に生成フェーズでは、E t E_tE中間特徴マップG ( ⋅ ) G(・)( )を連結してターゲット カテゴリyt y_ty敵対的な混乱。

私たちの設計では、E t E_tE連結される中間フィーチャ マップとまったく同じ形状。具体的には、E t E_tE通常、Wave-U-Net のエンコーダ部分とデコーダ部分の交差点にある中間特徴マップと位置合わせされます。これは、この位置の特徴マップのサイズが最小であるため、対応するE t E_tE保管コストは最小限です。

FAPGのトレーニング手順

FAPGトレーニングプロセス

次に、FAPG のトレーニング プロセス、より具体的には G() と ε の共同トレーニングについて説明します。トレーニング プロセス全体の順伝播段階では、入力音声データの各バッチに対してXXX、最初にターゲット クラスyt y_ty、対応する埋め込み特徴マップE t E_tを取得します。E、選択した特徴マップを生成モデルに接続しますG ( ⋅ ) G(·)( )、全体のモデルG t ( ⋅ ) G_t(·)G(

入力XXの場合X はG t ( ⋅ ) G_t(・)を実装しますG( )、結果はδ t δ_td、 ( − τ , + τ ) (−τ, +τ)にクリップします。( τ ,+ τ ) 、制約 δ_t によって生成されるδ tdは知覚不可能です。ここで、τ ττは閾値パラメータです。私たちの実験によれば、初期値τ ττ は比較的大きな値に設定し、トレーニング中に徐々に減少させる必要があります。経験的には、この調整スキームによりトレーニングの収束が向上します。

摂動δt δ_tは生成モデルから計算されます。dその後、外乱δ t δ_td敵対的な入力を形成するために良性のデータに追加されると、DNN 分類子F ( ⋅ ) F(・)が発生します。( 誤分類。次に、トレーニング プロセス全体の鍵となる損失関数の式は次のとおりです。
L oss ( X , yt ) = − yt ⋅ log ( F ( X + G t ( X ) ) ) + β ⋅ ‖ G t ( X ) ‖ 2 、損失(X, y_t) = −y_t log(F (X + G_t(X))) + β ‖G_t(X)‖_2、損失( X , _y)=yl o g ( F ( X+G( X )))+β ‖G _( X ) 2ここで、
第 1 項と第 2 項はそれぞれクロスエントロピー損失と L2 損失であり、β は事前に設定された係数です。全体的な損失関数における L2 損失の存在は、攻撃強度を制御し、生成された敵対的な摂動を知覚できないようにすることを目的としています。したがって、バックプロパゲーション段階では、生成モデルG ( ⋅ ) G( )( )と現在選択されている埋め込み特徴マップE t E_tE損失関数を最小化することで同時に更新されます。データの各バッチについて、E t E_t であることに注意してください。Eはランダムに選ばれます。したがって、数回の反復の後、生成されたモデルG ( ⋅ ) G(·)( )自体は、敵対的な摂動の一般的な分布、さまざまなE t E_tE特定のターゲット クラスごとにエンコーディング情報が学習されます。アルゴリズム 1 は、FAPG トレーニング プロセス全体の詳細を要約したものです。

画像の説明を追加してください

ユニバーサル オーディオ敵対的摂動ジェネレーター (UAPG)

ユニバーサルオーディオ妨害防止ジェネレーター

モチベーション

フルコンテンツの観察を減らす - なぜそれが重要なのでしょうか?

なぜ無害な入力全体の観察を減らす必要があるのでしょうか?

前のセクションで説明したように、FAPG は、オーディオに敵対的な摂動を生成するための高速ソリューションを提供します。ただし、これは本質的には入力依存の生成メソッド。実際、最先端の敵対的攻撃手法のほとんどは、音声ドメインと画像ドメインの両方において、入力依存型攻撃のカテゴリーに分類されます。言い換えれば、摂動生成の基礎となるメカニズムは、全体として無害な入力の観察に基づいています

このような仮定はほとんどの画像処理アプリケーションに当てはまりますが、実際 (実際のリアルタイム オーディオ アプリケーション) でそのような要件を満たすことは非常に困難です。これは、オーディオ信号は本質的に時系列であり、入力ストリーム段階で進行中の音声入力の完全な内容を事前に知ることは現実的ではないためです言い換えれば、攻撃は録音または再生されたサウンドに対してのみ実行できるため、攻撃の実現可能性とシナリオが大幅に制限されます。したがって、実際のオーディオ敵対的攻撃では、摂動の生成時間を大幅に短縮することに加えて無害な入力コンテンツを観察する必要性を最小限に抑える必要があります

Universal Audio Adversarial Perturbation Generator (UAPG)。

この目的を達成するために、ユニバーサル オーディオ敵対的摂動ジェネレーター (UAPG) をさらに開発し、オーディオ ドメインのユニバーサル敵対的摂動(UAP) を作成します。名前が示すように、一般的な敵対的摂動は、さまざまな良性の入力に適用して再利用でき、入力依存の摂動を再生成することなく誤分類につながります。この独自の汎用性により、入力全体を観察するという以前の制約が完全に取り除かれ、UAPG は時間コストゼロでリアルタイムのオーディオ敵対的攻撃を開始するのに理想的なものになります。

UAPG 設計の課題。

UAP の魅力的な利点により、画像固有の UAP を研究するためのいくつかの取り組みが行われてきました (Moosavi-Dezfooli et al. 2017; Poursaeed et al. 2018)。研究で使用される手法を借用して画像領域の進歩があり、最近の研究 (Vadillo and Santana 2019; Neekhara et al. (2019)) では、それぞれ音声コマンド認識と音声テキスト変換システム用の音声領域 UAP 生成の手法が報告されています。

さらに、(Gong et al. 2019) は、音声入力全体を使用せずにリアルタイムの音声敵対的攻撃を実現する手法も提案しており、その効果は UAP を使用する場合と同様です。こうした既存の取り組みにもかかわらず、堅牢で強力な UAPG の設計は依然として簡単ではありませんが、次の 2 つの主な課題に直面しています。

  1. 実験結果によると、現在のオーディオ ドメイン UAP は一般に、入力依存の摂動よりも攻撃パフォーマンスが低いことが示されています。
  2. 一部のオーディオドメイン UAP がサポートする攻撃は非標的型攻撃のみであり、攻撃者は目的とする標的結果を正確に得ることができません

提案された UAPG: 構築とトレーニング

全体スキーム

画像の説明を追加してください

既存の研究とは異なり、私たちの目標は、高いオンターゲット攻撃パフォーマンスを達成できる UAPG を設計することです。

図 2 は重要なアイデアを示しています。信号ベクトル U に基づいて入力依存の UAP を生成します。この UAP は、ある程度の汎化を持つようにトレーニングされます。初期化後、U を使用して UAP が生成され、派生した UAP の汎用性がさまざまなトレーニング データ サンプルで反復的に徐々に改善されます。最後に、効果的な UAPG は、十分に訓練された U を開発することによって達成できます。

FAPGからUAPGへ

UAP の生成に使用される基本的な方法は、私たちが提案する FAPG です。FAPG は、特定のオーディオ入力に対する摂動を繰り返し最適化するのではなく、敵対的な摂動の分布を推定することを直感的に学習しますしたがって、FAPG によって生成される摂動は、非生成手法によって生成される摂動よりも自然に一般化可能です。さらに、当社の FAPG は、さまざまなターゲット クラス情報を単一の生成モデルに統合するように設計されており、ターゲットの一般的な摂動の生成を可能にします

UAPGのトレーニング手順

次に、効果的な UAPG を促進するための UAPG のトレーニングの詳細を紹介します。一般に、入力に依存しない一般的な攻撃を形成するために、私たちの目標は一般的な摂動vt v_tを見つけることです。v来十分
argmax F ( x ( i ) + υ t ) = yt ほとんどの x 〜 χ 。argmax F (x^{(i)} + υ_t) = y_t \; ために\; 多くの\; x 〜 χ。a r g max F ( x _()+あなた)=yためにとても_ _バツχ .
UAPG のトレーニング プロセスをアルゴリズム 2 に示します。

画像の説明を追加してください

私たちの目標は、よく訓練されたG ( ⋅ ) G(・) に合格することです。( )と対応するE t ∈ ε E_t∈εEεは単一の普遍的摂動vt v_tvこれは、よく訓練された入力依存型 FAPG から取得できます。入力依存のシナリオとは異なり、オーディオ入力信号は単一のトレーニング可能なベクトル U に置き換えられます。次に、一般的な摂動が返され、無害なデータに適用されて、敵対的な音声サンプルが作成されます。このような敵対的な音声を DNN 分類器 F に入力すると、次の損失関数を最小化して U を更新できます:
L oss = − yt ⋅ F ( X + G t ( U ) ) + β ⋅ ‖ G t ( U ) ‖ 2 、損失 = −y_t F (X + G_t(U )) + β ‖G_t(U )‖_2、損失_=yF ( X+G())+β ‖G _() 2ここで、
第 1 項と第 2 項はそれぞれクロスエントロピー損失と L2 損失を表します。上記の損失関数に基づいて、トレーニング データ全体にv_t を繰り返し適用することで vtを導出します。vUを最適化します。特に、任意のターゲット クラスに一般化できる UAPG を構築するには、各トレーニング ステップで、U がクラス間表現を学習できるようにターゲット クラスがランダムに選択されます。統合された U を構築した後、UAPG によって計算された一般的な摂動を任意の入力データに効率的に適用して、個別の音声入力ごとに敵対的な摂動を再生成することなく、音声に依存しない方法で DNN モデルを騙すことができます。

攻撃評価

実験方法

ターゲット モデルとデータセット。

音声コマンド認識、話者認識、周囲音分類のための 3 つの DNN ベースのオーディオ システムで、提案された FAPG と UAPG を評価します。

  • 音声コマンド認識私たちは、(Sainath and Parada 2015) で提案された畳み込みニューラル ネットワーク (CNN) ベースの音声コマンド認識モデル (CNN-trade-fpool3) を使用しました。これは、これまでの多くの研究 (Alzantot、Balaji、および Srivastava 2018) でターゲット モデルとして使用されてきました。 ; Abdoli et al. 2019; Yu et al. 2018)。このネットワークは、16 kHz でサンプリングされ、各録音が 15 にトリミングされた、10 の代表的な音声コマンドからの 46,278 の発話で構成されるクラウドソースの音声コマンド データセット (Warden 2018) でトレーニングされています。40 次元の MFCC 特徴をモデルの入力として抽出します。データセットを 4:1 の比率でトレーニング セットとテスト セットにランダムに分割し、ベースライン モデルはテスト セットで 89.2% の認識精度を達成しました。
  • スピーカーの識別DNN ベースの埋め込みモデルと、確率的線形判別分析 (PLDA) バックエンドを備えた事前トレーニング済みの x ベクトル モデル 1 (Snyder et al. 2018) が、ターゲット話者認識モデルとして使用されました。この特徴は 30 次元の MFCC 特徴であり、フレーム長は 25ms です。私たちが使用するデータセットは、CSTR Voice Cloning Toolkit (VCTK) で利用可能な英語多言語コーパス (Christophe、Junichi、および Kirsten 2016) です。これには、109 人の話者によって話された 44,217 の発話が含まれており、各録音は 1.75 秒に切り取られています。講演者はデータの 80% を登録に使用し、残りはテスト用に保存されます。これにより、109 人の話者からの 8,896 回のテスト発話に対するベースライン精度は 92.8% になります。
  • 環境音の分類1D CNN モデル ((Abdoli, Cardinal, and Koerich 2019) では CNNrand と呼ばれる) がターゲット モデルとして使用されます。このモデルは、10 の異なる環境シーンからの 8732 個のオーディオ クリップを含む UrbanSound8k データセット (Salamon、Jacoby、および Bello 2014) でトレーニングされています。各レコードは 50999 サンプルにクロップされます。これは 16 kHz で約 3 秒に相当します。データセットは、トレーニング セット、検証セット、テスト セットに 8:1:1 の比率で分割されます。トレーニング後の 10 クラスの分類精度は 83.4% でした。

評価指標。

  • フーリング率 (FR) は、標的型攻撃と非標的型攻撃を評価するために使用されます。これは、敵対的な例の総数に対する、誤分類につながる敵対的な例の数の割合を示します。
  • 成功率 (SR) は、標的型攻撃、つまり、攻撃の総数に対する標的型クラスとして分類される敵対例につながる攻撃の数の比率を評価するためにのみ使用されます。
  • 歪みメトリクスδt δ_tを定量化しますd元のオーディオxi x_iとの比較バツ私は相対騒音レベル (dB): D ( xi , δ t ) = 20 log 10 max ( δ t ) max ( xi ) D(x_i, δ_t) = 20log_{10} \frac{max(δ_t)}{max( x_i )}D ( ×私はd)=20ログ_ _10マックス( x _私は)最大x ( d)

FAPG を介した音声依存の標的型攻撃

FAPG ジェネレーターの実装。

FAPG の構築には Wave-U-Net の M1 モデルを使用します。具体的には、モデルには 5 つのダウンサンプリング ブロックと 5 つのアップサンプリング ブロックが含まれています。最後のエンコード層の特徴マップ サイズは、特徴マップを埋め込む追加の各クラスのサイズでもあります。FAPG の場合、ADAM オプティマイザーを使用して、バッチ サイズ 100 で合計 10,000 のトレーニング ステップが実行されました。初期学習率は1 e − 4 1e^{−4}に設定されます。1e _4、その後徐々に1 e − 6 1e^{−6}1e _−6 . _ β はすべてのデータセットで 0.1 に設定されます。最初はコマンド認識と話者認識で 0.1 に設定されていましたが、これは 3,000 ステップと 7,000 ステップでそれぞれ 0.05 と 0.03 に減少し、音声分類モデルでは 0.05 に停止したため、ノイズ レベルはそれぞれ -30 dB と -18 dB に近づきました。

攻撃速度の向上とパフォーマンス。

画像の説明を追加してください

FAPG が攻撃生成時間を短くしながら高い成功率を達成できることを検証するために、上記 3 つのターゲット モデルに対して異なる時間条件で実験を行います。表 1 は、提案された FAPG の攻撃パフォーマンスを、一般的に使用される攻撃、つまり FGSM、PGD、C&W と比較しています。これらの攻撃では、敵対的インスタンスの生成に 0.065 秒以下しかかかりません (PGD および C&W 攻撃における 1 回の反復のおおよその実行時間)。公平な比較のために、これらの攻撃によって生成される摂動を、音声コマンド分類と話者認識については 0.03、環境音分類については 0.05 の無限ノルムに制限します。これは、実装で使用されたものと同じ FAPG に匹敵します。表 1 に示すように、3 つのターゲット モデルすべてについて、提案されたFAPG は短期間で高い攻撃成功率 (90% 以上) を達成できますが、FGSM、PGD、および C&W 攻撃は 1 未満の SR しか達成できません。 15%。

また、十分な時間的余裕を持って実験も行います。表 2 に示すように、PGD と C&W は提案した FAPG と非常に似た SR を達成しますが、より長い敵対的摂動生成時間を必要とします。たとえば、話者認識タスクの場合、PGD には 4.33 秒かかり、C&W では攻撃にさらに 10 秒以上かかりますが、各データの期間はわずか 1.75 秒です。この大きなギャップにより、PGD および C&W ベースの攻撃は実際のリアルタイム攻撃シナリオでは実行不可能になります。一方、私たちが提案する FAPG は、非常に似た高い SR を達成しながら、敵対的な摂動を生成するのに 0.05 秒しか必要とせず、非常に高速化します (PGD と C&W と比較して、それぞれ最大 86 倍と 214 倍)。 。さらに、FAPG は、別の高速生成方法である FGSM と比較して、より高い SR を実現します。

メモリコストの削減

私たちが提案するトレーニング可能なカテゴリ特徴マップは、メモリのオーバーヘッドを大幅に削減できます。カテゴリ特徴埋め込みマッピングがないと、標的型攻撃を開始するには、ターゲット カテゴリごとに生成モデルをトレーニングする必要があり、その結果、音声コマンド認識モデル、話者認識モデル、音声分類モデルでそれぞれ 23.8 MB、259 MB、23.8 MB のメモリ消費が発生します。対照的に、クラスベースの埋め込み特徴マップの場合、私たちが提案する FAPG は、ターゲット クラスの数に関係なく、生成モデルと一連の埋め込みマップをトレーニングするだけでよいため、3 つのターゲット モデルはそれぞれ 2.4 MB、3.53 MB しか占有しません。 MBと2.44MB。これにより、メモリ コストがそれぞれ 9.9 倍、73.5 倍、9.8 倍削減されます。

UAPG を介したオーディオに依存しないユニバーサル攻撃

UAPGの実装

UAPG は、事前トレーニングされた FAPG モデルと、元のオーディオ入力と同じサイズのトレーニング可能な汎用敵対的入力ベクトル U に基づいて構築されます。次に、ベクトル U は、ターゲット モデルのトレーニングに使用されたのと同じトレーニング セットでトレーニングされます。Adam オプティマイザーを使用し、学習率 1e-4、バッチ サイズ 100 で合計 8000 のトレーニング ステップが実行されました。τ を 0.03 に設定します。これは、音声コマンド認識モデルと話者認識によって生成される敵対的摂動の平均歪み -30.21 dB に相当し、周囲音分類の場合は τ = 0.05 に設定します。

学習された表現の分析

画像の説明を追加してください

UAPG の有効性を調査するために、FAPG によって生成される音声依存の摂動と、UAPG によって生成される音声に依存しない摂動を、主成分分析 (PCA) を使用して音声コマンド認識モデル上にプロットしました (Wold、Esbensen、および Geladi 1987)。 。図 3 に、5 つのコマンドに対する敵対的な摂動を示します。一般的な摂動は実際の音声コマンド分布にアクセスせずに作成されますが、すべての一般的な摂動は、同じターゲット クラスに対して生成された、対応するオーディオ依存の摂動の多様体に含まれます

これは、UAPG が各ターゲット コマンドに関して本質的に敵対的な表現を効果的に学習できることを示しています。

ホワイトボックス攻撃のパフォーマンス

私たちが提案する UAPG のパフォーマンスを、DeepFool ベースの UAP-HC (Vadillo および Santana 2019) (Moosavi-Dezfooli、Fawzi、および Frossard 2016)、RURA (Xie et など) を含むいくつかの最先端のオーディオ一般攻撃と比較します。 al. 2020) および UAAP (Abdoli et al. 2019)。

UAPG 攻撃を評価するために、ターゲット モデルごとに、ターゲット クラスごとにパン摂動を生成します。表 3 は、音声コマンド モデルに関する UAP-HC、話者認識モデルに関する RURA、音声分類モデルに関する UAAP、およびこれら 3 つのモデルに関する提案された UAPG の結果を示しています。具体的には、UAP-HC は対象を絞らない汎用攻撃として設計されているため、FR のみを報告します。

私たちが提案した UAPG は 3 つのタスクすべてで既存の手法を上回っており、3 つのモデルで評価された平均 SR はそれぞれ 89.90%、89.59、および 86.05% であることがわかります

ブラックボックス攻撃パフォーマンス

また、ターゲットの被害者モデルのアーキテクチャとパラメーターが不明なブラックボックス設定で、提案された UAPG のパフォーマンスも評価します。表 4 に示すように、タスクごとに、最初に代替モデル (CNN-3 モデル (Zhang et al. 2017)、d-Vector (Variani et al. 2014)、EnvNetV2 (Tokozume and Harada 2017)) で UAPG をトレーニングします。次に、ターゲット モデル上で生成された敵対的な例を評価して、その移転可能性を検討します。

音声コマンド認識モデルについては、提案された UAPG のパフォーマンスを、同じターゲット モデルに対する最近の非ターゲット リアルタイム敵対的攻撃 (RAA) (Gong et al. 2019) とブラックボックス方式で比較します。表 4 に示すように、私たちが提案した UAPG は、さまざまなタスクのブラックボックス設定でテストした場合でも、高い FR を達成します。対象外のリアルタイム攻撃用の最先端の RAA と比較して、当社の UAPG は FR で 29.98% の増加を達成します。

結論

この研究では、音声コマンド認識、話者認識、周囲音分類という 3 つの音声処理システムに対する高速かつ一般的な敵対的攻撃を提案します。Wave-U-Net とカテゴリカル特徴埋め込みグラフを活用することで、私たちが提案する FAPG は、単一のフォワード パスで統合生成モデルを使用して、最先端のソリューション、敵対的ソリューションと比較して、あらゆる音声コマンドに対して高速オーディオ敵対的攻撃を開始できます。摂動の生成は最大 214 倍高速になります。さらに、FAPG に基づいて、私たちが提案する UAPG は、任意の無害なオーディオ入力に適用できる一般的な敵対的な摂動を生成できます。広範な実験により、提案された FAPG および UAPG の有効性が実証されています。

おすすめ

転載: blog.csdn.net/Sky_QiaoBa_Sum/article/details/130450186