【学習】機械学習の解釈可能性、NLPにおける攻撃


1. 説明可能な機械学習

なぜ説明可能な ML が必要なのでしょうか?
法律はローン組成者にそのモデルを説明するよう義務付けている。医療診断モデルは人の命に責任を負います。
ブラックボックスなのだろうか?
モデルが法廷で使用される場合、モデルの行動が差別的でないことを確認する必要があります。自動運転車が突然奇妙な動作をする場合、その理由を説明する必要があります。
説明ベースの ML モデルを改善できます。

解釈可能 vs 強力

一部のモデルは本質的に説明可能です。たとえば、線形モデル (重みから特徴の重要性がわかります) はありますが、それほど強力ではありません。
深層ウェブを説明するのは難しいです。ディープネットワークはブラックボックスですが、線形モデルよりも強力です。
解釈可能で強力なモデルはあるのでしょうか? デシジョンツリーについてはどうでしょうか?
ここに画像の説明を挿入
ここに画像の説明を挿入

1. 目標

ML モデルがどのように機能するかを完全に理解していますか? 私たちは脳がどのように機能するのかよくわかっていません。しかし、私たちは人間の決定を信頼します。
理由がある場合はより速く受信します:
ここに画像の説明を挿入
2 種類の説明可能な学習:
ここに画像の説明を挿入
どのコンポーネントが決定的であるかを判断:
ここに画像の説明を挿入
画像の一部をブロックした後、まだ認識できるかどうか:
ここに画像の説明を挿入
インスタンスの損失 (モデルの出力とモデルの出力の差)あるピクセル(+x)について、その比率が差分に相当し、その比率から構成されるマップが顕著性マップであり、比率が白いほど重要なピクセルであることを示します。
ここに画像の説明を挿入
ただし、奇妙な場所に焦点が当てられます。
ここに画像の説明を挿入

制限: ノイズ勾配

SmoothGrad: 入力画像にランダムにノイズを追加し、ノイズのある画像の顕著性マップを取得して平均化します。
ここに画像の説明を挿入
ここに画像の説明を挿入
入力音声特性 (MFCC)
ここに画像の説明を挿入
マシンは、異なる人の同じ文章を区別できます。
注意には説明力があります。
ここに画像の説明を挿入

調べる

ここに画像の説明を挿入
分類器の強度に注意してください。訓練が不十分である可能性があります。
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
F1 が大きいほど、画像の特徴がより重要になります。
ここに画像の説明を挿入
ここに画像の説明を挿入
最終的な出力は目に見える数値です。
ここに画像の説明を挿入
機械はそれを区別できますが、人間の目では区別できません。
それが数字だとどうやってわかるのですか?いくつかの制約を追加します。
ここに画像の説明を挿入
ここに画像の説明を挿入
X の検索がz の検索に変わります
ここに画像の説明を挿入
ここに画像の説明を挿入
。 複雑な NN モデルを単純なモデルでモデル化します。 解釈可能なモデルを使用して、解釈できないモデルの動作をシミュレートします。次に、単純なモデルを分析します。ただし、LM の能力には限界があり、狭い領域しか解釈できません。
ここに画像の説明を挿入

二、attacks in NLP

画像と音声は連続的です:
ここに画像の説明を挿入
テキストは離散的です:
ここに画像の説明を挿入
これらのトークンをモデルにフィードするには、各トークンを連続ベクトルにマップする必要があります。
ここに画像の説明を挿入
テキスト NLP での攻撃は CV または音声処理での攻撃と非常に似ています。
ここに画像の説明を挿入

1. 回避攻撃 回避攻撃

コンピュータ ビジョンにおける回避攻撃 画像
に知覚できないノイズを追加すると、モデルの予測が変化します (判断エラー)
ここに画像の説明を挿入
タスクの場合、入力を変更するとモデルの予測が誤りますが、変更された入力と元の入力によってモデルの予測が変更されるべきではありません。予測
ここに画像の説明を挿入
ここに画像の説明を挿入

回避攻撃: 4 つの要素

1. 目標: 攻撃の目的は何か
2. 変換: 潜在的な敵対者に対する摂動を構築する方法
3. 制約: 有効な敵対者の例は何を満たすべきか
4. 検索方法: 制約と目標を満たす変換から敵対者を見つける方法例
ここに画像の説明を挿入

目標

非ターゲット分類: モデルに入力を誤って分類させる
ここに画像の説明を挿入
ターゲット分類: クラス A の基本的な事実を持つサンプルを別のクラス B に分類する
ここに画像の説明を挿入
ユニバーサル サフィックス ドロッパー: 翻訳された文から一部のサフィックスを削除する
ここに画像の説明を挿入
ここに画像の説明を挿入

変換

テキストをスクランブルして、潜在的な対戦相手を構築する方法
ここに画像の説明を挿入
WordNet 同義語を介した単語置換
ここに画像の説明を挿入
kNN または E-ball を介した、カウンターフィットグローブ埋め込み空間での単語
ここに画像の説明を挿入
置換 逆マッチング埋め込み空間: 言語制約を使用して、同義語を対義語に近づけたり、反対語から遠ざけたりする
ここに画像の説明を挿入
ここに画像の説明を挿入
BERT を介して言語をマスクする モデル(MLM) は単語の置き換えを予測します
ここに画像の説明を挿入
が、意味はさらに悪くなります。
BERT 再構成 (マスク解除) を使用して単語の置換が可能です。
ここに画像の説明を挿入
単語の置換は、動詞、名詞、形容詞の屈折形を変更することによって行われます。 屈折
形態素: 接辞は単語の基本的な意味を変更することはなく、品詞 (POS) の指標/特徴です。
ここに画像の説明を挿入
単語埋め込みの勾配による単語の置換
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
これはセマンティクスに影響します。
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/Raphael9900/article/details/128467214