1. 説明可能な機械学習
なぜ説明可能な ML が必要なのでしょうか?
法律はローン組成者にそのモデルを説明するよう義務付けている。医療診断モデルは人の命に責任を負います。
ブラックボックスなのだろうか?
モデルが法廷で使用される場合、モデルの行動が差別的でないことを確認する必要があります。自動運転車が突然奇妙な動作をする場合、その理由を説明する必要があります。
説明ベースの ML モデルを改善できます。
解釈可能 vs 強力
一部のモデルは本質的に説明可能です。たとえば、線形モデル (重みから特徴の重要性がわかります) はありますが、それほど強力ではありません。
深層ウェブを説明するのは難しいです。ディープネットワークはブラックボックスですが、線形モデルよりも強力です。
解釈可能で強力なモデルはあるのでしょうか? デシジョンツリーについてはどうでしょうか?
1. 目標
ML モデルがどのように機能するかを完全に理解していますか? 私たちは脳がどのように機能するのかよくわかっていません。しかし、私たちは人間の決定を信頼します。
理由がある場合はより速く受信します:
2 種類の説明可能な学習:
どのコンポーネントが決定的であるかを判断:
画像の一部をブロックした後、まだ認識できるかどうか:
インスタンスの損失 (モデルの出力とモデルの出力の差)あるピクセル(+x)について、その比率が差分に相当し、その比率から構成されるマップが顕著性マップであり、比率が白いほど重要なピクセルであることを示します。
ただし、奇妙な場所に焦点が当てられます。
制限: ノイズ勾配
SmoothGrad: 入力画像にランダムにノイズを追加し、ノイズのある画像の顕著性マップを取得して平均化します。
入力音声特性 (MFCC)
マシンは、異なる人の同じ文章を区別できます。
注意には説明力があります。
調べる
分類器の強度に注意してください。訓練が不十分である可能性があります。
F1 が大きいほど、画像の特徴がより重要になります。
最終的な出力は目に見える数値です。
機械はそれを区別できますが、人間の目では区別できません。
それが数字だとどうやってわかるのですか?いくつかの制約を追加します。
X の検索がz の検索に変わります
。 複雑な NN モデルを単純なモデルでモデル化します。 解釈可能なモデルを使用して、解釈できないモデルの動作をシミュレートします。次に、単純なモデルを分析します。ただし、LM の能力には限界があり、狭い領域しか解釈できません。
二、attacks in NLP
画像と音声は連続的です:
テキストは離散的です:
これらのトークンをモデルにフィードするには、各トークンを連続ベクトルにマップする必要があります。
テキスト NLP での攻撃は CV または音声処理での攻撃と非常に似ています。
1. 回避攻撃 回避攻撃
コンピュータ ビジョンにおける回避攻撃 画像
に知覚できないノイズを追加すると、モデルの予測が変化します (判断エラー)
タスクの場合、入力を変更するとモデルの予測が誤りますが、変更された入力と元の入力によってモデルの予測が変更されるべきではありません。予測
回避攻撃: 4 つの要素
1. 目標: 攻撃の目的は何か
2. 変換: 潜在的な敵対者に対する摂動を構築する方法
3. 制約: 有効な敵対者の例は何を満たすべきか
4. 検索方法: 制約と目標を満たす変換から敵対者を見つける方法例
目標
非ターゲット分類: モデルに入力を誤って分類させる
ターゲット分類: クラス A の基本的な事実を持つサンプルを別のクラス B に分類する
ユニバーサル サフィックス ドロッパー: 翻訳された文から一部のサフィックスを削除する
変換
テキストをスクランブルして、潜在的な対戦相手を構築する方法
WordNet 同義語を介した単語置換
kNN または E-ball を介した、カウンターフィットグローブ埋め込み空間での単語
置換 逆マッチング埋め込み空間: 言語制約を使用して、同義語を対義語に近づけたり、反対語から遠ざけたりする
BERT を介して言語をマスクする モデル(MLM) は単語の置き換えを予測します
が、意味はさらに悪くなります。
BERT 再構成 (マスク解除) を使用して単語の置換が可能です。
単語の置換は、動詞、名詞、形容詞の屈折形を変更することによって行われます。 屈折
形態素: 接辞は単語の基本的な意味を変更することはなく、品詞 (POS) の指標/特徴です。
単語埋め込みの勾配による単語の置換
これはセマンティクスに影響します。