LIME原文翻訳

記事ディレクトリ


序文

解釈可能性記事の翻訳 LIME


「なぜあなたを信頼しなければならないのですか?」分類器の予測の説明

「なぜあなたを信頼する必要があるのですか?」分類器の予測を説明する

  1. 元のリンク: https://arxiv.org/pdf/1602.04938v1.pdf

  2. コードリンク: https://github.com/marcotcr/lime-experiments

  3. 著者情報:

    名前 住所 郵便
    マルコ・トゥーリオ・リベイロ ワシントン大学シアトル、WA 98105、米国 [email protected]
    サミール・シン ワシントン大学シアトル、WA 98105、米国 同じ@cs.uw.edu
    カルロス・ゲステリン ワシントン大学シアトル、WA 98105、米国 [email protected]

まとめ

広く採用されているにもかかわらず、機械学習モデルはほとんどがブラックボックスのままです。ただし、予測の背後にある理由を理解することは、モデルの信頼性を評価する上で非常に重要です。予測に基づいてアクションを実行する計画がある場合、または新しいモデルを導入するかどうかを選択する場合、信頼は基礎となります。このような理解により、モデルに対する洞察がさらに得られ、信頼できないモデルや予測を信頼できるモデルや予測に変えるために使用できます。

広く採用されているにもかかわらず、機械学習モデルは依然としてほとんどがブラックボックスです。ただし、予測の背後にある理由を理解することは、モデルの信頼性を評価するために非常に重要です。予測に基づいて行動する場合、または新しいモデルを導入するかどうかを選択する場合、信頼は非常に重要です。この理解により、信頼できないモデルや予測を信頼できるものに変えるために使用できるモデルに関する洞察がさらに得られます。

この研究では、予測の周囲で解釈可能なモデルを局所的に学習することにより、任意の分類器の予測を解釈可能かつ忠実な方法で説明する新しい説明手法である LIME を提案します。さらに、代表的な個々の予測とその説明を非冗長な方法で提示し、タスクをサブモジュール最適化問題として枠組み化することでモデルを説明する方法を提案します。テキスト (例: ランダム フォレスト) と画像分類 (例: ニューラル ネットワーク) のさまざまなモデルを説明することで、これらの方法の柔軟性を示します。説明の有用性は、シミュレーションと人間の被験者の両方による新しい実験を通じて示されています。私たちの説明は、予測を信頼すべきかどうかの決定、モデルの選択、信頼できない分類器の改善など、信頼を必要とするさまざまなシナリオでユーザーを支援します。

この研究では、予測の周囲で解釈可能なモデルを局所的に学習することで、任意の分類子の予測を解釈可能かつ忠実な方法で説明する新しい解釈手法である LIME を提案します。さらに、代表的な個々の予測とその解釈を非冗長な方法で提示し、タスクをサブモジュール最適化問題として枠組み化することによってモデルを解釈する方法を提案します。テキスト (ランダム フォレストなど) と画像分類 (ニューラル ネットワークなど) のさまざまなモデルを解釈することで、これらの手法の柔軟性を実証します。説明の有効性はシミュレーション実験や人体実験によって実証されています。私たちの説明により、ユーザーは、予測を信頼すべきかどうかの決定、モデルの選択、信頼できない分類子の改善、分類子を信頼すべきではない理由の検出など、信頼が必要なさまざまなシナリオに対応できるようになります。

1 はじめに

機械学習は、最近の科学技術の多くの進歩の中核です。残念ながら、この分野では人間の重要な役割が見落とされがちです。人間が機械学習分類器をツールとして直接使用している場合でも、出荷する必要がある製品にモデルを導入している場合でも、重大な懸念は残ります。ユーザーがモデルや予測を信頼しなければ、それを使用しないということです。信頼の 2 つの異なる (しかし関連する) 定義を区別することが重要です。(1) 予測を信頼する、つまり、ユーザーが個々の予測を十分に信頼して、それに基づいて何らかのアクションを実行できるかどうか、および (2) モデルを信頼する、つまり、ユーザーは、モデルがデプロイされた場合に適切に動作することを信頼します。どちらも、モデルをブラック ボックスとして見るのではなく、人間がモデルの動作をどの程度理解しているかによって直接影響を受けます。

機械学習は、最近の多くの科学技術の進歩の中心です。残念ながら、この分野では人間の重要な役割が見落とされがちです。人間が機械学習分類器をツールとして直接使用する場合でも、出荷する必要がある製品にモデルを導入する場合でも、重大な問題が残ります。ユーザーがモデルや予測を信頼しない場合、ユーザーはそれを使用しません。信頼の 2 つの異なる (しかし関連する) 定義を区別することが重要です: (1) 信頼予測、つまり、ユーザーが予測に基づいて何らかのアクションを実行するのに十分な予測を信頼するかどうか、(2) 信頼モデル、つまり、ユーザーが予測を信頼するかどうかこれにより、デプロイ時に賢明な方法で動作します。どちらも、モデルをブラック ボックスとして扱うのではなく、人間がモデルの動作をどの程度理解しているかに直接影響されます。

モデルを現実世界のアクションに使用する場合、個々の予測の信頼性を判断することは重要な問題です。たとえば、医療診断 [6] やテロリズム検出に機械学習を使用する場合、壊滅的な結果を招く可能性があるため、盲目的に予測に基づいて行動することはできません。個々の予測を信頼することとは別に、モデルを「実際に」展開する前にモデル全体を評価する必要もあります。この決定を行うには、ユーザーは、関心のある指標に従って、モデルが実世界のデータで適切にパフォーマンスを発揮するという確信を持つ必要があります。現在、モデルは、利用可能な検証データセットの精度などのメトリクスを使用して評価されます。ただし、実際のデータは大きく異なることが多く、さらに、評価指標が製品の目標を示していない可能性があります。このような指標に加えて、個々の予測とその説明を検査することは、この問題の解決策となる可能性があります。この場合、特に大規模なデータセットの場合、どのインスタンスを検査するかを提案してユーザーをガイドすることが重要です。

モデルを現実世界のアクションに使用する場合、個々の予測の信頼度を決定することは重要な問題です。たとえば、医療診断 [6] やテロリズム検出に機械学習を使用する場合、壊滅的な結果を招く可能性があるため、予測に基づいてやみくもに行動することはできません。個々の予測を信頼することに加えて、モデルを「実際に」展開する前に全体として評価する必要があります。この決定を下すために、ユーザーは、対象のメトリクスに基づいて、モデルが実世界のデータで適切にパフォーマンスを発揮するという確信を持つ必要があります。現在、モデルは、利用可能な検証データセットの精度などの指標を使用して評価されます。ただし、実際のデータは大きく異なることが多く、評価指標は製品の目標を示していない場合があります。これらの尺度に加えて、個々の予測とその解釈を調べることで、この問題に対処できます。この場合、特に大規模なデータセットの場合、どのインスタンスを調査するかを提案してユーザーをガイドすることが重要です。

この論文では、「予測を信頼する」問題の解決策として個々の予測に説明を提供し、「モデルを信頼する」問題の解決策としてそのような予測 (および説明) を複数選択することを提案します。私たちの主な貢献は次のように要約されます。

この投稿では、「予測を信頼する」問題の解決策として個々の予測に説明を提供し、「モデルを信頼する」問題の解決策としてそのような予測 (および説明) を複数選択することを提案します。私たちの主な貢献は次のように要約されます。

  • LIME は、解釈可能なモデルを使用して局所的に近似することで、あらゆる分類子または回帰子の予測を忠実に説明できるアルゴリズムです。

  • LIME は、堅牢な方法で説明する解釈可能なモデルを使用して、分類子または回帰子の予測を局所的に近似するアルゴリズムです。

  • SP-LIME は、サブモジュール最適化を通じて「モデルを信頼する」問題に対処するための説明付きの代表的なインスタンスのセットを選択する方法です。

  • SP-LIME は、代表的なインスタンスのセットを選択し、サブモジュールの最適化を通じて信頼モデルの問題を解決するアルゴリズムです。

  • 模擬被験者と人間の被験者による包括的な評価。信頼および関連タスクに対する説明の影響を測定します。私たちの実験では、LIME を使用する非専門家でも、現実の世界でより適切に一般化できる分類器をペアから選択できます。さらに、LIME を使用して特徴量エンジニアリングを行うことで、20 のニュースグループでトレーニングされた信頼できない分類子を大幅に改善することができました。また、画像上のニューラル ネットワークの予測を理解することで、専門家がモデルを信頼すべき時期とその理由を知るのにどのように役立つかについても説明します。

  • 通过模拟和人体实验进行综合评估,我们测量解释对信任和相关任务的影响。在我们的实验中,使用LIME的非专家能够从一对分类器中挑选出在现实世界中泛化更好的分类器。此外,通过使用LIME进行特征工程,他们能够极大地改进在20个新闻组上训练的不可信分类器。我们还展示了理解神经网络对图像的预测如何帮助实践者知道何时以及为什么他们不应该信任模型。

2 The Case for Explanations 解释的理由

By “explaining a prediction”, we mean presenting textual or visual artifacts that provide qualitative understanding of the relationship between the instance’s components (e.g. words in text, patches in an image) and the model’s prediction. We argue that explaining predictions is an important aspect in getting humans to trust and use machine learning effectively, provided the explanations are faithful and intelligible.

通过“解释预测”,我们的意思是呈现文本或视觉工件,提供对实例组件(例如文本中的单词、图像中的补丁)和模型预测之间关系的定性理解。我们认为,解释预测是一个重要的方面,让人类信任和使用机器学习有效,只要解释是可信的和可理解的。

個々の予測を説明するプロセスを図 1 に示します。わかりやすい説明が提供されれば、医師がモデルを活用して意思決定を行うのがはるかに有利になることは明らかです。この場合、説明は、相対的な重みを付けた症状の小さなリストです。つまり、予測に寄与する症状 (緑色)、または予測に反する証拠となる症状 (赤色) です。この例や、人間が予測を利用して意思決定を行う他の例では、信頼が根本的な懸念事項となります。製品や映画の推奨のように、賭け金が低い場合でも、ユーザーはその予測にお金や時間を費やすほど十分に信頼する必要があります。人間は通常、アプリケーション ドメインに関する事前知識を持っており、その背後にある推論を理解していれば、それを使用して予測を受け入れる (信頼する) か拒否することができます。それは観察されており、

個々の予測を解釈するプロセスを図 1 に示します。わかりやすい説明が提供されれば、モデルの助けを借りて医師が意思決定を行う能力が向上することは明らかです。この場合、説明は、予測に寄与する (緑)、または予測に対する証拠 (赤) のいずれかである相対的な重みを含む症状の小さなリストです。現時点、そして人間が予測を利用して意思決定を行う他の例において、根本的な懸念は信頼です。製品や映画の推奨など、リスクの低い状況であっても、ユーザーは予測にお金や時間を費やすほど予測を信頼する必要があります。人間は多くの場合、アプリケーション ドメインについての事前知識を持っており、その背後にある推論を理解していれば、この知識を使用して予測を受け入れる (信頼する) か拒否することができます。たとえば、説明を提供すると、コンピュータ生成の映画推奨 [12] やその他の自動システム [7] の受け入れが増加することが観察されています。

ここに画像の説明を挿入

図 1: 個々の予測の説明。モデルは患者がインフルエンザに罹患していると予測し、LIME は患者の病歴のどの症状が予測につながったかを強調表示します。くしゃみと頭痛は「インフルエンザ」の予測に寄与するものとして描かれていますが、「疲労が​​ない」ということはそれを否定する証拠です。これらを使用すると、医師はモデルの予測について情報に基づいた決定を下すことができます。

図 1: 個々の予測の解釈。モデルは患者がインフルエンザに罹患していると予測し、LIME は患者の病歴のどの症状がその予測につながるかを強調表示します。くしゃみと頭痛は「インフルエンザ」予測の理由として挙げられましたが、「疲労が​​ない」ことはこの予測を否定する証拠でした。これらを使用すると、医師はモデルの予測について情報に基づいた意思決定を行うことができます。

すべての機械学習アプリケーションには、モデルに対する一定の信頼度が必要です。分類モデルの開発と評価は、多くの場合、注釈付きデータの収集、その後のサブセットのパラメーターの学習、および残りのデータの自動的に計算されたメトリクスを使用した評価で構成されます。これは多くのアプリケーションにとって有用なパイプラインですが、検証データの評価は、多くの理由により「実際の」パフォーマンスに対応していないことが多く、したがって信頼はそれだけに頼ることができないことが明らかになりました。例を見ることは、理解を深め[20]、それらが信頼できるかどうかを判断するための人間の基本的な戦略です。特に例が説明されている場合にはそうです。したがって、モデルの全体的な理解を提供する方法として、モデルのいくつかの代表的な個別の予測を説明することを提案します。

すべての機械学習アプリケーションには、モデルに対するある程度の信頼が必要です。分類モデルの開発と評価には、通常、注釈付きデータの収集、サブセットのパラメーターの学習、自動的に計算されたメトリクスを使用した残りのデータの評価が含まれます。これは多くのアプリケーションにとって有用なパイプラインですが、検証データの評価が多くの理由から「実際の」パフォーマンスと一致しないことは明らかであり、そのため信頼を完全に信頼することはできません。例を見ることは、人間の理解 [20] と、特にそれらの例が説明されている場合に、それらの例がもっともらしいかどうかを判断するための基本的な戦略です。したがって、モデルを全体的に理解する方法として、いくつかの代表的な個別の予測モデルを解釈することを提案します。このグローバルな視点は、機械学習の実践者が異なるモデルまたはモデルの構成を決定するのに非常に役立ちます。

モデルが誤る可能性がある原因はいくつかあり、実践者は相互検証に基づいてモデルの精度を過大評価することが知られています [21]。たとえば、データ漏洩は、実際には現れないトレーニング (および検証) データへの信号の意図的でない漏洩として定義されます [14]。精度が向上する可能性があります。カウフマンらによって引用された挑戦的な例。[14] は、患者 ID がトレーニングおよび検証データ内のターゲット クラスと高度に相関していることが判明したものです。この問題を予測と生データを観察するだけで特定するのは非常に困難ですが、図 1 のような説明が提供されていれば、予測の説明として患者 ID がリストされるため、はるかに簡単になります。もう 1 つの特に検出が難しい問題は、データセットのシフトです [5]。ここで、トレーニング データはテスト データとは異なります (後で有名な 20 ニュースグループ データセットの例を示します)。説明によって得られる洞察 (説明がモデルの実際の動作に対応している場合) は、信頼できないモデルを信頼できるモデルに変えるために何をしなければならないかを特定するのに特に役立ちます。たとえば、漏洩したデータを削除したり、漏洩を回避するためにトレーニング データを変更したりするなどです。データセットのシフト。

モデルが誤る可能性がある原因はいくつかあり、実践者は相互検証に基づいてモデルの精度を過大評価することが知られています [21]。たとえば、データ漏洩は、実際には発生しないトレーニング (および検証) データへの信号の不注意な漏洩として定義され [14]、これにより精度が向上する可能性があります。Kaufman et al. [14] によって引用された困難な例は、トレーニング データと検証データの両方で患者 ID がターゲット クラスと強く関連付けられていることが判明したことです。予測と生データを見るだけでこの問題を特定するのは非常に困難ですが、図 1 に示すように説明が提供されると、予測の説明として患者 ID がリストされるため、はるかに簡単になります。検出が特に難しいもう 1 つの問題は、トレーニング データがテスト データと異なるデータセット シフト [5] です (後で有名な 20 ニュースグループ データセットで例を示します)。説明によって得られる洞察 (説明がモデルの実際の動作に対応している場合) は、信頼できないモデルを信頼できるモデルに変えるために何をしなければならないかを判断するのに特に役立ちます。たとえば、漏洩したデータを削除したり、トレーニング データをデータセットを回避するように変更したりするなどです。転送。

機械学習の実務者は多くの場合、多数の選択肢からモデルを選択する必要があり、2 つ以上のモデル間の相対的な信頼性を評価する必要があります。図 2 では、精度と併せて、個々の予測の説明を使用してモデルを選択する方法を示しています。この場合、検証セットの精度が高いアルゴリズムは実際にははるかに悪いものであり、説明が提供されていれば (これも人間の事前知識による) 簡単にわかる事実ですが、そうでない場合は困難です。さらに、計算して最適化できる指標 (精度など) と、ユーザー エンゲージメントや維持率などの実際の関心のある指標との間には、不一致が生じることがよくあります。このようなメトリクスを測定することはできないかもしれませんが、特定のモデルの動作がそれらのメトリクスにどのような影響を与える可能性があるかについては知識があります。したがって、実践者は、たとえそのような機能を利用することで相互検証におけるモデルの精度が向上したとしても、「クリックベイト」記事に関連する機能(ユーザー維持率を損なう可能性がある)をあまり重要視しない、コンテンツ推奨の精度の低いモデルを選択したい場合があります。説明は、さまざまなモデルを比較できるように、任意のモデルに対して説明を生成できるメソッドであれば、これら (およびその他の) シナリオで特に役立ちます。

機械学習の実践者は多くの場合、多くの選択肢からモデルを選択し、2 つ以上のモデル間の相対的な信頼性を評価する必要があります。図 2 では、個別の予測説明と精度を使用してモデルを選択する方法を示しています。この場合、検証セットの精度が高いアルゴリズムは実際にははるかに悪く、説明が提供されている場合には容易にわかる事実ですが (これも人間の事前知識によるものです)、他の場合には見分けるのは困難です。さらに、精度などの計算および最適化が可能な指標と、ユーザー エンゲージメントや維持率など実際に関心のある指標との間には、不一致が存在することがよくあります。これらのメトリクスを測定することはできないかもしれませんが、特定のモデルの動作がメトリクスにどのような影響を与えるかはわかっています。したがって、実践者は、たとえこれらの機能を利用することで相互検証におけるモデルのパフォーマンスが向上するとしても、「クリックベイト」記事に関連する機能 (ユーザー維持率を損なう可能性がある) にあまり重点を置かない、精度の低いコンテンツ推奨モデルを選択することを望むかもしれません。メソッドが任意のモデルの説明を生成でき、さまざまなモデルを比較できる場合、説明はこれら (およびその他の) シナリオで特に便利であることに注意してください。

ここに画像の説明を挿入

図 2: 文書が「キリスト教」に関するものであるか、「無神論」に関するものであるかを判断しようとする競合する分類器の個々の予測を説明する。棒グラフは、最も関連性の高い単語に与えられた重要性を表しており、テキスト内でも強調表示されています。色は、その単語がどの階級に属しているかを示します (緑色は「キリスト教」、マゼンタは「無神論」)。スペースの都合上、全文は掲載しておりません。

図 2: 文書が「キリスト教」または「無神論」についての個人的な予測であるかどうかを判断しようとする競合する数量詞の解釈。バーは、最も関連性の高い単語に与えられた重要性を示し、テキスト内でも強調表示されます。色は、その単語が属するカテゴリを示します (緑色は「キリスト教」、マゼンタは「無神論」)。スペースの都合上、全文は掲載しておりません。

説明者に求められる資質 説明者に求められる資質

私たちはこれまで、分類器 (またはリグレッサー) の個々の予測を説明することが、予測またはモデルの信頼性を評価するための重要な要素であると主張してきました。次に、説明方法から望ましい特性のいくつかを概説します。

説明の重要な基準は、説明が解釈可能であること、つまり、入力変数の結合値とその結果として得られる予測応答値の間の定性的な理解を提供することです [11]。解釈可能性には人間の限界を考慮する必要があることに注意してください。したがって、線形モデル [24]、勾配ベクトル [2]、または加法モデル [6] は解釈可能な場合もあれば、解釈できない場合もあります。数百または数千の特徴が予測に大きく寄与する場合、たとえ個々の重みを検査できるとしても、ユーザーが予測が行われた理由を理解することを期待するのは合理的ではありません。この要件は、説明が理解しやすいものでなければならないことをさらに意味しますが、これはモデルで使用される機能には必ずしも当てはまりません。したがって、説明内の「入力変数」は、モデルで使用される特徴とは異なる場合があります。

これまで、分類子 (または回帰子) の個々の予測を解釈することが、予測またはモデルの信頼性を評価する重要な部分であると主張してきました。ここで、解釈的なアプローチからいくつかの望ましい機能を概説します。

解釈の基本的な基準は、解釈可能であること、つまり、入力変数の結合値とその結果として得られる予測応答値の間の定性的な理解を提供することです[11]。解釈可能性には人間の限界を考慮する必要があることに注意してください。したがって、線形モデル [24]、勾配ベクトル [2]、または加法モデル [6] は解釈できる場合とできない場合があります。数百または数千の特徴が予測に大きく寄与している場合、たとえ個々の重みを調べることができたとしても、ユーザーが予測が行われた理由を理解することを期待するのは不合理です。この要件は、説明が理解しやすいものでなければならないことをさらに意味しますが、これはモデルで使用される機能には必ずしも当てはまりません。したがって、説明中の「入力変数」はモデルで使用されている特徴量と異なる場合があります。

もう 1 つの重要な基準は、ローカルの忠実度です。モデル自体の完全な記述でない限り、説明が完全に忠実であることは多くの場合不可能ですが、説明が意味を持つためには、少なくとも局所的に忠実である必要があります。つまり、モデルが近傍でどのように動作するかに対応している必要があります。予測されているインスタンス。ローカルな忠実度はグローバルな忠実度を意味するものではないことに注意してください。グローバルに重要な機能がローカル コンテキストでは重要ではない可能性があり、その逆も同様です。グローバルな忠実度はローカルな忠実度を意味しますが、解釈可能なグローバルに忠実な説明を提示することは、複雑なモデルにとって依然として課題です。

もう 1 つの基本的な基準は、ローカル忠実度です。モデル自体の完全な記述でない限り、説明を完全に忠実にすることは通常不可能ですが、説明が意味を持つためには、少なくとも局所的に忠実である必要があります。つまり、モデルの近くのモデルの動作に対応している必要があります。予測中のインスタンス。ローカルな忠実度はグローバルな忠実度を意味するものではないことに注意してください。グローバルに重要な機能がローカルでは重要ではない可能性があり、その逆も同様です。グローバルな忠実度はローカルな忠実度を意味しますが、複雑なモデルに対して解釈可能なグローバルな忠実度の解釈を提供することは依然として課題です。

While there are models that are inherently interpretable [6, 17, 26, 27], an explainer must be able to explain any model, and thus be model-agnostic (i.e. treating the original model as a black box). Apart from the fact that many state-of-the-art classifiers are not currently interpretable, this also provides flexibility to explain future classifiers.

虽然有些模型本身是可解释的[6,17,26,27],但解释者必须能够解释任何模型,因此是模型不可知论者(即将原始模型视为黑盒)。除了许多最先进的量词目前无法解释外,这也为解释未来的量词提供了灵活性。

In addition to explaining predictions, providing a global perspective is important to ascertain trust in the model. As mentioned before, accuracy may often not be sufficient to evaluate the model, and thus we want to explain the model. Building upon the explanations for individual predictions, we select a few explanations to present to the user, such that they are representative of the model.

モデルの信頼性を判断するには、予測の説明に加えて、グローバルな視点を提供することも重要です。前述したように、精度だけではモデルを評価できない場合が多いため、モデルについて説明します。個々の予測の説明に基づいて、モデルを代表する説明をいくつか選択してユーザーに提示します。

3 ローカルで解釈可能なモデルに依存しない説明 ローカルに解釈可能なモデルに依存しない説明

ここでは、Local Interpretable Model-agnostic Explains (LIME) を紹介します。LIME の全体的な目標は、分類子に局所的に忠実な解釈可能な表現上で解釈可能なモデルを識別することです。

ここで、LIME (Locally Interpretable Model Agnostic Description) を導入します。LIME の全体的な目標は、局所的に分類子に忠実な解釈可能な表現上の解釈可能なモデルを識別することです。

3.1 解釈可能なデータ表現 解釈可能なデータ表現

説明システムを紹介する前に、特徴と解釈可能なデータ表現を区別することが重要です。前に述べたように、解釈可能な説明では、モデルで使用される実際の機能に関係なく、人間が理解できる表現を使用する必要があります。たとえば、テキスト分類で考えられる解釈可能な表現は、分類子が単語の埋め込みなどのより複雑な (そして理解できない) 特徴を使用する場合でも、単語の有無を示すバイナリ ベクトルです。同様に、画像分類の場合、解釈可能な表現は、類似したピクセルの連続パッチ (スーパー ピクセル) の「存在」または「不在」を示すバイナリ ベクトルである場合がありますが、分類器は画像を 3 つのカラー チャネルを持つテンソルとして表すことができます。ピクセルごとに。x '' ∈ { 0 , 1 } d '' x' \in \{0,1\}^{d'}バツ{ 0 ,1 }d'は、解釈可能な表現のバイナリ ベクトルを示します。

説明システムを提案する前に、特徴と解釈可能なデータ表現を区別することが重要です。前述したように、解釈可能な説明には、モデルで使用される実際の機能に関係なく、人間が理解できる表現を使用する必要があります。たとえば、テキスト分類で考えられる解釈可能な表現は、単語の有無を示すバイナリ ベクトルですが、たとえ分類子が単語の埋め込みなどのより複雑な (そして理解できない) 特徴を使用することもできます。同様に、画像分類の場合、解釈可能な表現は、類似したピクセル (スーパーピクセル) の連続パッチの「存在」または「不在」を示すバイナリ ベクトルにすることができ、分類子は、3 つのカラー チャネルのテンソルを持つ各ピクセルとして画像を表すことができます。 。x ∈ R dx\in\mathbb{R}^d を実行しますバツRd d は解釈されるインスタンスの元の表現を表し、x ′ ∈ { 0 , 1 } d ′ x'\in\{0,1\}^{d'} をバツ{ 0 ,1 }d'は、解釈可能な表現のバイナリ ベクトルを示します。

3.2 忠実性と解釈可能性のトレードオフ 忠実性と解釈可能性のトレードオフ

形式的には、説明をモデルg ∈ G g \in Gとして定義します。gG、ここでGGGは、線形モデル、デシジョン ツリー、またはフォーリング ルール リストなど、潜在的に解釈可能なモデルのクラスです [27]。仮定は、与えられたモデルg ∈ G g \in GgGでは、視覚的またはテキストのアーティファクトを使用してユーザーに簡単に提示できます。ggのドメインに注意してくださいg{ 0 , 1 } d ' \{0,1\}^{d'}{ 0 ,1 }d'、つまりggg は、解釈可能なコンポーネントの有無に基づいて機能します。前に述べたように、すべてのg ∈ G g \in GgG は解釈できるほど単純です。したがって、Ω ( g ) \Omega(g)Ω ( g ) は、説明g ∈ G g \in Gの (解釈可能性ではなく) 複雑さの尺度になります。gG. _ たとえば、決定木Ω ( g ) \Omega(g)Ω ( g )はツリーの深さになる可能性がありますが、線形モデルの場合はΩ ( g ) Ω(g)Ω ( g ) は、ゼロ以外の重みの数である場合があります。

形式的には、解釈をモデルg ∈ G g\in Gとして定義します。gG、ここでgggは、線形モデル、デシジョン ツリー、または降下規則のリストなど、潜在的に解釈可能なモデルのクラスです [27]。与えられたモデルg ∈ G g\in GgG、視覚的またはテキストのアーティファクトとしてユーザーに簡単に提示できます。注意してください、gggの定義域は{ 0 , 1 } d ' \{0,1\}^{d'}です{ 0 ,1 }dつまり、gg」g は、解釈可能なコンポーネントの有無に基づいて動作します。前に述べたように、すべてのg ∈ G g\in GgG は説明するのに十分簡単なので、 Ω ( g ) \Omega(g)とします。Ω ( g )はg ingg\ in gとして解釈されます処理の複雑さ (解釈可能性と比較 た) の尺度たとえば、決定木の場合、Ω ( g ) \Omega(g)Ω ( g )はツリーの深さになる可能性があり、線形モデルの場合、Ω(g) はゼロ以外の重みの数になる可能性があります。

説明されているモデルを f : R d → R \mathbb{R}^d \rightarrow Rと表すことにします。RdR . 分類では、f ( x ) f(x)f ( x )は、 xxが発生する確率 (またはバイナリ指標) です。x は特定のクラス1さらにΠ x ( z ) \Pi_x(z)円周率×( z )は、インスタンスzz間の近接性の尺度として使用されます。zからxxまでx 、 xx の周りの局所性を定義するため×最後に、L ( f , g , Π x ) \mathcal{L}(f, g, \Pi_x)L ( f ,g 円周率×) Π x \Pi_xで定義される局所で g が f を近似する際にどれだけ忠実でないかを示す尺度になります円周率×解釈可能性と局所忠実度の両方を保証するには、L ( f , g , Π x ) \mathcal{L}(f, g, \Pi_x) を最小化する必要があります。L ( f ,g 円周率×) Ω ( g ) \Omega(g)を持ちながらΩ g は人間が解釈できるほど十分に低い値であること。LIMEによって生成された説明は、次のようにして得られます。

解釈されたモデルにffを使用させますf :R d → R \mathbb{R}^d\rightarrow RRdRさんは言いました。分類では、f ( x ) f(x)f ( x )はxxですxが特定のクラスに属する確率 (またはバイナリ指標)。さらにΠ x ( z ) \Pi_x(z)円周率×( z )インスタンスzzzからxxまでxxにおけるようなx間の近接度の測定xの周りの位置を定義します最後に、L ( f , g , Π x ) \mathcal{L}(f, g, \Pi_x)L ( f g Π×) Π x \Pi_xで g を測定します円周率×定義された局所性における f の近似の不忠実度。解釈可能性と局所的忠実性を保証するには、 L ( f , g , Π x ) \mathcal{L}(f, g, \Pi_x) を最小化する必要があります。L ( f g Π×) 、 Ω ( g ) \Omega(g)を作成しながらΩ ( g )は人間が解釈できるほど十分に低いです。LIMEによって導出される解釈は
次のとおりです。 ξ ( x ) = argming ∈ GL ( f , g , Π x ) + Ω ( g ) (1) \xi(x) = argmin_{g\in G} \mathcal{L } (f, g, \Pi_x) + \Omega(g)\tag{1}ξ ( x )=アーグミン_ _ _ _ _g GL ( f ,g 円周率×)+Ω ( g )( 1 )この定式化は、さまざまな説明族GG
で使用できます。G、忠実度関数L \mathcal{L}L、複雑さの測定値Ω \OmegaΩここでは、説明として疎線形モデルに焦点を当て、摂動を使用した検索の実行に焦点を当てます。

この公式は、さまざまな解釈ファミリーGGに使用できます。G、忠実度関数L \mathcal{L}Lと複雑さの尺度Ω \OmegaΩここでは、インタプリタとしてのスパース線形モデルに焦点を当て、実装では摂動探索を使用します。

3.3 局所探索のためのサンプリング

予想されるローカル認識損失L ( f , g , Π x ) \mathcal{L}(f,g,\Pi_x) を最小限に抑えたいと考えています。L ( f g Π×)説明者がモデルに依存しないようにしたいため、f については何も仮定しません。したがって、解釈可能な入力が変化するときの f の局所的な動作を学習するために、L ( f , g , Π x ) \mathcal{L}(f,g,\Pi_x) をL ( f g Π×) Π x \Pi_xで重み付けされたサンプルを描画することによって円周率×x ' x'の周りのインスタンスをサンプリングしますバツ' xの非ゼロ要素を描画することによるx'バツ'均一にランダム (そのような描画の数も均一にサンプリングされます)。摂動サンプルz ′ ∈ { 0 , 1 } d ′ z' \in \{0, 1\}^{d'} を仮定z{ 0 ,1 }d' ( x ' x'の非ゼロ要素の一部が含まれます)バツ' )、元の表現z ∈ R dz \in \mathbb{R}^d でサンプルを復元します。zRdを取得してf ( z ) f(z)f ( z )。説明モデルのラベルとして使用されます。このデータセットZZ関連するラベルを持つ摂動サンプルのZを使用して、式 (1) を最適化します。(1) 説明ξ ( x ) \xi(x)ξ ( x )LIME の背後にある主な直感を図 3 に示します。ここでは、 xx付近の両方のインスタンスをサンプリングしています。x ( Π x \Pi_xにより重みが高くなります)円周率×) x から遠く離れています ( Π x \Pi_xからの重みが低い)円周率×)。元のモデルは大域的に説明するには複雑すぎる可能性がありますが、LIME は局所的に忠実な (この場合は線形) 説明を提示します。局所性はΠ x \Pi_xによって捕捉されます。円周率×サンプルはΠ x \Pi_xで重み付けされているため、私たちの方法はサンプリング ノイズに対してかなり堅牢であることは注目に値します。円周率×式で (1)。ここで、この一般的な枠組みの具体例を紹介します。

予想される局所的な知覚損失L( f , g , Π x ) \mathcal{L}(f, g, \Pi_x) を最小限に抑えたいと考えています。L ( f , g ) Π×)、インタープリタがモデルに依存しないようにしたいため、 f については何も仮定しません。したがって、説明可能な入力変動の下での f の局所的な動作を理解するために、サンプル(f, g, \Pi_x) をプロットすることによって L( f , g , Π x ) をL ( f , g ) Π×)、重み付きΠ x \Pi_x円周率×x '' x ''をランダムに一様に描画しますバツ'非ゼロ要素をx ' x'バツ'周囲のインスタンス (描画される数値も均一にサンプリングされるように)。摂動サンプルz ′ ∈ { 0 , 1 } d ′ z'\in\{0, 1\}^{d'} がz{ 0 1 }d' ( x ' x'を含むバツ' )、元の表現z ∈ R dz\in\mathbb{R}^dzRdでサンプリングしf(z) f(z)f ( z )。モデルを説明するラベルとして使用されます。このデータセット $Zが、関連するラベルを持つ摂動サンプルを与えられた場合、式 (1) を最適化して説明を取得し、関連するラベルを持つ摂動サンプルを得るために、式 (1) を最適化します。Eq.1 \xi(x) 。 L I M E 背 后 的 主 要 直 觉 如 图 3 所 示 , 其 中 我 们 在 。LIME背后的主要直觉如图3所示,其中我们在 LIME3x 附 近 ( 由 于 附近(由于 近い( \Pi_ xの重みが高いため)、x から遠い (からの重みが高い)、および x から遠い (からインスタンスはxから離れてサンプリングされます( \Pi_xからの重みが低くなります) 元のモデルはグローバルな解釈には複雑すぎる可能性がありますが、LIME はインスタンスがローカルに (より低い重みで) サンプリングされるローカルに忠実な (この場合は線形の) 解釈を提供します。元のモデルはグローバルな解釈には複雑すぎる可能性がありますが、LIME はローカルに忠実な (この場合は線形) 解釈を提供します。インスタンスは )重み低い場所でサンプリングますモデルはグローバルな解釈複雑すぎる可能性があります L I M Eローカルで忠実な解釈提供します(この場合_)では線形であり\ Pi_xによってローカルキャプチャされます。式 (1) ではサンプルの重みが取得されるため、私たちの方法はサンプリング ノイズに対して非常に堅牢であることは注目に値します。式 (1) ではサンプルの重みがキャッチ( 1 )ではサンプルが\ Pi_x $によって重み付けされているためたちの方法はサンプリングノイズに対して非常に堅牢であること注目値しますここで、この一般的な枠組みの具体例を紹介します。

3.4 疎な線形説明 疎な線形説明

この文書の残りの部分については、GGに任せます。G は、 g ( z ' ) = wg ⋅ z ' g(z') = w_g \cdot z' となるような線形モデルのクラスになります。g ( z _=wgz _ 局所的に重み付けされた二乗損失をL \mathcal{L}L、式で定義されます。(2) ここで、Π x ( z ) = exp ( − D ( x , z ) 2 / σ 2 ) \Pi_x(z) = exp(−D(x, z)^2/σ^2 ) とします。円周率×( z )=e x p ( D ( x ,z )2 /2 )DDで定義された指数カーネルであることD (例: テキストのコサイン距離、L 2 L2画像のL 2距離)、幅σ σp

このペーパーの残りの部分では、GG が次のように仮定されます。G是一类线性模型,使得 G ( z ′ ) = w g ⋅ z ′ G(z')=w_g \cdot z' Gz=wgz。我们使用局部加权平方损失作为 L \mathcal{L} L,如等式(2)中所定义,其中我们让 Π x ( z ) = e x p ( − D ( x , z ) 2 / σ 2 ) \Pi_x(z)=exp(−D(x,z)^2/σ^2) Πxz=exp(Dxz2/σ2是在某个距离函数 D D D(例如,文本的余弦距离, L 2 L2 L2图像的距离)上定义的具有宽度的指数核 σ σ σ
L ( f , g , Π x ) = ∑ z , z ′ ∈ Z ( f ( z ) − g ( z ′ ) ) 2 (2) \mathcal{L}(f,g,\Pi_x)=\sum_{ z,z'\in Z}(f(z)-g(z'))^2\tag{2}L ( f ,g 円周率×)=z z Z_( f ( z )g ( z_2( 2 )
テキスト分類の場合、解釈可能な表現を単語の集まりとし、含まれる単語の数に制限 K を設定することによって、説明が解釈可能であることを保証します。つまり、Ω ( g ) = ∞ I [ ∥ wg∥ 0 > K ] \Omega(g) = \infty \mathbb{I}[\|{w_g}\|_0 > K]Ω ( g )=I [ wg0>K ]同じΩ \OmegaΩは、単語の代わりに「スーパー ピクセル」(任意の標準アルゴリズムを使用して計算)を使用して画像を分類します。これにより、画像の解釈可能な表現はバイナリ ベクトルになります。1 は元のスーパー ピクセルを示し、0 はグレー表示されたスーパー ピクセルを示します。ピクセル。この特別なΩ \OmegaΩ は式を直接解くことになります。(1) 扱いにくいですが、最初にKK を選択することで近似します。K特徴を Lasso (正則化パス [8] を使用) で取得し、次に最小二乗法 (アルゴリズム 1 で K-LASSO と呼ぶ手順) を介して重みを学習します。アルゴリズム 1 では、説明を作成するのに必要な時間は、ブラック ボックス モデルf ( zi ) f(zi)f ( z i )実行時間の大まかな目安としては、N = 5000 のラップトップで scikit-learn2 を使用して 1000 本の木があるランダム フォレストからの予測を説明するのに約 3 秒かかります。画像分類のためのインセプション ネットワーク [25] の各予測の説明には約 10 分かかります

テキスト分類の場合、解釈可能な表現を単語のバッグとし、含まれる単語の数に制限KKを設定することによってこれを行います。K,即Ω ( g ) = ∞ i [ ∥ w ∣ g ∥ u 0 > K ] \Omega(g)=\infty\mathbb{i}[\|{w|g}\|u 0>K]ああ( g )=i [ w gu 0>K ]、説明が解釈可能であることを確認するため。同じΩ \OmegaΩは、単語の代わりに「スーパーピクセル」(任意の標準アルゴリズムを使用して計算される)を使用して画像分類に使用します。これにより、画像の解釈可能な表現がバイナリ ベクトルになります。ここで、1 は元のスーパーピクセルを表し、0 はグレー表示されたスーパーピクセルを表します。この特別なΩ \OmegaΩを選択すると、式 (1) を直接解くことが難しくなりますが、最初になげなわを使用してKKK 個の特徴 (正則化パス [8] を使用)、次に重みが最小二乗法によって学習されます (アルゴリズム 1 ではこれをK-Lassoと呼びます)。アルゴリズム 1 では、説明の生成に必要な時間は主にブラック ボックス モデルf(zi) f(zi)f ( zi )の複雑さ実行時間の大まかなアイデアを得るには、 N=5000 のラップトップで21000 本の木のランダム フォレストからの予測を解釈するのに約 3 秒かかります画像分類のためにインセプション ネットワーク [25] の各予測を解釈するには約 10 分かかります

ここに画像の説明を挿入

図 3: LIME の直感を提示するためのおもちゃの例。ブラックボックス モデルの複雑な決定関数 f (LIME には不明) は青/ピンクの背景で表されますが、これは線形モデルではうまく近似できません。明るく太字の赤い十字が説明されているインスタンスです。LIME はインスタンスをサンプリングし、f を使用して予測を取得し、説明対象のインスタンスへの近さ (ここではサイズで表されます) によって重み付けします。破線は、局所的に (しかし全体的には) 忠実ではない、学習された説明です。

図 3: LIME の直感を示すおもちゃの例。ブラックボックス モデルの複素決定関数 f (LIME では不明) は青/ピンクの背景で示されており、線形モデルでは十分に近似できません。明るい太字の赤い十字は解釈の一例です。LIME はインスタンスをサンプリングし、f を使用して予測を取得し、説明されたインスタンスへの近さ (ここでは大きさで示されています) に従って重み付けします。破線は、学習内容の局所的 (ただし全体的ではない) の忠実な解釈です。

疎な線形説明用のアルゴリズム 1 LIME
必須:分類子 f、サンプル数 N
必須:インスタンス x とその解釈可能なバージョン x 0
**必須: **類似性カーネルΠ x \Pi_x円周率×, 説明の長さ K
$Z \leftarrow {} $
for i ∈ 1 , 2 , 3 , . , N i \in {1, 2, 3, ..., N}1 2 3 N do
z ' i ← サンプルアラウンド ( x ' ) z '_ i ← サンプルアラウンド(x ' )z '私はサンプル_ _ _ _ _ラウンド( x _ _ _ _' )
Z ← Z ⋃ [ zi ' , f ( zi ) , Π x ( zi ) Z \leftarrow Z \bigcup [z'_i , f(z_i), \Pi_x\left(zi\right)ZZ[ zf ( z私は円周率×( z i )
w の終了
← w \leftarroww K-投げ縄( Z , K ) (Z, K)( Z K ) zi ' z'_iz特徴として、f ( z ) f(z)f ( z )
をターゲットとしてwを返します

3.5 例 1: SVM によるテキスト分類 テキスト分類におけるサポート ベクター マシンの適用

図 2 (右側) では、(20 のニュースグループ データセットのサブセットで) 「キリスト教」と「無神論」を区別するためにユニグラムでトレーニングされた RBF カーネルを備えたサポート ベクター マシンの予測を説明します。この分類子は 94% のホールドアウト精度を達成しており、これに基づいて信頼したくなるかもしれませんが、インスタンスの説明では、予測が非常に恣意的な理由 (「投稿」、「ホスト」、「再」という単語) で行われていることを示しています。キリスト教や無神論とは何の関係もありません)。「投稿」という単語はトレーニング セットの例の 22% に出現し、その 99% はクラス「無神論」に出現します。ヘッダーが削除された場合でも、元のニュースグループ内の多作投稿者の固有名 (「Keith」など) は分類子によって選択されますが、これも一般化されません。

図 2 (右) では、(上位 20 のニュースグループ データセットのサブセット上で) 「キリスト教」と「無神論」を区別するためにユニグラム グラフ上で RBF カーネルがトレーニングされた SVM の予測を示しています。この分類子は 94% の精度を達成しており、そう信じ込まれてしまうかもしれませんが、ある例の説明では、予測がかなり恣意的な理由で行われたことが示されています (「投稿」、「ホスト」、「再」という単語はどちらにも関連付けられていません)キリスト教も無神論も関係あります)。「ポスト」という単語はトレーニング サンプルの 22% に出現し、クラス「無神論」では 99% に出現しました。たとえタイトルが削除されたとしても、分類子は元のニュースグループの多作投稿者の固有名 (「Keith」など) を選択しますが、これも一般化されません。

説明からそのような洞察を得た後、このデータセットには重大な問題があり (生のデータや予測を研究するだけでは明らかではありません)、この分類子、または保持されている評価は信頼できないことが明らかです。また、問題が何であるか、およびこれらの問題を修正してより信頼できる分類器をトレーニングするために実行できる手順も明確です。

解釈からそのような洞察を得た後、このデータセットには重大な問題があり (生データや予測だけを調べても明らかではありません)、分類器、つまり永続性評価が信頼できないことが明らかになりました。また、問題が何であるか、問題を修正してより信頼できる分類子をトレーニングするためにどのような手順を実行できるかについてもよく理解しています。

ここに画像の説明を挿入

図 4: Google の Inception ネットワークによって行われた画像分類予測の説明。ポジティブ ピクセルが強調表示されています。予測された上位 3 クラスは、「エレキギター」 (p = 0.32)、「アコースティック ギター」 (p = 0.24)、「ラブラドール」 (p = 0.21) です。

図 4: Google の Inception ネットワークによって行われた画像分類予測を解釈し、ポジティブ ピクセルを強調表示します。予測された上位 3 つは「エレキギター」(p=0.32)、「アコースティックギター」(p=0.24)、「ラブラドール」(p=0.21)

3.6 例 2: 画像の深層ネットワーク 画像深度ネットワーク

We learn a linear model with positive and negative weights for each super-pixel in an image. For the purpose of visualization, one may wish to just highlight the super-pixels with positive weight towards a specific class, as they give intuition as to why the model would think that class may be present. We explain the prediction of Google’s pre-trained Inception neural network [25] in this fashion on an arbitrary image (Figure 4a). Figures 4b, 4c, 4d show the super-pixels explanations for the top 3 predicted classes (with the rest of the image grayed out), having set K = 10. What the neural network picks up on for each of the classes is quite natural to humans - Figure 4b in particular provides insight as to why acoustic guitar was predicted to be electric: due to the fretboard. This kind of explanation enhances trust in the classifier (even if the top predicted class is wrong), as it shows that it is not acting in an unreasonable manner.

画像内の各スーパーピクセルに対して正と負の重みをもつ線形モデルを学習します。視覚化の目的では、特定のクラスの正の重みを持つスーパーピクセルのみを強調表示すると、モデルがそのクラスが存在する可能性があると考える理由が直感的にわかるためです。このようにして、任意の画像に対する Google の事前トレーニング済み Inception ニューラル ネットワーク [25] の予測を解釈します (図 4a)。図 4b、4c、4d は、最初の 3 つの予測クラスのスーパーピクセル解釈を示しています (残りの画像はグレー表示されています)。K=10 に設定した後、各クラスのニューラル ネットワークの学習は人間にとって自然です。特に、アコースティック ギターがエレクトリック ギターであると予測される理由についての洞察が提供されます。それはフレットボードによるものです。この説明は、分類器が不合理な動作をしていないことを示すため、(たとえ最上位の予測クラスが間違っていたとしても) 分類器への信頼が強化されます。

4 モデルを説明するためのサブモジュール選択は、モデルのサブモジュールの選択を説明するために使用されます。

単一の予測の説明により、ユーザーは分類器の信頼性についてある程度の理解を得ることができますが、モデル全体の信頼性を評価および評価するには十分ではありません。一連の個別のインスタンスを説明することで、モデルを全体的に理解できるようにすることを提案します。このアプローチは依然としてモデルに依存せず、ホールドアウト精度などの要約統計量の計算を補完します。

個々の予測の解釈により、ユーザーは分類器の信頼性についてある程度の洞察が得られますが、モデル全体の信頼性を評価および評価するには十分ではありません。私たちは、個々のインスタンスのセットを解釈することによって、モデルを全体的に理解できるようにすることを提案します。このアプローチはモデルに依存せず、ホールド精度などの要約統計量の計算を補完します。

複数の事例の説明は洞察力に富む可能性がありますが、ユーザーには多数の説明を検討する時間がない可能性があるため、これらの事例は慎重に選択する必要があります。人間が持つ時間と忍耐力を、モデルを理解するために喜んで調べたい説明の数を示す予算 B で表します。インスタンスのセット X が与えられた場合、ユーザーが検査するインスタンス B を選択するタスクとして選択ステップを定義します。

複数のインスタンスの説明は洞察力に富む可能性がありますが、ユーザーには多数の説明を解釈する時間がない可能性があるため、これらのインスタンスは慎重に選択する必要があります。人間が持つ時間と忍耐力を予算 B で表します。予算 B は、モデルを理解するために喜んで検討する説明の数を表します。インスタンスのセット X が与えられた場合、選択ステップを、ユーザー検査のためにインスタンス B を選択するタスクとして定義します。

The pick step is not dependent on the existence of explanations - one of the main purpose of tools like Modeltracker [1] and others [10] is to assist users in selecting instances themselves, and examining the raw data and predictions. However, as we have argued that looking at raw data is not enough to understand predictions and get insights, it is intuitive that a method for the pick step should take into account the explanations that accompany each prediction. Moreover, this method should pick a diverse, representative set of explanations to show the user – i.e. non-redundant explanations that represent how the model behaves globally.

选择步骤并不依赖于解释的存在—Modeltracker[1]和其他[10]等工具的主要目的之一是帮助用户自己选择实例,并检查原始数据和预测。然而,正如我们所争论的那样,查看原始数据不足以理解预测和获得见解,因此选择步骤的方法应该考虑每个预测附带的解释,这是很直观的。此外,这种方法应该选择一组不同的、有代表性的解释来向用户展示,即非冗余的解释来表示模型的全局行为。

一連のインスタンスXXに関するすべての説明を考慮すると、X 、 n × d ' n \times d'を構築します。n×d説明マトリックスWW」各インスタンスの解釈可能なコンポーネントのローカルな重要性を表すW。説明として線形モデルを使用する場合、たとえば xi と説明gi = ξ ( xi ) g_i = \xi(x_i)g私は=ξ ( x私は)として、 W ij = ∣ wgij ∣ W_{ij} = |w_{g_{ij} }| と設定します。W=wgさらに、W の各コンポーネント j について、 I j I_jとします。jグローバルな重要性、または説明空間におけるそのコンポーネントの代表性を示します。直感的には、多くの異なるインスタンスを説明する特徴がより高い重要度スコアを持つようにしたいと考えています。具体的には、テキスト アプリケーションの場合、I j = ∑ i = 1 n W ij I_j = \sqrt{\sum^n_{i=1}{W_{ij}}} と設定します。j=i = 1W 画像についてはカラーヒストグラムやスーパーピクセルのその他の特徴など、さまざまな画像のスーパーピクセル間で比較できるものを測定する必要がありますこれらのアイデアのさらなる検討は将来の作業に残します。図 5 に、 n = d ' = 5 n = d'= 5 のおもちゃの例 W を示します。n=d=ここで、W はバイナリです (簡単にするため)。重要度関数 I は、特徴 f1 よりも特徴 f2 のスコアを高くする必要があります。つまり、I 2 > I 1 I_2 > I_12>1機能 f2 はより多くのインスタンスを説明するために使用されるためです。

インスタンスのセットXXが与えられると、Xのすべての解釈について、 n × d ' n\times d'を構築します。n×d'説明マトリックスWWW、各インスタンスの解釈可能なコンポーネントのローカルな重要性を示します。線形モデルを説明として使用する場合、たとえば座席と説明gi = ξ(X i ) g_i = \xi(X_i)g私は=ξ X)私は)として、 W ij = ∣ W gij ∣ W_{ij}=|W_{g_{ij}}| と設定します。WWgさらに、W の各コンポーネント j について、 I j I_jとします。j解釈された空間におけるこのコンポーネントのグローバルな重要性または代表性を示します。直感的には、多くの異なる例を説明する i などの特徴の重要度スコアが高いと予想されます。具体的には、テキスト アプリケーションの場合、I j = ∑ i = 1 n W ij I_j=\sqrt{\sum^n_{i=1}W_{ij}} と設定します。j=i = 1W 画像についてはカラー ヒストグラムやスーパーピクセルのその他の特性など、異なる画像内のスーパーピクセル間の比較可能性を測定する必要があります。これらのアイデアは今後の研究に委ね、さらに調査していきます。図 5 におもちゃの例 W,n = d ' = 5 n=d'=5n=d=ここで、W はバイナリです (簡単にするため)。重要度関数 I は、特徴 f1 よりも特徴 f2 のスコアを高くする必要があります。つまり、I 2 > I 1 I_2>I_12>1機能 f2 はより多くのインスタンスを説明するために使用されるためです。

アルゴリズム 2 サブモジュール選択アルゴリズム
要件:インスタンス X、
すべての xi ∈ X x_i \in Xの予算 Bバツ私はX
W i ← W_ i \leftarrowW私は説明( xi , xi ' ) (x_i,x'_i)( ×私はバツ)アルゴリズム 1 の使用
end for
forj ∈ { 0... d ' } j \in \{0...d'\}j{ 0 . d' }
$I_j \leftarrow \sqrt{\sum^n_{i=1}を実行します

重要なコンポーネントをカバーするインスタンスを選択する必要がありますが、ユーザーに表示するコンポーネント内で一連の説明が冗長であってはなりません。つまり、同様の説明を持つインスタンスの選択は避けてください。図 5 では、2 行目が選択された後、ユーザーは機能 f2 と f3 をすでに見たため、3 行目には値が追加されませんが、最後の行ではユーザーにまったく新しい機能が表示されます。2 番目と最後の行を選択すると、ほぼすべての機能がカバーされます。この非冗長カバレッジの直感を式で形式化します。(3) ここで、 W と I が与えられた場合に、カバレッジを集合関数 c として定義します。これは、集合 V 内の少なくとも 1 つのインスタンスに現れる特徴の合計重要度を計算します。
c ( V , W , I ) = ∑ j = 1 d ′ I [ ∃ i ∈ V : W ij > 0 ] I j (3) c(V, W, I) =\sum^{d'}_{ j=1}\mathbb{I}_{[\exists i \in V:W_{ij}>0]}I_j\tag{3}c ( V ,=j = 1d[ i V : W> 0 ]j( 3 )
重要なコンポーネントをカバーするインスタンスを選択したいと考えていますが、ユーザーに表示されるコンポーネントでは、一連の説明が冗長であってはなりません。つまり、同様の説明を持つインスタンスの選択は避けてください。図 5 では、2 行目を選択した後、ユーザーが関数 f2 と f3 をすでに見たため、3 行目では値が追加されません。一方、最後の行ではまったく新しい関数がユーザーに表示されます。2 番目と最後の行を選択すると、ほとんどすべての機能をオーバーライドできます。この非冗長カバレッジの直観を式 (3) で形式化します。式 (3) では、セット V の性別の少なくとも 1 つのインスタンスで発生する特徴の合計重要度を計算する、W と I が与えられた集合関数 c としてカバレッジを定義します。

ピック問題は式で定義されます。(4) これは、集合 V、|V | を見つけることから構成されます。≤ B は最高のカバレッジを実現します。

ピック問題は式 (4) で定義され、|V| ≤ B が最高のカバレッジを達成する集合 V を見つけることから構成されます。
Pick ( W , I ) = arg ⁡ max ⁡ V , ∣ V ∣ ≤ B c ( V , W , I ) (4) Pick\left(W,I\right)= {\mathop{\arg\max} }_{V,|V|\leq B^{c(V,W,I)}}\tag{4}ピック_ _ _( W =arg _最大V V Bc ( V W I )( 4 )
式 (4) の問題 (4) は重み付けされたカバレッジ関数を最大化しており、NP ハードです [9]。c ( V ⋃ { i } , W , I ) − c ( V , W , I ) c(V \bigcup \{i\}, W, I) − c(V, W, I) としますc ( V{ i } I ) c ( V I )は、インスタンス i をセット V に追加することによる限界カバレッジ ゲインです。サブモジュール性により、限界カバレッジ ゲインが最も高いインスタンスを反復的にソリューションに追加する貪欲なアルゴリズムは、最適値に対する 1−1/e の定数因数近似保証を提供します [15]。アルゴリズム 2 のピック ステップのこの近似を概説し、これをサブモジュラー ピックと呼びます。

式 (4) の問題は、NP 困難である加重カバー関数を最大化することです [9]。c ( V ⋃ { i } , W , i ) − c ( V , W , I ) c(V\bigcup\{i\}, W, i) − c(V, W, I) としますc V){ i } , W , i ) c ( V , W , I )は、インスタンス I をセット V に追加することによる限界カバレッジ ゲインです。サブモジュール性により、貪欲アルゴリズムは、エッジ カバレッジ ゲインが最も高いインスタンスを繰り返しソリューションに追加するため、最適値に対して 1 の定数係数による -1/e の近似保証が提供されます [15]。アルゴリズム 2 の選択ステップのこの近似を概説し、これをサブモジュール選択と呼びます。

5 シミュレートされたユーザー実験 シミュレートされたユーザー実験

このセクションでは、信頼関連タスクにおける説明の有用性を評価するためのユーザー実験のシミュレーションを紹介します。特に、次の質問に取り組みます: (1) 説明はモデルに忠実ですか、(2) 説明はユーザーが予測の信頼性を確認するのに役立ちますか、(3) 説明はモデル全体を評価するのに役立ちますか。

このセクションでは、模擬的なユーザー実験を通じて、信頼関連タスクにおける説明の有用性を評価します。特に、(1) 説明はモデルに忠実かどうか、(2) 説明はユーザーが予測の信頼性を判断するのに役立つかどうか、(3) 説明はモデル全体を評価するのに役立つかどうか、という問題に取り組みます。

5.1 実験のセットアップ 実験のセットアップ

私たちは 2 つの感情分析データセット (書籍と DVD、それぞれ 2000 インスタンス) を使用し、製品レビューを肯定的または否定的に分類することを目的としています [4]。他の 2 つのデータセット (電子機器とキッチン) の結果も同様であるため、スペースの関係で省略します。私たちは、デシジョン ツリー (DT)、L2 正則化によるロジスティック回帰 (LR)、最近傍 (NN)、RBF カーネルによるサポート ベクター マシン (SVM) をトレーニングします。これらはすべて、バッグ オブ ワードを特徴として使用します。また、解釈不可能なモデルである平均的な word2vec 埋め込み [19] (RF) でトレーニングされたランダム フォレスト (1000 個のツリーを含む) も含めます。特に断りのない限り、scikit-learn の実装とデフォルトのパラメータを使用します。各データセットをトレーニング (1600 インスタンス) とテスト (400 インスタンス) に分割します。私たちの実験を再現するコードはオンラインで入手できます。

私たちは 2 つのセンチメント分析データセット (書籍と DVD、それぞれ 2000 インスタンス) を使用します。このデータセットでは、製品レビューを肯定的または否定的に分類することがタスクとなります [4]。他の 2 つのデータセット (電子機器とキッチン) の結果も同様であるため、スペース上の理由から省略します。決定木 (DT)、L2 正則化ロジスティック回帰 (LR)、最近傍 (NN)、RBF カーネル サポート ベクター マシン (SVM) をすべて特徴としてバッグオブワードでトレーニングします。また、解釈不可能なモデルである平均化された word2vec 埋め込み [19] (RF) でトレーニングされたランダム フォレスト (1000 個のツリー) も含めます。特に明記されていない限り、scikit-learn 実装とデフォルトのパラメーターを使用します。各データセットをトレーニング (1600 インスタンス) とテスト (400 インスタンス) に分割しました。私たちの実験を再現するコードは、https://github.com/marcotcr/lime-experiments でオンラインで見つけることができます。

To explain individual predictions, we compare our proposed approach (LIME), with parzen [2], for which we take the K features with the highest absolute gradients as explanations. We set the hyperparameters for parzen and LIME using cross validation, and set N = 15, 000. We also compare against a greedy procedure (similar to Martens and Provost [18]) in which we greedily remove features that contribute the most to the predicted class until the prediction changes (or we reach the maximum of K features), and a random procedure that randomly picks K features as an explanation. We set K to 10 for our experiments. For experiments where the pick procedure applies, we either do random selection (random pick, RP) or the procedure described in Section 4 (submodular pick, SP). We refer to pick-explainer combinations by adding RP or SP as a prefix.

個々の予測を説明するために、私たちが提案する方法 (LIME) と parzen [2] を比較します。parzen [2] は、説明として最高の絶対勾配を持つ K 個の特徴を取ります。相互検証を使用して parzen と LIME のハイパーパラメーターを設定し、N=15000 を設定します。また、予測が変化する (または最大 K 個の特徴に達する) まで、予測クラスに最も寄与する特徴を貪欲に削除する貪欲な手順 (Martens と Provost [18] と同様) とも比較します。K 個の特徴をランダムに選択します。説明として。実験では K を 10 に設定しました。ピッキング手順が適用できる実験では、ランダム ピック (ランダム ピック、RP) またはセクション 4 で説明した手順 (サブモジュラー ピック、SP) のいずれかを実行しました。プレフィックスとして RP または SP を追加することで、インタープリタの組み合わせを選択することを指します。

ここに画像の説明を挿入

図 6: 書籍データセット上の 2 つの解釈可能な分類子の本当に重要な特徴を思い出してください。

図 6: 書籍データセット上の 2 つの説明可能な分類器の真に重要な特徴の想起。

ここに画像の説明を挿入

図 7: DVD データセット上の 2 つの解釈可能な分類子の本当に重要な特徴を思い出してください。

図 7: DVD データセット上の 2 つの解釈可能な分類子に対する非常に重要な機能の再現。

5.2 説明はモデルに忠実ですか? 説明はモデルに忠実ですか?

私たちは、それ自体で解釈可能な分類器 (スパース ロジスティック回帰および決定木) に関する説明の忠実さを測定します。特に、インスタンスに対して使用する特徴の最大数が 10 になるように両方の分類子をトレーニングします。そのようなモデルの場合、本当に重要な特徴のセットがわかっています。テスト セットの各予測について、説明を生成し、説明によって回復される真に重要な特徴の割合を計算します。図 6 と 7 では、すべてのテスト インスタンスの平均をとったこの再現率を報告します。貪欲なアプローチは、ロジスティック回帰では parzen に匹敵しますが、一度に 1 つの機能を変更すると、多くの場合、予測への影響。ただし、テキストはパルゼン説明者にとって特に困難なケースです。元の分類器を高次元で近似するのが難しいため、parzen による全体的な再現率は低くなります。LIME は、両方のデータセットのロジスティック回帰とデシジョン ツリーの両方で 90% を超える再現率を一貫して提供しており、LIME の説明がモデルに非常に忠実であることを示しています。

私たちが信頼性を測定する解釈可能な分類子は、それ自体が解釈可能です (スパース ロジスティック回帰およびデシジョン ツリー)。特に、これら 2 つの分類子は、どのような場合でも最大 10 個の特徴を使用するようにトレーニングします。このようなモデルに関して、私たちは本当に重要な一連の機能を知っています。テスト セットの予測ごとに説明を生成し、説明によって回復された真に重要な特徴のスコアを計算します。図 6 と 7 に、すべてのテスト インスタンスの平均再現率を報告します。グリーディ法は、ロジスティック回帰ではパルゼン法に匹敵しますが、一度に 1 つの特徴を変更しても通常は予測に影響しないため、決定木でははるかに劣っていることがわかります。ただし、テキストはパルゼン インタプリタにとって特に困難な例です。元の分類子を高次元で近似するのが難しいため、パルゼンの全体的な再現率が低くなります。これら 2 つのデータセットでは、LIME は一貫してロジスティック回帰およびデシジョン ツリーに対して 90% を超える再現率を提供し、LIME の解釈がモデルに非常に忠実であることを示しています。

5.3 この予測は信じるべきですか? この予測は信じるべきですか?

個々の予測の信頼性をシミュレートするために、まず「信頼できない」機能の 25% をランダムに選択し、ユーザーはこれらの機能を識別できるが信頼したくないと想定します (20 のニュースグループのヘッダーなど)。データの漏洩など)。したがって、信頼できない特徴がインスタンスから削除されたときに予測が変化する場合は「信頼できない」、そうでない場合は「信頼できる」とブラック ボックス分類子からのテスト セットの予測にラベルを付けることで、オラクルの「信頼性」を開発します。ユーザーをシミュレートするために、説明に現れる信頼できない特徴がすべて削除されたときに線形近似からの予測が変化する場合、ユーザーは LIME と parzen の説明からの予測が信頼できないと判断すると仮定します (シミュレートされた人間は、信頼できない特徴の影響を「割り引いて」います)。 。貪欲でランダムなため、これらの方法では、予測に対する各特徴の寄与の概念が提供されないため、信頼できない特徴が説明に存在する場合、その予測は信頼できません。したがって、各テストセット予測について、それぞれの説明方法を使用してシミュレートされたユーザーがそれを信頼するかどうかを評価し、それを信頼性オラクルと比較できます。

個人の予測の信頼性をモデル化するために、まず特徴の 25% を「信頼できない」ものとしてランダムに選択し、ユーザーがこれらの特徴を識別できるが信頼したくないと想定します (例: 20 のニュースグループの見出し、漏洩データなど)。したがって、信頼できない特徴がインスタンスから削除されたときに予測が変化した場合、ブラックボックス分類子からのテストセット予測は「信頼できない」とマークされ、それ以外の場合は「信頼できる」とマークされ、オラクル「信頼できる」が作成されます。ユーザーをシミュレートするために、説明に現れる信頼できない特徴がすべて削除され、線形近似の予測が変化した場合 (シミュレートされた人間は信頼できない特徴の影響を「割り引く」)、ユーザーは LIME とパルゼンの説明は信頼できません。貪欲かつランダムの場合、説明に信頼できない特徴がある場合、これらの方法では予測に対する各特徴の寄与の概念が提供されないため、予測は信頼できません。したがって、各テスト セットの予測について、それぞれの説明方法を使用して、シミュレートされたユーザーがそれを信頼するかどうかを評価し、それを信頼できるオラクルと比較することができます。

この設定を使用して、100 回の実行で平均した、各説明方法の信頼できる予測に関する F1 を表 1 に報告します。結果は、両方のデータセットおよびすべてのデータセットで LIME が他のデータセットよりも優れていることを示しています (すべての結果は p = 0.01 で有意です)。ブラックボックスモデルの一つ。他の方法は、低い再現率 (つまり、必要以上に予測を信頼しない) または低い精度 (つまり、予測が多すぎる) を達成しますが、LIME は高い精度と高い再現率の両方を維持します。どの特徴が信頼できないかを人為的に選択したとしても、これらの結果は、LIME が個々の予測の信頼性を評価するのに役立つことを示しています。

5.4 このモデルは信頼できますか? このモデルは信頼できますか?

最後のシミュレートされたユーザー実験では、人間が検証データに基づいて同様の精度で 2 つの競合するモデルのどちらかを決定しなければならない場合をシミュレートし、その説明がモデルの選択に使用できるかどうかを評価します。この目的のために、10 個の人工的に「ノイズのある」特徴を追加します。具体的には、トレーニング セットと検証セット (元のトレーニング データを 80/20 に分割) では、各人工特徴は 1 つのクラスの例の 10%、もう 1 つのクラスの 20% に出現しますが、テスト インスタンスでは、各人工特徴が出現します。各クラスの例の 10% に含まれています。これにより、現実世界で有益な特徴だけでなく、ノイズが多く偽の相関を引き起こす特徴もモデルが使用する状況が再現されます。検証精度が互いの 0.1% 以内になるまで、30 個のツリーを含むランダム フォレストのペアを繰り返しトレーニングすることで、競合する分類器のペアを作成しますが、テスト精度には少なくとも 5% の差があります。したがって、検証データの精度からより優れた分類器 (より高いテスト精度を持つ分類器) を特定することはできません。

これらの説明が、検証データに基づいて同様の精度で 2 つの競合するモデルの間で人間が決定しなければならない状況をシミュレートする、最終的なシミュレートされたユーザー実験でのモデル選択に使用できるかどうかを評価します。これに、10 個の人工的な「ノイズ」機能を追加します。具体的には、トレーニング セットと検証セット (元のトレーニング データを 80/20 に分割) では、テスト中に各人工特徴が一方のクラスの例の 10%、もう一方のクラスの例の 20% に存在しました。インスタンスでは、各人工特徴は各クラスのサンプルの 10% に表示されます。これにより、モデルが現実世界で有益な特徴だけでなく、ノイズが多く偽の相関を導入する特徴も使用する状況が再現されます。検証精度が相互に 0.1% 以内になるまで、30 本の木のランダム フォレスト ペアを繰り返しトレーニングすることで、競合する分類子ペアを作成しますが、テスト精度には少なくとも 5% の差があります。したがって、検証データの精度からより優れた分類器 (より高いテスト精度を持つ分類器) を特定することは不可能です。

この実験の目的は、検証セットからの B インスタンスの説明に基づいて、ユーザーがより適切な分類子を識別できるかどうかを評価することです。シミュレートされた人間は、B の説明に現れる人工特徴のセットを信頼できないものとしてマークし、その後、検証セット内の予測の合計がどれだけ信頼できるかを評価します (前のセクションと同様に、マークされた特徴のみを信頼できないものとして扱います)。次に、信頼できない予測が少ない分類器を選択し、この選択を、保持されているテスト セットの精度が高い分類器と比較します。

この実験の目的は、検証セット内の B インスタンスの解釈に基づいて、ユーザーがより適切な分類器を識別できるかどうかを評価することです。シミュレーターは、B の解釈に現れる人工特徴のセットに信頼できないとしてフラグを立て、検証セット内の予測がどれだけ妥当であるかを評価します (前のセクションで説明したように、フラグが立てられた特徴のみが信頼できないと見なされます)。次に、信頼できない予測が少ない分類器を選択し、それらをテスト セットで高い精度を維持する分類器と比較します。

表 1: 分類器とデータセットのコレクションに関するさまざまな説明者の信頼性の平均 F1。

表 1: 分類子とデータセットに関するさまざまな説明者の信頼度の平均 F1。

ここに画像の説明を挿入

ここに画像の説明を挿入

図 8: シミュレートされたユーザーに表示されるインスタンスの数が変化するため、2 つの分類子から選択する。800 回の実行からの平均値と標準誤差。

図 8: シミュレートされたユーザーに表示されるインスタンスの数が異なるため、2 つの分類子のどちらかを選択する。800 回の実行の平均誤差と標準誤差。

図 8 は、B が変化するにつれて正しい分類器を選択する精度を、800 回の実行で平均したものとして示しています。SP-parzen と RP-parzen は、このタスクについて有用な説明が得られないため、図から省略しています。パフォーマンスは、Parzen よりもわずかに優れているだけです。ランダム。ピック方法に関係なく、LIME は一貫してgreedy よりも優れていることがわかります。さらに、サブモジュラーピックと LIME を組み合わせると、他のすべての方法よりも優れたパフォーマンスを発揮します。特に、ユーザーにいくつかの例しか示されない場合には、RP-LIME を使用するよりもはるかに優れています。これらの結果は、SP が選択した LIME の説明によって提供される信頼性評価が一般化の優れた指標であることを示しており、次のセクションで人体実験で検証します。

図 8 では、B の変化に応じて正しい分類器を選択する精度を 800 回以上平均して示しています。SP parzen と RP parzen は、このタスクについて有益な説明が得られず、ランダムよりわずかに優れたパフォーマンスしか得られないため、図からは省略します。どのようなアプローチであっても、LIME は常に貪欲よりも優れたパフォーマンスを示していることがわかります。さらに、サブモジュラーピックと LIME を組み合わせた方法は、他のすべての方法よりも優れており、特に少数の例しかユーザーに表示されない場合には、RP-LIME を使用するよりも優れています。これらの結果は、SP-selected-LIME 解釈によって提供される信頼性評価が優れた一般化指標であることを示しており、これは次のセクションで人体実験を通じて検証します。

6 ヒトを対象とした評価

このセクションでは、予測とモデルの信頼と理解を必要とする機械学習の 3 つのシナリオを再作成します。特に、以下の設定で LIME と SP-LIME を評価します: (1) ユーザーは 2 つの分類器からより一般化する方を選択できますか (セクション 6.2)、(2) 説明に基づいて、ユーザーは特徴量エンジニアリングを実行して、分類器を改善できるかモデル (セクション 6.3)、(3) はユーザーが説明 (セクション 6.4) を見て分類器の不規則性を特定して説明できるものです。

在本节中,我们将重新创建机器学习中需要信任和理解预测和模型的三个场景。特别是,我们在以下设置中评估了LIME和SP-LIME:(1)用户可以从两个分类器中选择一个更通用的分类器(第6.2节),(2)根据解释,用户可以执行特征工程来改进模型(第6.3节),(3)用户是否能够通过查看解释来识别和描述分类器的不规则性(第6.4节)。

6.1 Experimental setup 实验设置

For experiments in sections 6.2 and 6.3, we use the subset of 20 newsgroups mentioned beforehand, where the task is to distinguish between “Christianity” and “Atheism” documents. This dataset is quite problematic since it contains features that do not generalize well (e.g. very informative header information and author names), and thus validation accuracy considerably overestimates real-world performance.

对于第6.2节和第6.3节中的实验,我们使用前面提到的20个新闻组的子集,其中的任务是区分“基督教”和“无神论”文档。这个数据集是相当有问题的,因为它包含的特性不能很好地概括(例如,非常信息丰富的标题信息和作者姓名),因此验证的准确性大大高估了真实世界的性能。

現実世界のパフォーマンスを推定するために、評価用の新しい宗教データセットを作成します。私たちは、DMOZ ディレクトリ 4 および人間が厳選したリストから無神論とキリスト教の Web サイトをダウンロードし、各クラスに 819 の Web ページが生成されます (詳細とデータはオンラインで入手可能 5 )。20 のニュースグループでトレーニングされた分類器による宗教データセットの精度が高いことは、分類器が上で概説したデータ固有の問題を重視するのではなく、意味論的なコンテンツを使用して一般化していることを示しています。

現実世界のパフォーマンスを推定するために、評価用の新しい宗教データセットを作成します。私たちは無神論とキリスト教のサイト 4 をダウンロードし、DMOZ ディレクトリから人間のリストを厳選し、クラスごとに 819 の Web ページを作成しました (詳細とデータはオンラインで入手できます)。宗教データセット上の 20 のニュースグループでトレーニングされた分類器の精度が高いことは、分類器が上記のデータ固有の問題に焦点を当てるのではなく、一般化するために意味論的なコンテンツを使用していることを示唆しています。

特に断りのない限り、相互検証によって調整されたハイパーパラメータを使用して 20 のニュースグループ データでトレーニングされた RBF カーネルを備えた SVM を使用します。この分類子は、元の 20 のニュースグループのトレーニングとテストの分割で 94% の精度を獲得します。

特に明記されていない限り、当社では RBF カーネルを備えた SVM を使用し、20 のニュースグループ データでトレーニングし、相互検証によってハイパーパラメーターを調整します。この分類器は、元の 20 ニュースグループ シーケンス テスト分割で 94% の精度を達成しました。

6.2 ユーザーは最適な分類子を選択できますか? ユーザーは最適な分類子を選択できますか?

このセクションでは、ユーザーがどの分類器をより一般化できるか、つまりユーザーが「実際に」どの分類器をより信頼できるかを判断するのに説明が役立つかどうかを評価したいと思います。具体的には、ユーザーは 2 つの分類器のどちらかを選択する必要があります。元の 20 ニュースグループ データセットでトレーニングされた SVM と、一般化されない特徴の多くが正規表現を使用して手動で削除された「クリーンな」データセットでトレーニングされた同じ分類器のバージョンです。元の分類子は宗教データセットで 57.3% の精度スコアを達成しましたが、「クリーン化された」分類子は 69.0% のスコアを達成しました。対照的に、20 のニュースグループに対する元のトレーニング/テスト分割のテスト精度はそれぞれ 94.00% と 88.6% であり、信頼性の尺度として精度のみを使用した場合、より悪い分類器が選択されることを示唆しています。

このセクションでは、説明がユーザーがどの分類器をより一般化できるか、つまりユーザーが「実際に」どの分類器をより信頼できるかを判断するのに役立つかどうかを評価したいと思います。具体的には、ユーザーは 2 つの分類子から選択する必要があります。元の 20 のニュースグループ データセットでトレーニングされた SVM と、「クリーンな」データセットでトレーニングされた同じ分類子です。 一般化されない多くの特徴が正規表現を使用して手動で削除されるフィルターのバージョン。元の分類子の宗教データセットの精度は 57.3% ですが、「クリーン」分類子の精度は 69.0% です。比較すると、20 のニュースグループの元のシーケンス/テスト分割のテスト精度はそれぞれ 94.00% と 88.6% でした。これは、精度が信頼の唯一の尺度である場合、より悪い分類子が選択されることを示唆しています。

Amazon Mechanical Turk では人間の被験者を募集しています。決して機械学習の専門家ではなく、宗教に関する基本的な知識を持つ人々です。関連する生データと並べて説明を確認することで、より良いアルゴリズムを選択する能力を測定します (図 2 を参照)。各説明の単語数 (K) と各人が検査する文書の数 (B) の両方を 6 に制限します。各アルゴリズムの位置と表示されるインスタンスの順序は被験者間でランダム化されます。説明を調べた後、ユーザーは現実世界でどのアルゴリズムが最も優れたパフォーマンスを発揮するかを選択し、その理由を説明するよう求められます。説明は、greedy (シミュレートされたユーザー実験でのパフォーマンスによりベースラインとして選択) または LIME によって生成されます。インスタンスはランダム (RP) またはサブモジュラー ピック (SP) によって選択されます。アルゴリズム 2 の貪欲なステップを少し変更して、2 つの分類子の説明を交互に行うようにします。各設定について、100 人のユーザーを対象に実験を繰り返します。

Amazon Mechanical Turk では人間の被験者を募集しています。決して機械学習の専門家ではなく、宗教について基本的な理解を持っている人々です。関連する生データの解釈を並べて見ることで、より良いアルゴリズムを選択する能力を測定します (図 2 を参照)。各解釈の単語数 (K) と各人が検討する文書の数 (B) を 6 に制限します。各アルゴリズムの位置と表示されるインスタンスの順序は、被験者間でランダム化されました。これらの説明を検討した後、ユーザーは現実世界でどのアルゴリズムが最もパフォーマンスが高いかを選択し、その理由を説明するよう求められます。説明は貪欲に (シミュレートされたユーザー実験でのパフォーマンスによりベースラインとして選択される) または LIME のいずれかで生成され、インスタンスはランダム (RP) またはサブモジュール選択 (SP) によって生成されます。アルゴリズム 2 の貪欲なステップをわずかに変更して、2 つの分類子の解釈を交互に行います。各設定について、100 人のユーザーを対象にこの実験を繰り返しました。

ここに画像の説明を挿入

図 9: 2 つの分類器の間で選択する人間の被験者の平均精度 (標準誤差あり)。

図 9: 2 つの分類器から選択する人間の被験者の平均精度 (標準誤差あり)。

結果を図 9 に示します。最初に注目すべきことは、すべての方法がより優れた分類器を特定するのに優れていることです。これは、説明がどの分類器を信頼するかを決定するのに役立つことを示していますが、テスト セットの精度を使用すると選択が行われることになります。間違った分類子です。さらに、サブモジュラー ピック (SP) は、ランダム ピック (RP) と比較して、ユーザーが最適な分類器を選択する能力を大幅に向上させ、どちらの場合でも LIME が貪欲よりも優れたパフォーマンスを示していることがわかります。少数のユーザーは混乱し、任意の理由で分類子を選択しましたが、ほとんどのユーザーは、分類子の 1 つが意味的により意味のある単語を明らかに使用しているという事実が選択に重要であると述べました。

結果を図 9 に示します。最初に注意すべきことは、すべてのメソッドがより優れた分類器を識別するのに優れた仕事をしているということです。これは、これらの説明がどの分類器を信頼するかを決定するのに役立つことを示していますが、テスト セットの精度を使用すると、間違った分類器デバイスを選択することになります。さらに、サブモジュラー選択 (SP) はランダム選択 (RP) と比較してユーザーが最適な分類子を選択する能力を大幅に向上させ、どちらの場合も LIME が貪欲より優れたパフォーマンスを発揮することもわかりました。少数のユーザーは混乱し、任意の理由で分類子を選択しましたが、大多数は、分類子の 1 つが意味的により意味のある単語を明らかに使用しているという事実が選択にとって重要であると示しました。

6.3 専門家以外でも分類器を改善できますか? 専門家以外でも分類器を改善できますか?

分類器が信頼できない場合、機械学習の一般的なタスクは特徴エンジニアリングです。つまり、一般化を改善して分類器を信頼できるものにするために、一連の特徴を変更し、再トレーニングします。説明は、重要な機能を提示することにより、特にユーザーが一般化していないと感じる機能を削除することにより、このプロセスに役立ちます。

分類器が信頼できない場合、機械学習の一般的なタスクは特徴エンジニアリングです。つまり、特徴セットを変更し、汎化能力を向上させて分類器を信頼できるものにするために再トレーニングします。重要な機能を紹介し、特にユーザーが一般化できないと考える機能を削除する手順は、このプロセスに役立ちます。

ここでも 20 のニュースグループのデータを使用し、前のセクションの最悪の分類器を改善するために、Amazon Mechanical Turk ユーザーに説明のどの単語を後続のトレーニングから削除する必要があるかを特定するように依頼します。インタラクションの各ラウンドで、被験者は各説明で K = 10 単語を持つ B = 10 個のインスタンスを確認しながら、削除対象の単語にマークを付けます (図 2 と似たインターフェイスですが、単一のアルゴリズムを使用します)。ここで注意していただきたいのは、ここでのユーザーは機械学習の専門家ではなく、特徴量エンジニアリングに精通していないため、意味論的な内容に基づいて単語を識別しているだけです。さらに、ユーザーは宗教データセットにアクセスできず、その存在すら知りません。10 人の被験者から実験を開始します。単語に削除のマークを付けた後、10 個の異なる分類器をトレーニングします。主題ごとに 1 つ (対応する単語は削除されています)。各分類器の説明は、新しい対話ラウンドで 5 人のユーザーのセットに提示され、その結果 50 個の新しい分類器が生成されます。最終ラウンドを行った後、250 個の分類子が得られ、それぞれの分類子は最初の 10 人の被験者まで遡る相互作用のパスを持ちます。

ここでも 20 のニュースグループからのデータを使用し、Amazon-Mechanical-Turk ユーザーに、前のセクションの最悪の分類子を改善するために、説明内のどの単語を後続のトレーニングから削除する必要があるかを特定するように依頼します。インタラクションの各ラウンドで、被験者は各解釈で K = 10 単語の B = 10 個のインスタンスを確認しながら、削除する単語にマークを付けます (図 2 に似たインターフェイスですが、単一のアルゴリズムを使用します)。ここで注意していただきたいのは、ここでのユーザーは機械学習の専門家ではなく、特徴量エンジニアリングに精通していないため、意味論的な内容に基づいて単語を認識することしかできません。さらに、ユーザーは宗教データセットにアクセスできず、その存在すら知りません。10 人の被験者から実験を開始します。単語に削除のフラグを立てた後、トピックごとに 1 つずつ、10 個の異なる分類子をトレーニングします (対応する単語を削除します)。新しいラウンドの対話では、各分類子の解釈が 5 人のユーザーのグループに提示され、その結果 50 個の新しい分類子が生成されます。最後のラウンドを実行すると、250 個の分類子が得られ、それぞれの分類子は上位 10 個のトピックに戻るインタラクション パスを持ちます。

ここに画像の説明を挿入

図 10: 特徴量エンジニアリングの実験。各影付きの線は、最初の 10 人の被験者の 1 人から始まるパス内の被験者の平均精度を表します。各実線は、インタラクションのラウンドごとのすべてのパスの平均を表します。

図 10: 特徴量エンジニアリングの実験。各斜線は、最初の 10 人の被験者の 1 人から始まる経路内の被験者の平均精度を表します。各実線は、インタラクションの各ラウンドにおけるすべてのパスの平均を表します。

各ユーザーに表示される説明やインスタンスは SP-LIME または RP-LIME によって生成されます。図 10 に、元の 10 人の被験者のそれぞれに由来するパス (斜線) の各インタラクション ラウンドにおける宗教データセットの平均精度と、すべてのパスにわたる平均 (実線) を示します。クラウド ワーカーは、タスクにとって重要でないと判断した機能を削除することでモデルを改善できます。さらに、SP-LIME は RP-LIME よりも優れており、効率的な特徴エンジニアリングにはインスタンスの選択が重要であることがわかります。

各ユーザーに表示される説明と例は、SP-LIME または RP-LIME によって生成されます。宗教データセットのインタラクションの各ラウンドにおける元の 10 人の被験者のパス (斜線) の平均精度を示し、すべてのパスの平均 (実線) を図 10 に示します。この図から、グループ ワーカーがタスクにとって重要ではないと考える機能を削除することでモデルを改善できることが明らかです。さらに、SP-LIME は RP-LIME よりも優れており、効果的な特徴エンジニアリングにはインスタンスの選択が重要であることを示唆しています。

また、最初のユーザーが機能を選択する際に比較的悪い仕事をしたパスが、後続のユーザーによって修正されることを観察することも興味深いです。

また、興味深いのは、初期ユーザーの機能選択のパフォーマンスが比較的悪いパスが、後続のユーザーによって後で修正されることです。

各被験者は 1 ラウンドの清掃に平均 3.6 分かかり、その結果、実世界のデータをより適切に一般化する分類器を作成するのに 11 分弱かかりました。各パスでは、SP では平均 200 ワードが削除され、RP では 157 ワードが削除されました。これは、重要な特徴のカバレッジを組み込むことが特徴エンジニアリングに役立つことを示しています。さらに、SP で選択された平均 200 単語のうち、半数以上のユーザーが選択した単語は 174 単語であり、全ユーザーが選択した単語は 68 単語でした。精度の分散がラウンド全体で減少するという事実に加えて、この高い一致は、ユーザーが同様の正しいモデルに収束していることを示しています。この評価は、信頼できない分類器を説明によって簡単に改善できる例です。この場合、機械学習の知識は必要ないほど簡単です。

被験者ごとのクリーニング 1 ラウンドあたり平均 3.6 分かかり、現実世界のデータによりよく一般化する分類器の生成にかかる時間は 11 分未満になります。各パスには、SP によって平均 200 ワードが削除され、RP によって削除されたワードが 157 ワードあります。これは、重要な機能のカバレッジを組み込むことが特徴エンジニアリングに役立つことを示しています。さらに、SPで選択した平均200語のうち、半数以上のユーザーが174語を選択し、全ユーザーが68語を選択した。ラウンド間の精度の差が減少するにつれて、この高い一致は、ユーザーが同様に正しいモデルに収束していることを示しています。この評価は、信頼できない分類器の改善がどのように簡単になるかを説明する例です。この場合、機械学習の知識は必要ないほど簡単です。

6.4 説明は洞察につながりますか? 説明は洞察につながりますか?

多くの場合、データ収集のアーティファクトにより、分類器がトレーニング中に検出する望ましくない相関関係が引き起こされる可能性があります。これらの問題は、生のデータや予測を見るだけでは非常に困難です。

多くの場合、データ収集アーティファクトにより、分類器はトレーニング中に望ましくない相関を発見します。これらの問題は、生データや予測を見るだけでは特定するのが難しい場合があります。

In an effort to reproduce such a setting, we take the task of distinguishing between photos of Wolves and Eskimo Dogs (huskies). We train a logistic regression classifier on a training set of 20 images, hand selected such that all pictures of wolves had snow in the background, while pictures of huskies did not. As the features for the images, we use the first max-pooling layer of Google’s pre-trained Inception neural network [25]. On a collection of additional 60 images, the classifier predicts “Wolf” if there is snow (or light background at the bottom), and “Husky” otherwise, regardless of animal color, position, pose, etc. We trained this bad classifier intentionally, to evaluate whether subjects are able to detect it.

このようなシーンを再現するために、私たちの仕事はオオカミの写真とハスキー犬の写真を区別することです。すべてのオオカミの背景に雪があり、ハスキー犬には雪がないように手動で選択された 20 枚の画像のトレーニング セットでロジスティック回帰分類器をトレーニングします。画像の特徴として、Google の事前トレーニングされた Inception ニューラル ネットワークの最初の最大プーリング層を使用します [25]。別の 60 枚の画像セットでは、動物の色、位置、ポーズなどに関係なく、分類器は雪 (または下部に明るい背景) がある場合は「オオカミ」、そうでない場合は「ハスキー」と予測します。私たちはこの貧弱な分類器を意図的に訓練して、被験者がそれを検出できるかどうかを評価します。

実験は次のように進みます。まず、10 個のテスト予測のバランスの取れたセットを (説明なしで) 提示します。ここで、1 頭のオオカミは雪の背景になく (したがって、予測は「ハスキー」になります)、1 頭のハスキーは雪の背景にあります (したがって、次のように予測されます)。 "狼")。図 11a に「ハスキー」の間違いを示します。他の 8 つの例は正しく分類されています。次に被験者に 3 つの質問をします: (1) このアルゴリズムが現実世界でうまく機能すると信じていますか、(2) その理由、(3) アルゴリズムがオオカミとハスキーの写真をどのように区別できると思いますか。これらの回答を得た後、図 11b のように、同じ画像と関連する説明を表示し、同じ質問をします。

実験は次のように進みます。まず、雪の背景にオオカミが 1 頭いない (したがって、予測は「ハスキー」)、ハスキーが 1 頭いる (したがって、予測は「オオカミ」) という 10 個のテスト予測セット (説明なし) を提示します。 。図 11a に「ハスキー」エラーを示します。残りの 8 ケースは正しく分類されました。次に被験者に 3 つの質問をしました: (1) このアルゴリズムは現実世界でもうまく機能すると思いますか、(2) その理由、(3) アルゴリズムがオオカミとハスキーの写真を区別できると思いますか。これらの回答を得た後、図 11b に示すように、同じ画像と関連する説明を表示し、同じ質問をします。

このタスクには擬似相関と一般化の概念にある程度の精通が必要であるため、この実験の被験者は機械学習とその応用 (NLP、ビジョンなど) の大学院生と教授でした。回答を収集した後、3 人の独立した評価者にその推論を読み取らせ、モデルが使用している可能性のある潜在的な特徴として各被験者が雪、背景、または同等物について言及したかどうかを判断しました。被験者が洞察について正しかったかどうかの指標として過半数を選択し、表 2 の説明を示す前後にこれらの数値を報告します。

このタスクには擬似相関と一般化の概念にある程度の精通が必要であるため、この実験は機械学習とその応用 (NLP、ビジョンなど) の大学院生と教授を対象としています。回答が収集された後、3 人の独立した評価者にその推論を読み取らせ、各被験者がモデルで使用される可能性のある潜在的な特徴として雪、背景、または同等のものについて言及したかどうかを判断しました。被験者にとって洞察が正しかったかどうかの指標として大多数を選択し、解釈の前後を示す表 2 にこれらの数値を報告します。

説明を観察する前は、3 分の 1 以上が分類器を信頼していましたが、10 個の例しか提示していないため、その数はやや低かったです。彼らはニューラルネットワークが何を感知しているのかについて推測しており、半数弱が考えられる原因として雪のパターンを挙げた。しかし、説明を検討した結果、ほぼすべての被験者が正しい洞察を特定し、それが決定要因であることをより確実に認識しました。さらに、分類器に対する信頼も大幅に低下しました。サンプルサイズは小さいですが、この実験は、分類器を信頼しない場合とその理由を知るための洞察を得るために、個々の予測を説明することの有用性を示しています。

これらの説明を見る前に、3 分の 1 以上の人がこの分類器を信頼していましたが、例を 10 個しか示していないため、この値は少し低かったです。彼らはニューラル ネットワークの役割について推測しましたが、考えられる理由として雪の形状に言及したのは半数未満でした。しかし、これらの説明を検討した結果、ほぼすべての被験者が正しい洞察を特定し、それが決定要因であることがより明確になりました。さらに、分類器に対する信頼も大幅に低下しました。サンプルサイズは小さいですが、この実験は、個々の予測を説明して分類者が予測を信頼しない時期とその理由を理解するのに役立つことを示しています。最適なインターフェイスを見つけ出し、この分野でさらなる実験を行うこと (特に実際の機械学習ベースのサービスを使用すること) は、将来の研究の興味深い方向性です。

7 関連作品

信頼性の主な尺度として検証セットの精度に依存する場合の問題点は、十分に研究されています。実践者は常にモデルの精度を過大評価したり [21]、フィードバック ループを伝播させたり [23]、データ漏洩に気付かなかったりします [14]。これらの問題に対処するために、研究者は、ユーザーが個々のインスタンスをナビゲートするのに役立つ Gestalt [22] や Modeltracker [1] のようなツールを提案しました。これらのツールは、個々の予測を説明するという問題には対処せず、代わりにユーザーが生のデータや特徴を参照できるようにするため、モデルを説明するという点で LIME を補完します。さらに、サブモジュール式の選択手順をそのようなツールに組み込んで、ユーザーがより大きなデータセットをナビゲートできるようにすることができます。

信頼性の主な尺度として検証セットの精度に依存する問題は、十分に研究されています。専門家は一貫してモデルの精度を過大評価したり [21]、フィードバック ループを伝播したり [23]、データ漏洩に気付かなかったりします [14]。これらの問題に対処するために、研究者は、ユーザーが個々のインスタンスを閲覧できるようにする Gestalt [22] や Modeltracker [1] などのツールを提案しました。これらのツールは、個々の予測を説明するという問題を解決するものではないため、モデルの解釈において LIME を補完しますが、ユーザーは生のデータや特徴を参照できます。さらに、サブモジュールの選択手順をこれらのツールに組み込んで、ユーザーがより大きなデータセットをナビゲートできるようにすることができます。

最近の研究の中には、機械学習、特に視覚タスクにおける失敗を予測することを目的としたものもあります [3, 29]。システムに障害が発生する可能性が高いことをユーザーに知らせることで、「愚かな間違い」を回避し、信頼を高めることができます [7]。これらのソリューションは、ビジョン タスクに固有の追加の注釈と特徴エンジニアリングを必要とするか、決定を信頼すべきではない理由についての洞察を提供しません。さらに、現在の評価基準は信頼できると想定していますが、データ漏洩などの問題が存在する場合はそうではない可能性があります。他の最近の研究 [10] は、ユーザーをさまざまな種類の間違いにさらすことに焦点を当てています (選択ステップ)。興味深いことに、研究の被験者は多くの間違いを調べたにもかかわらず、20 のニュースグループ データの重大な問題に気付かなかった。これは、生データを調べるだけでは十分ではないことを示唆している。Groce et al. この点に関しては [10] だけではなく、この分野の多くの研究者が、知らず知らずのうちに、このタスクに一般化しない分類器を公開してしまいました。LIME を使用して、説明があれば専門家でなくてもこれらの不規則性を特定できることを示します。さらに、LIME はこれらの既存のシステムを補完し、予測が「正しい」ように見えても間違った理由で行われた場合でも、ユーザーが信頼性を評価できるようにします。

最近の研究のいくつかは、機械学習、特に視覚タスクの失敗を予測することを目的としています [3, 29]。システムに障害が発生する可能性があることをユーザーに知らせることで、「愚かな間違い」が回避され、信頼が高まります [7]。これらのソリューションでは、追加のアノテーションとビジョン タスク固有の機能エンジニアリングが必要か、決定が信頼できない理由についての洞察が不足しています。さらに、現在の評価指標は信頼できると想定していますが、データ漏洩などの問題がある場合は当てはまらない可能性があります。他の最近の研究 [10] は、ユーザーをさまざまな種類のエラーにさらすことに焦点を当てています (選択ステップ)。興味深いことに、研究の被験者は多くのエラーを確認したにもかかわらず、20 のニュースグループ データの重大な問題に気付かなかった。これは、単に生データを調べるだけでは十分ではないことを示唆している。この点に関しては Groce et al. [10] だけではなく、この分野の多くの研究者がこのタスクに一般化しない分類器を誤って発表していることは注目に値します。LIME を使用して、説明が存在する場合、専門家でなくてもこれらの異常を特定できることを示します。さらに、LIME はこれらの既存のシステムを補完し、予測が「正しい」ように見えてもその理由が間違っていた場合でも、ユーザーが信頼性を評価できるようにする可能性があります。

信頼を評価する際の説明の有用性を認識して、多くの人が、特に医療分野において、解釈可能なモデル [27] を使用することを提案しています [6、17、26]。このようなモデルは一部のドメインには適しているかもしれませんが、他のドメインには同様にうまく適用できない場合があります (たとえば、5 − 10 個の特徴を持つ超疎線形モデル [26] はテキスト アプリケーションには適していません)。このような場合、解釈可能性は、柔軟性、正確さ、効率性を犠牲にします。テキストに関しては、EluciDebug [16] は、私たちの目標 (解釈可能性、忠実性など) の多くを共有する完全な人間参加型システムです。ただし、彼らはすでに解釈可能なモデル (単純ベイズ) に焦点を当てています。コンピューター ビジョンでは、オブジェクト検出に依存して候補の位置合わせ [13] または注意 [28] を生成するシステムは、予測に対する説明を生成できます。ただし、これらは、特定のニューラル ネットワーク アーキテクチャに制限されているか、画像の「非オブジェクト」部分を検出できません。ここでは、まだ提案されていないものであっても、そのドメインに適した任意の分類子や回帰子に適用できる、一般的なモデルに依存しない説明に焦点を当てます。

信頼を評価する際の説明の有用性を認識して、多くの人が説明可能なモデル [27]、特に医療分野での使用を提案しています [6、17、26]。これらのモデルは一部のドメインには適しているかもしれませんが、他のドメインには同様に適しているとは限りません (たとえば、5 〜 10 個の特徴を持つ超分析線形モデル [26] はテキスト アプリケーションには適していません)。このような場合、解釈可能性は柔軟性、正確さ、効率性を犠牲にします。テキストに関しては、EluciDebug [16] は、私たちの目標 (解釈可能性、忠実度など) の多くを共有する完全な人間参加型システムです。ただし、彼らはすでに解釈可能なモデル (単純ベイズ) に焦点を当てています。コンピューター ビジョンでは、オブジェクト検出に依存して候補のアライメント [13] または注意 [28] を生成するシステムは、予測に対する説明を生成できます。ただし、これらは特定のニューラル ネットワーク構造に限定されているか、画像の「非オブジェクト」部分を検出できません。ここでは、まだ提案されていないものであっても、分類器や回帰が適しているあらゆる領域に適用できる、モデルに依存しない一般的な説明に焦点を当てます。

モデルに依存しない説明への一般的なアプローチは、元のモデルの予測に基づいて潜在的に解釈可能なモデルを学習することです [2]。説明を勾配ベクトルにすることで、LIME と同様の局所性の直観が得られます。ただし、勾配の係数を解釈することは、特に信頼性の高い予測 (勾配がゼロに近い場合) の場合には困難です。さらに、勾配を生成するモデルは、元のモデルを全体的に近似するようにトレーニングされます。私たちの実験が示すように、次元数が高くなると、そのようなモデルの局所的な忠実度を維持することがますます困難になります。対照的に、LIME は、元のモデルに近似するモデルを局所的に見つけるという、より実現可能なタスクを解決します。説明のために入力を摂動させるというアイデアは以前に検討されました [24]。ここでは、著者は一般的なフレームワークとは対照的に、特定の貢献モデルの学習に焦点を当てています。これらのアプローチはいずれも認知の限界を明示的に考慮していないため、数千の非ゼロの重みをもつ勾配や線形モデルなど、解釈できない説明が生成される可能性があります。元の機能が人間にとって意味をなさない場合 (単語の埋め込みなど)、問題はさらに悪化します。対照的に、LIME は最適化と解釈可能な表現の概念の両方に解釈可能性を組み込んでおり、ドメインおよびタスク固有の解釈可能性基準に対応できます。数千の非ゼロ重みを持つ勾配モデルや線形モデルなど。元の機能が人間にとって意味をなさない場合 (単語の埋め込みなど)、問題はさらに悪化します。対照的に、LIME は最適化と解釈可能な表現の概念の両方に解釈可能性を組み込んでおり、ドメインおよびタスク固有の解釈可能性基準に対応できます。数千の非ゼロ重みを持つ勾配モデルや線形モデルなど。元の機能が人間にとって意味をなさない場合 (単語の埋め込みなど)、問題はさらに悪化します。対照的に、LIME は最適化と解釈可能な表現の概念の両方に解釈可能性を組み込んでおり、ドメインおよびタスク固有の解釈可能性基準に対応できます。

モデルに依存しない説明への一般的なアプローチは、元のモデル予測に基づいて潜在的な解釈可能なモデルを学習することです [2]。勾配ベクトルは、LIME と同様に局所的な直感を説明するために使用されます。ただし、勾配の係数を解釈することは、特に信頼性の高い予測 (ゼロに近い勾配) の場合には困難です。さらに、勾配生成モデルは、元のモデルをグローバルに近似するようにトレーニングされます。私たちの実験では、次元が高くなると、そのようなモデルの局所的な忠実度を維持することがますます困難になることがわかりました。対照的に、LIME は、元のモデルを局所的に近似するモデルを見つけるという、より実現可能なタスクを解決します。説明するために入力を摂動するというアイデアは以前 [24] で検討されていますが、ここでは著者らは一般的なフレームワークではなく、特定の寄与モデルの学習に焦点を当てています。これらの方法はいずれも、認知の限界を明示的に考慮していないため、数千の非ゼロ重みを持つ勾配モデルや線形モデルなど、説明できない説明が生成される可能性があります。元の機能が人間にとって無意味である場合 (単語の埋め込みなど)、問題はさらに悪化します。対照的に、LIME には、最適化された表現と解釈可能な表現の両方の概念に解釈可能性が含まれているため、ドメイン固有およびタスク固有の解釈可能性基準に適応できます。

8 結論と今後の課題 結論と今後の課題

In this paper, we argued that trust is crucial for effective human interaction with machine learning systems, and that explaining individual predictions is important in assessing trust. We proposed LIME, a modular and extensible approach to faithfully explain the predictions of any model in an interpretable manner. We also introduced SP-LIME, a method to select representative and non-redundant predictions, providing a global view of the model to users. Our experiments demonstrated that explanations are useful for trust-related tasks: deciding between models, assessing trust, improving untrustworthy models, and getting insights into predictions.

在这篇论文中,我们认为信任对于人类与机器学习系统的有效交互是至关重要的,而解释个体的预测对于评估信任是很重要的。我们提出了LIME,一种模块化的、可扩展的方法,以一种可解释的方式忠实地解释任何模型的预测。我们还介绍了SP-LIME,一种选择有代表性和无冗余预测的方法,为用户提供模型的全局视图。我们的实验证明,解释对于信任相关的任务是有用的:在模型之间做出决定、评估信任、改进不可信模型以及洞察预测。

私たちが探求したい将来の仕事の道はたくさんあります。私たちは説明として疎線形モデルのみを説明しますが、私たちのフレームワークは、決定木などのさまざまな説明族の探索をサポートしています。これらについて実際のユーザーと比較研究してみると興味深いでしょう。この作業では触れていない問題の 1 つは、画像の選択ステップを実行する方法であり、将来的にはこの制限に対処したいと考えています。ドメインとモデルにとらわれないことにより、さまざまなアプリケーションを探索できるようになり、音声、ビデオ、医療分野での潜在的な用途を調査したいと考えています。最後に、正確な結果を提供するために、理論的特性 (適切なサンプル数など) と計算の最適化 (並列化や GPU 処理の使用など) を検討したいと思います。

私たちは将来の取り組みに向けて、さまざまな道を模索していきたいと考えています。ここでは説明として疎線形モデルのみを説明しますが、私たちのフレームワークは決定木などのさまざまな説明族の探索をサポートしており、これらが実際のユーザーと比較してどのように研究されるかを見るのは興味深いでしょう。この作業で対処できなかった問題の 1 つは、画像に対して選択ステップを実行する方法であり、将来的にはこの制限に対処したいと考えています。ドメインやモデルにとらわれないことで、さまざまなアプリケーションを探索できるようになり、音声、ビデオ、医療における潜在的な用途を調査したいと考えています。最後に、人間にとって重要な正確なリアルタイムの説明を提供するために、理論的特性 (適切なサンプル サイズなど) と計算の最適化 (並列化や GPU 処理の使用など) を調査したいと考えています。ループ機械学習システム。

参考文献

[1] S. アメルシ、M. チッカリング、SM ドラッカー、B. リー、P. シマール、および J. スー。Modeltracker: 機械学習用のパフォーマンス分析ツールを再設計します。コンピューティング システムにおけるヒューマン ファクター (CHI)、2015 年。

[2] D. Baehrens、T. Schroeter、S. Harmeling、M. Kawanabe、K. Hansen、および K.-R. ミュラー。個々の分類の決定をどのように説明するか。機械学習研究ジャーナル、11、2010。

[3] A. バンサル、A. ファルハディ、D. パリク。透過的なシステムに向けて: 障害モードの意味論的な特徴付け。2014 年欧州コンピューター ビジョン会議 (ECCV) にて。

[4] J. ブリッツァー、M. ドレゼ、F. ペレイラ。伝記、ボリウッド、ラジカセ、ミキサー: 感情分類のためのドメイン適応。計算言語学協会 (ACL)、2007 年。

[5] JQ カンデラ、M. 杉山、A. シュヴァイクホファー、ND ローレンス。機械学習におけるデータセットの変化。マサチューセッツ工科大学、2009 年。

[6] R. カルアナ、Y. ルー、J. ゲールケ、P. コッホ、M. スターム、および N. エルハダド。ヘルスケアのためのわかりやすいモデル: 肺炎のリスクと 30 日以内の再入院を予測します。知識発見とデータ マイニング (KDD)、2015 年。

[7] MT ジンドレット、SA ピーターソン、RA ポムランキー、LG ピアース、HP ベック。自動化依存における信頼の役割。内部。J. ハム - コンピューター。研究、58(6)、2003。

[8] B. エフロン、T. ハスティ、I. ジョンストン、R. ティブシラニ。最小角度回帰。『統計年報』、32:407–499、2004 年。

[9] U.ファイギ。セット カバーを近似するためのしきい値は ln n です。J. ACM、45(4)、1998 年 7 月。

[10] A. グロース、T. クレザ、C. チャン、S. シャマスンダー、M. バーネット、W.-K. ウォン、S. スタンプ、S. ダス、A. シンセル、F. バイス、K. マッキントッシュ。あなたは唯一のオラクルです: インタラクティブな機械学習システムのエンドユーザーにとって効果的なテストの選択。IEEEトランス。ソフトウェア。工学、40(3)、2014。

[11] T. ハスティ、R. ティブシラニ、J. フリードマン。統計学習の要素。シュプリンガー ニューヨーク社、2001 年。

[12] JL Herlocker、JA Konstan、および J. Riedl。協調フィルタリングの推奨事項について説明します。2000 年、コンピュータ支援型協同作業 (CSCW) に関する会議にて。

[13] A. カルパシーおよび F. リー。画像説明を生成するための深い視覚的意味論的調整。コンピューター ビジョンとパターン認識 (CVPR)、2015 年。

[14] S. カウフマン、S. ロセット、および C. パーリッヒ。データマイニングにおける漏洩: 定式化、検出、および回避。知識発見とデータ マイニング (KDD)、2011 年。

[15] A.クラウスとD.ゴロビン。サブモジュール機能の最大化。扱いやすさ: 難しい問題への実践的なアプローチ。ケンブリッジ大学出版局、2014 年 2 月。

[16] T. クレザ、M. バーネット、W.-K. ウォン、S. スタンプフ。インタラクティブな機械学習をパーソナライズするための説明的デバッグの原則。インテリジェント ユーザー インターフェイス (IUI)、2015 年。

[17] B. レーサム、C. ルーディン、TH マコーミック、D. マディガン。ルールとベイジアン分析を使用した解釈可能な分類器: より優れたストローク予測モデルの構築。応用統計年報、2015 年。

[18] D. Martens と F. Provost。データドリブンなドキュメント分類について説明します。MIS Q.、38(1)、2014 年。

[19] T. ミコロフ、I. スツケヴァー、K. チェン、GS Corrado、および J. ディーン。単語やフレーズの分散表現とその構成性。神経情報処理システム (NIPS) において。2013年。

[20] A.ニューウェル。人間の問題解決。プレンティスホール社、1972 年。

[21] K. パテル、J. フォガティ、JA ランデー、B. ハリソン。ソフトウェア開発ツールとしての統計的機械学習を研究しています。コンピューティング システムにおけるヒューマン ファクター (CHI)、2008 年。

[22] K. パテル、N. バンクロフト、SM ドラッカー、J. フォガティ、AJ コー、および J. ランデー。ゲシュタルト: 機械学習の実装と分析の統合サポート。ユーザー インターフェイス ソフトウェアとテクノロジー (UIST)、2010 年。 [23] D. Sculley、G. Holt、D. Golovin、E. Davydov、T. Phillips、D. Ebner、V. Chaudhary、M. Young、および J. -F. クレスポ。機械学習システムに隠れた技術的負債。神経情報処理システム (NIPS) において。2015年。

[24] E.ストルンベリとI.コノネンコ。個々の分類をゲーム理論を使って効率的に解説。機械学習研究ジャーナル、11、2010。

[25] C. セゲディ、W. リュー、Y. ジア、P. セルマネ、S. リード、D. アンゲーロフ、D. エルハン、V. ヴァンホーク、および A. ラビノビッチ。畳み込みでさらに深くなります。コンピューター ビジョンとパターン認識 (CVPR)、2015 年。

[26] B. ウストゥンと C. ルーディン。最適化された医療スコアリング システムのための超疎線形整数モデル。機械学習、2015 年。

[27] F.ワンとC.ルーディン。該当するルールのリスト。人工知能と統計 (AISTATS)、2015 年。

[28] K. Xu、J. Ba、R. Kiros、K. Cho、A. Courville、R. Salakhutdinov、R. Zemel、Y. Bengio。見せる、出席する、伝える: 視覚的な注意を伴うニューラル画像キャプションの生成。2015 年、機械学習に関する国際会議 (ICML) にて。

[29] P. チャン、J. ワン、A. ファルハディ、M. ヘベール、D. パリク。ビジョンシステムの故障を予測します。コンピューター ビジョンとパターン認識 (CVPR)、2014 年。

要約する

この記事はフォローアップで説明され、強調表示されます。

おすすめ

転載: blog.csdn.net/weixin_43357695/article/details/117331235