インスタンスごとの特徴選択のためのディープ ニューラル ネットワークの混合 - 混合ディープ ニューラル ネットワークに基づくインスタンス特徴選択

インスタンスごとの特徴選択のためのディープ ニューラル ネットワークの混合

ハイブリッドディープニューラルネットワークに基づくインスタンス機能の選択

まとめ

機械学習モデルでは、データを解釈するために関連する特徴を学習することが重要です。インスタンス特徴量の選択は、データ全体に対して関連する特徴量のサブセットを選択するよりも、モデル解釈の柔軟性が高くなります。ただし、現在のインスタンスベースの特徴選択方法は複雑で、大量の計算を要します。教師あり学習の枠組みの下でインスタンスの特徴選択を検討します。この問題に対処するために、コンパクトで解釈可能なニューラル ネットワークを設計します。計算量を削減し、より優れた解釈性を実現するために、関連する機能をグループ化し、ハイブリッド ニューラル ネットワークを構築します。サブモデル選択の活性化関数としてソフトマックスを使用すると、勾配降下法によってモデルのメンバーシップを正確に学習できます。私たちの知る限り、私たちのモデルは、インスタンスの特徴選択にエンドツーエンドのトレーニングを使用した、最初の解釈可能なディープ ニューラル ネットワーク モデルです。

インデックス項目

インスタンスの特徴の選択、深層学習、モデルの混合。

I.はじめに

機械学習モデルは金融市場、医療、セキュリティなどの分野に適用されるため、解釈可能性は重要です。高次元で大量のデータがあるため、カーネル法、アンサンブル法、ディープ ニューラル ネットワークなどの複雑な機械学習モデルは高精度を達成できますが、結果の解釈は困難です。特徴選択ではデータセット全体にグローバルに関連する特徴が選択され、インスタンス特徴選択では各データ サンプルの説明が生成されます。[1] は、モデルを説明するためのインスタンスベースの特徴選択方法を提案しました。これは、説明学習 (L2X、Learning to Explain) と呼ばれます。特徴の重要性を評価する基準として相互情報量を使用します。

L2X 以前は、ほとんどの説明方法は、個々のサンプルの特徴の重要性を分析するトレーニング モデルに基づいていました。[2]、[3] と同様に、モデルは局所加法モデル近似によって説明されます。参考文献 [4] では、入力に対する出力の勾配に基づいて重要な特徴が選択されています。インスタンスの特徴の選択により、トレーニング中に埋め込まれたモデルを解釈する方法が提供されます。これにより、関連する特徴を抽出しながらモデルの精度が向上します。サブセット サンプリングを通じて勾配を逆伝播するために、L2X は [5] の Gumbel-softmax トリックを使用して、各サンプルの上位lの関連する特徴を選択します。ただし、 lは通常、モデルを解釈するまで不明です。また、すべてのデータが同じ数の関連する特徴を持っているわけではありません。[6] では、L2X の制限を取り除くモデルとして、ニューラル ネットワーク (INVASE) が変数選択のインスタンスに使用されています。モデルは、セレクター ネットワーク、予測ネットワーク、ベースライン ネットワークの 3 つのディープ ニューラル ネットワークで構成されます。ニューラル ネットワークの大容量を利用して、特徴選択ネットワークと予測ネットワークを構築します。ネットワークを最適化するために、サンプリングによるバックプロパゲーションを可能にするアクタークリティカル フレームワークを採用しています。

パフォーマンスをテストするために、[6] はさまざまなシミュレート データを生成します。一部のデータセットでは、異なるデータ サンプルに異なる数の関連する特徴が含まれる場合があります。これらのデータセットに対して、[6] は高精度を達成できるだけでなく、適切な関連特徴を選択できます。また、すべてのデータが相関する特徴のグローバル サブセットを共有する場合、相関する特徴を識別することもできます。[1] も [6] もサンプルごとの探索空間を制限しません。その結果、検索空間が指数関数的に増加するため、どちらのアルゴリズムも計算コストが高くなります。

検索スペースを削減するために、私たちの作業では、関連する特徴の可能なサブセットの数が固定されていると想定しています。この仮定を満たす混合モデルを提案します。このような条件付き計算では、計算量をほとんど増加させずに大きな学習能力を維持できます。私たちのモデルが高い精度を達成し、より良い解釈可能性を提供できることを示します。私たちのアプローチは、可能性のある関連する特徴のサブセットの数がそれほど多くない問題に限定されます。それ以外の場合は、ノンパラメトリックなアプローチの方が適切です。

私たちのネットワーク構造は、[7] で提案された混合モデルに似ています。スパース ハイブリッド ニューラル ネットワークは、条件付き計算を利用して、計算をスケールアップすることなく処理能力の向上を実現します。ただし、そのようなモデルは、たとえば特徴選択やモデル解釈には使用されていません。[7] では、私たちが注目している単一のモデルが出力を決定する場合は考慮されていません。私たちの知る限り、私たちの研究は、インスタンスの問題を解決するためにハイブリッド ディープ ニューラル ネットワーク (DNN) を使用した最初の作品です。確率的勾配降下法に基づいた私たちのモデルは、この問題を非常に正確かつ効率的に、良好な解釈可能性で解決できます。

II. 問題の定式化

教師あり学習設定では、インスタンスの特徴選択問題を検討します。私たちは分類問題に焦点を当てており、モデルは回帰まで簡単に拡張できます。N iid トレーニング データ ペア (xi, yi) i = 1N があるとします。ここで、Rd の x ∈ X は入力データを表し、y ∈ {1,...,C} は入力データが離散出力ラベルであることを表します。私たちは、予測とインスタンスの特徴の選択という 2 つの目的に焦点を当てています。予測とは、x と y の関係を明らかにすることです。インスタンス特徴選択では、各データ サンプルを表す特徴サブセット ベクトル s ∈ {0, 1}d を選択します。ここで、si=1 は i 番目の特徴が選択されることを意味し、si=0 は i 番目の特徴が選択されることを意味します。選択されていない。適切な s は、対応する出力ラベル y の予測と相関関係がある必要があります。インスタンスごとの特徴選択は、ほぼすべてのデータ ペア (x, y) に対して、次のようなセレクター関数 S: X → {0, 1}d を見つけることを目的としています。

スクリーンショット 2021-11-22 9.20.48 pm

分類の枠組みでは、S を評価するための基準は、x と y の推定値 y^ の差に埋め込まれます。クロスエントロピーを使用して差を定量化します。最小二乗損失、精度など、他の損失も使用できます。識別部分の目標は、x と y の関係を理解することです。DNN で一般的に使用されているように、p の i 番目の要素が P(y=i|X)、i=1,2,...,C に等しくなるように、ワンホット確率ベクトル p を使用して y を表します。

ΔC-1 が C-1 シンプレックスを表すことを許可します。

スクリーンショット 2021-11-22 午後 9 時 28 分 30 秒

データサンプル x の予測クラス確率ベクトル p を出力する関数 f:Rd→ΔC-1 を構築したいと考えています。関数 f は θ によってパラメータ化され、f(x;θ) と記述されます。インスタンスの特徴選択と判別学習を組み合わせます。利用可能な特徴に対していくつかの目的関数の勾配をランク付けして、各インスタンスに関連する特徴を特定します。これについては次のセクションで詳しく説明します。サンプル x の真のラベル y と推定ラベル間のクロスエントロピーは次のように表すことができます。

スクリーンショット 2021-11-22 午後 9 時 37 分 35 秒

このうち、添字 c は f(x;θ) の c 番目の要素を指します。

Ⅲ.提案モデル

INVASE は、各サンプルが関連する特徴の異なるサブセットを持つ可能性があることを前提としています。各例には、考えられる特徴の 2D サブセットがあります。N 個のトレーニング サンプルの場合、考えられる選択結果の数は 2dN です。検索スペースは、データの次元とサンプル サイズの指数です。実際には、データ ポイントは何らかの「パターン」によって生成される可能性が高いため、各パターン内には関連する特徴のセットが存在します。この観察に基づいて、特徴のサブセットは K 個のみであるという制約を課し、各サンプルに関連する特徴は K サブセットの 1 つによって与えられます。一般に、K ≪ 2d です。K 個の可能な特徴サブセットを {s{1},...,s{K}} と表すことにします。各データ サンプル x には、一意に関連付けられた特徴セレクター S(x) ∈ {s{1},...,s{K}} があります。

制約をモデル化するために、K 個の異なる識別モデルの混合を提案します。インスタンス化された機能の選択を 2 つのステップで実装しました。まず、サンプル x がどの判別モデルから取得されたかを決定する必要があります。次に、選択されたサブモデルはグローバル特徴ベクトルを選択し、それをサンプルに割り当てます。

A. サブモデルの選択

各サンプルは 1 つのサブモデルのみから生成されると想定します。M(x): Xd → {0,1}K を使用して、x をモデル選択ベクトル m にマッピングします。M(x) は、データ x がサブモデル k (k=1,...,k) から生成される確率を出力します。M はワンホット ベクトルである必要があります。このベクトルでは、真のサブモデルのみが値 1 を持ち、それ以外の場合は 0 になります。サンプル ペア (x, y) がサブモデル k によって生成される場合、条件付き確率分布は次のようになります。

スクリーンショット 2021-11-23 8.53.35 am

ここで、Pk は k 番目のサブモデルの条件付き分布を指します。より一般的には、P(y|x) を K 個のサブモデルの線形結合として書くことができます。

スクリーンショット 2021-11-23 8.58.44 am

推定器 M^(x) を使用して M(x) を近似します。M^(x) がワンホット ベクトルを出力するように制約すると、問題は離散化し、損失関数も微分不可能になります。したがって、勾配降下法を使用して損失を最適化することはできません。この障害を克服するために、制約を緩和し、M^(x) を Xd から K−1 への単一のマッピング ∆K−1 とします。

ソフトマックス関数 σ: RK → RK は、確率の正規化としてよく使用されます。次の式で定義されます。

スクリーンショット 2021-11-23 9.56.05 am

関数 M^(x) を例にとると、サブモデルは活性化関数ソフトマックスを備えたニューラル ネットワークの層でモデル化されます。

スクリーンショット 2021-11-23 10.00.53 am

b. ディスカッション

1) ソフトマックスを選択する理由: 私たちのモデルと通常のモデルの主な違いは、問題にとって重要なモデル選択層です。各データ サンプルの正しいサブモデルを予測できれば、モデル ラベルに基づいてデータをクラスター化できます。この後は、K 個のグローバル特徴選択問題を解くだけで済むため、問題は簡単になります。したがって、サブモデルの選択がモデル最適化のボトルネックになります。argmax を活性化関数として使用する場合、出力ニューロンはパラメーターの区分定数関数であることを意味します。逆伝播ルールに従って、すべてのサブモデルは常に 0 の勾配を持つパラメーターを選択します。したがって、勾配降下法を使用してネットワークをトレーニングすることは不可能です。もう 1 つの方法は、最大値を保持し、残りの値を 0 に設定することです。[7] はバックプロパゲーションを直接使用してネットワークをトレーニングできますが、その理由は、1 つだけではなく複数のモデルを選択しているためです。確率的解釈の場合、最も可能性の高いモデルを選択した後、ソフトマックスが適用されます。複数のモデルが選択されている場合、ソフトマックス関数は正規化でき、出力は区分的に一定ではなく、単体空間で変化します。したがって、勾配は常に 0 になるとは限りません。ただし、この場合、サブモデルが 1 つだけ選択されているため、値は常に定数 1 に正規化されるため、勾配は 0 になります。

この問題に対処するために、[8] は勾配を近似する「ストレートスルー」推定器を提案しています。バイナリ ニューラル ネットワークとバックプロパゲーション ルールが設計されています。ただし、これらの方法は正確ではなく、実装も簡単ではありません。

したがって、活性化としてソフトマックスを使用します。これは、正則化項なしでモデル予測で優れたパフォーマンスを示します。モデルの推定確率はほとんどまばらです。推論フェーズでは、より大きなモデル確率値を持つサブモデルにサンプルを割り当てます。

2) 正則化なし: ワンホット ベクトルを近似するために、サブモデル確率に正則化項を追加できます。ワンホット ベクトルはスパースであるため、スパース正則化が考慮されます。一般的に使用される l1 ノルム正則化は、サブモデルのメンバーシップを予測するための活性化としてソフトマックス関数を使用するため、このモデルでは役に立ちません。Softmax 関数を使用すると、すべてのメンバーの値の合計が 1 になります。l1 ノルムは常に定数であるため、ペナルティ項として損失関数に影響を与えることはできません。

2 つのモデルの混合の場合、サブモデルの確率は 2 次元のワンホット ベクトルとして予測されます。考えられるペナルティの 1 つは、メンバー間の差 |m^1 − m^2| を最大化することです。項目が大きいほど、メンバーシップ ベクトルはワンホット ベクトルに近づきます。−λ|m^1− m^2| の形式のペナルティ項は凹面になるため、最適化問題が困難になる可能性があります。K > 2 の場合、ワンホット ベクトルを近似する直観的な正則化はほとんどありません。モデル選択に関して正則化を行わずに損失関数を最適化することにしました。2 つのモデルのハイブリッドを例にとると、数値結果は満足のいく結果を示しています。確率的勾配降下法では、ほぼまばらな値が得られます。つまり、2 つのモデルの確率の差は非常に大きくなります。この現象は、データによく適合するモデルの仮定によるものである可能性があり、学習プロセスを暗黙的に制御する強力な事前知識とみなすことができます。

CK サブモデルの混合

サブモデルの推定値は次のように仮定します。

スクリーンショット 2021-11-23 10.19.24 am

これらは同じネットワーク構造を共有しますが、パラメータが異なります。したがって、パラメータ θ は K 個のグループ、つまり θ={θ1,...,θK} に分割できます。k 番目のモデルは、グローバル特徴 Sk(x) ≡ sk ∈ {0,1}d を選択します。特徴選択後の判別結果は同じになるはずです。

スクリーンショット 2021-11-23 10.21.12 am

ハイブリッド K DNN を使用してサンプル x の分類結果を推定します。したがって、 f は次のように書くことができます。

スクリーンショット 2021-11-23 10.47.48 am

ここで、fk(x; θk) は Pk(y|x) を近似するために使用されます。以下で、fk は多層ニューラル ネットワークです。この場合、θk はすべての層の重みとバイアスで構成されます。

スクリーンショット 2021-11-23 10.50.04 am

図 1 を使用してモデルを説明します。サブモデルの確率は、最初にニューラル ネットワークを使用して推定されます。その後、各サブモデルは独自のクラス ラベルの分布を独立して出力します。最後に、推定されたすべてのラベル分布が線形に結合されます。

モデル f 全体を最適化するために、トレーニング データにわたるクロス エントロピーの合計を最小化します。推論フェーズでは、最も確率の高いクラス ラベルがサンプルに割り当てられます。各データ サンプルの正しいラベルを決定することに加えて、もう 1 つの重要な目標は、最も関連性の高い特徴のサブセットを選択すること、つまり s{k} を見つけることです。これは、入力データと出力データの相関関係を説明するのに役立ちます。連続ベクトル ^{k} ∈ Rd を使用して s{k} を近似します。x に対する fk の感度の大きさを推定量として使用します。

スクリーンショット 2021-11-23 11.10.44 am

^s の要素は特徴のスコアとして使用され、上位 l 値に対応する特徴が関連特徴として選択されるように並べ替えられます。

IV. 実験

有効性を検証するために、関連する特徴が既知で検証可能なシミュレートされたデータセットでモデルをテストしました。L2X [1] の中央値ランキングを使用して、特徴選択のパフォーマンスを評価します。これらの特徴は s{k} に従って並べ替えられます。各サブモデルには、すべてのトレーニング データに基づいた独自の特徴ランキングがあります。シミュレートされたデータでは、実際に関連するフィーチャの中央値がわかります。私たちのモデルは、真の特徴のランクを推定できます。推定ランクの中央値を観察し、それをグランド トゥルースと比較できます。また、モデルを INVASE [6] および L2X [1] と比較します。公平な比較のために、INVASE [6] の予測ネットワークはサブモデルと同じアーキテクチャを持っています。L2X [1] で説明するモデルについても同様です。L2X [1] の場合、その解釈ネットワークを [1] に示します。

このセクションでは、INVASE [6] によって設計されたのと同じデータセットを使用します。入力 x の次元は d = 11 で、各次元は独立した同一分布 (iid) ガウス分布です。出力ラベル y は、ベルヌーイ分布からサンプリングされます。

スクリーンショット 2021-11-23 2.27.34 pm

logit(x) 関数は、次の場合に異なります。グローバル特徴選択とインスタンス特徴選択の両方を考慮します。グローバル機能選択は、インスタンスベースの機能選択の特殊なケースです。ハイブリッド DNN がグローバルな特徴を持つデータセットに対して正しい決定を下せるかどうかを見るのは興味深いでしょう。この場合、3 つのデータセットがテストされます。

スクリーンショット 2021-11-23 2.29.01pm

データセットの残りの部分は、インスタンスの特徴選択用に設計されており、各サンプルのラベルは 2 つのサブモデルの 1 つから生成されます。そのロジット関数は次のとおりです。

スクリーンショット 2021-11-23 2.30.57 pm

データセット Syn4 と Syn5 では、関連する 2 つの特徴サブセットのサイズが異なります。したがって、上位 l 個の特徴をサンプリングする必要があるため、L2X でモデルをトレーニングすることは不可能です。すべてのデータセットに対して 20,000 のサンプルを生成します。データは、9000 個のトレーニング データ サンプル、1000 個の検証データ サンプル、および 10000 個のテスト データ サンプルにランダムに分割されます。検証データはトレーニング プロセスを監視するために使用されます。

サブモデルの選択は、ソフトマックス アクティベーションを備えた 2 ノード レイヤーです。これら 2 つのサブモデルはそれぞれ、同じ 3 層アーキテクチャを持っています。最初の層と 2 番目の層の両方に 2D ノードがあります。ネットワークがデータセット Syn1、Syn2、Syn3 を処理する場合、アクティベーション関数は RELU です。

スクリーンショット 2021-11-23 2.34.18 pm

データセット Syn4、Syn5、および Syn6 の場合、活性化関数はスケーリングされた指数線形単位 (SELU) です。

スクリーンショット 2021-11-23 2.34.53pm

ここで、λ、α は [9] のデフォルト値で設定されます。最後の層は、予測されたクラス確率を出力します。

Tensorflow フレームワーク [10] を使用して学習プロセスを実装します。L2X [1] と INVASE [6] については、Github 上の実装を使用します。L2X と INVASE の実装は、GitHub - Jianbo-Lab/L2XおよびGitHub - jsyoon0823/INVASE: Codebase for INVASE: Instance-wise Variable Selection - 2019 ICLRにありますすべての実装は Nvidia GeForce GTX 1080Ti GPU で実行されます。トレーニング中に、クロスエントロピーを損失関数として使用し、Adam を使用してそれを最適化します。学習率は 0.08 に設定され、最大時間は 3000 です。検証誤差が 2 時間間隔を超えて減少しなくなった場合、トレーニング プロセスは早期に停止します。それ以外の場合、トレーニングは最大時間間隔に達するまで継続されます。すべてのネットワーク重みに対して、正則化係数 1e−3 の重み減衰を使用します。

スクリーンショット 2021-11-23 2.46.10 pm

表 1 は、すべてのテスト データの平均ランキング結果の中央値を示しています。グラウンドトゥルース、L2X、INVASE、および私たちの手法の結果をリストします。グラウンド トゥルースは、すべてのアルゴリズムが達成できる最も低いランキング結果の中央値です。中央値ランクが低いほど、特徴選択結果は良好になります。Syn1、Syn2、および Syn3 では、データセット Syn4 の L2X を除くほぼすべてのメソッドで真の特徴を正確に選択できます。結果は、すべての方法が比較的確実にグローバル特徴を選択できることを示しています。この例では、メソッドの 2 つのサブモデルが同じ関連する特徴を選択します。Syn4、Syn5、Syn6 などのより複雑なケースでは、x11 も関連する機能とみなされ、ラベルを決定する機能と見なされます。私たちの結果は、3 つの複雑なデータセットの中で最も優れたものです。グランド トゥルースからの逸脱は、サブモデルの予測誤差によるものです。

K が小さい場合、モデルはトレーニング パラメーターの数においてモデルの複雑さが低くなります。K が大きくなると、モデルの複雑さが低いという利点が失われます。ワンホット ベクトル近似が正確でない場合、より多くのトレーニング時間が必要になる可能性があります。推論段階では、サブモデルを 1 つだけ計算すればよいため、依然として有利です。

V. 結論

このペーパーでは、たとえば特徴選択にハイブリッド DNN を使用することを提案します。このモデルはコンパクトで解釈しやすく、確率的勾配降下法を使用したトレーニングも簡単です。数値例は、特徴選択の結果が正確であり、既存の方法と比較されていることを示しています。今後の作業では、高次元データや少数のラベルなど、より複雑なシナリオが考慮されます。もう 1 つの拡張機能は、より正確なワンホット近似とアテンション メカニズムです。

おすすめ

転載: blog.csdn.net/aab11235/article/details/121493147