アンサンブル学習 - 不対多様性指標 - 個人的な概要

I.はじめに

        アンサンブル学習: 学習タスクは、複数の学習者を構築および組み合わせることによって達成されます。一般的な構造は次のとおりです。最初に「個々の学習者」のグループを生成し、次に特定の戦略を使用してそれらを結合します。組み合わせ戦略には主に平均法、投票法、学習法などがあります。

        アンサンブル学習では、学習者個人の違いを「アンサンブルの多様性」と呼びます。多様性の統合をどのように理解するかは、この学習パラダイムの究極の問題、つまりとらえどころのない意味のある目標です既存のアンサンブルダイバーシティ測定方法には、主に 2 つのカテゴリがあります。1 つはペアになった個別の学習者のダイバーシティ測定、もう 1 つはペアになっていない個別の学習者のダイバーシティ測定です。本稿では主に後者について論じ、要約する。

2. 準備

        次の指標は個々の学習者に基づいて計算されるため、このセクションではいくつかの基本的な用語を宣言します。個々の学習者セット: \{h_1、h_2、...、h_T\}; データセット: D=\{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), ..., (\mathbf{x}_m, y_m)\}\mathbf{x}_i, y_iサンプルとクラス ラベルはそれぞれ と ですy_i \in \{-1, +1\}

3. 不対ダイバーシティの測定方法

        1. KW測定と呼ばれるKohavi-Wolpert 分散は、1996 年に Kohavi と Wolpert によって提案されました。具体的な計算方法は、

KW=\frac{1}{mT^2}\sum_{k=1}^{m}\rho(\mathbf{x}_k)(T-\rho(\mathbf{x}_k))

このうち、メートルはサンプル数、Tは個々の学習者の数、は個々の学習者によるサンプルの正確な分類の数\rho(\mathbf{x})ですT\mathbf{x}0 \leqslant \rho(\mathbf{x}) \leqslant T

メートル式から、と が定数とみなされている        ことがわかりますT。最も重要な点は\rho(\mathbf{x})、各サンプル\rho(\mathbf{x})が のT半分のとき、KWメトリックが最大に達し、この時点で多様性が最大になります。また、各サンプルが のとき、\rho(\mathbf{x})すべて 0 または の場合TKWメトリックは最小値に達し、この時点でダイバーシティは最小になります。これは理解しやすいですが、各サンプル\rho(\mathbf{x})が 0 または のT場合、すべての個別学習者の予測結果は同じになります。そうでない場合、各サンプルが の半分の場合、\rho(\mathbf{x})すべてTの個別学習者の予測結果は同じになります。異なる場合があります。完全に異なるわけではなく、異なる場合があることに注意してください。したがって、KWメトリックのダイバーシティ測定にはいくつかの問題があります。

        2.評価者間の合意(Interrater Weapons)、つまり\カッパ測定。\カッパメトリックは分類子のセットの一貫性を分析するために使用され、次のように定義されます。

\kappa = 1 - \frac{\frac{1}{T}\sum_{k=1}^{m}\rho(\mathbf{x}_k)(T-\rho(\mathbf{x}_k) )}{m(T-1)\bar{p}(1-\bar{p})}

このうち、\bar{p}=\frac{1}{mT}\sum_{i=1}^{T}\sum_{k=1}^{m}\mathbb{I}(h_i(\mathbf{x}_k )=y_k)は個々の学習者の平均分類精度であり、\mathbb{I}(\cdot)括弧内の条件が true の場合は 1 を返し、それ以外の場合は 0 を返す指標関数です。

        \カッパこの指標は主に、個々の学習者間の予測結果の一貫性を反映します。予測結果が完全に一貫している場合、\カッパの値は 1 になります。学習者間の一貫性の程度がランダムよりも悪い場合 (最も極端なケースは、正しく分類された各サンプルの結果が個々の学習者の半分であり、平均精度は 0.5)、その後\kappa \leqslant 0したがって、\カッパメトリックの値が大きいほど、個々の学習者の予測結果の一貫性は高くなりますが、多様性は小さくなり、逆も同様です。

        3.エントロピー2000 年に Cunningham と Carney によって提案されたエントロピー測定の計算方法は次のとおりです。

\mathrm{Ent}_{\mathrm{cc}}=\frac{1}{m}\sum_{k=1}^{m}\sum_{y\in\{-1,+1\}}{ -P(y|\mathbf{x}_k)\log P(y|\mathbf{x}_k)}

このうち、 はと予測される個々の学習者の割合P(y|\mathbf{x}_k)=\frac{1}{T}\sum_{i=1}^{T}\mathbb{I}(h_i(\mathbf{x}_k)=y)を表します(割合の分母は)。明らかに、個々の学習者の精度を知る必要はありません。\mathbf{x}_kyT\mathrm{Ent}_{\mathrm{cc}}

        2002 年に Shipp と Kuncheva によって提案されたエントロピー測度の計算方法は次のとおりです。

\mathrm{Ent}_{\mathrm{sk}}=\frac{1}{m}\sum_{k=1}^{m}{\frac{\min(\rho(\mathbf{x}_k) , T-\rho(\mathbf{x}_k))}{T-\left\lceil T/2\right\rceil}}

その中に、\左\lceil x \右\rceil切り上げの符号があります。バツ整数の場合は 、整数でない\左 \lceil x \右 \rceil = x場合は、値の整数部分が +1 になります。の値の範囲は[0, 1]で、0に設定すると完全に一致していることを意味し、1に設定すると多様性が最も大きいことを意味します。対数関数が使用されていないため、古典的なエントロピーではないことに注意してください。それにもかかわらず、この方程式は実装が簡単で計算が速いため、より頻繁に使用されます。バツ\左 \lceil x \右 \rceil = x\mathrm{Ent}_{\mathrm{sk}}\mathrm{Ent}_{\mathrm{sk}}

        4.難易度\mathbf{x}サンプルを正しく分類した個々の学習者の割合が確率変数として記録されると仮定するバツ、難易度の計算方法は次のようになります。

\theta = \mathrm{分散}(X)

このうち、バツ確率変数の値の範囲は であり\{0, \frac{1}{T}, \frac{2}{T}, ..., 1\}分類器でデータセットを予測することで のバツ確率分布を推定できます。したがって、確率変数の分布は次のようにリストされます。TDバツ

バツ 0 \frac{1}{T} ... 1
P \frac{\mid\{\mathbf{x} |  \rho(\mathbf{x})=0\}\mid}{m} \frac{\mid\{\mathbf{x} |  \rho(\mathbf{x})=1\}\mid}{m} ... \frac{\mid\{\mathbf{x} |  \rho(\mathbf{x})=T\}\mid}{m}

        \シータサンプルの分類難易度を測定し、\シータ値が小さいほど多様性が高くなります。上記の分布列をヒストグラムを用いて可視化すると、サンプルが分類されにくい場合、ヒストグラムの分布領域は主に左側に点在し、サンプルが分類されやすい場合、分布領域は主に左側に点在することになります。ヒストグラムの主に右側に点在します。

        5.普遍的な多様性この尺度は次のように計算されます。

\mathrm{gd}=1-\frac{p(2)}{p(1)}

このうち、p(1)=\sum_{i=1}^{T}\frac{i}{T}p_ip(2)=\sum_{i=1}^{T}\frac{i}{T}\frac{i-1}{T-1}p_i、 は、ランダムに選択された分類器がランダムに選択されたサンプルで予測できないp_i確率を表します。メトリックの値の範囲は [0, 1] で、=0 の場合、多様性は最小になります。この尺度は、ある分類器の予測誤差に別の予測が正しい場合に多様性が最大になるという考えを捉えています。なぜこのようなことができるのかは、まだ分かりませんが、分かりましたらメッセージを残して教えてください。\mathbf{x}\mathrm{gd}\mathrm{gd}

        6.同時故障測定この尺度は、一般的な多様性の修正バージョンであり、次のように計算されます。

\mathrm{cfd} = \left\{\begin{行列} 0, & p_0=1\\ \frac{1}{1-p_0}\sum_{i=1}^{T}\frac{Ti}{ T-1}p_i & p_0<1 \end{行列}\right。

すべての分類器が同時に同じ予測結果を与える場合、cfd=0、各分類器のサンプルが異なる場合、cfd=1。申し訳ありませんが、まだ理解できません。

4. まとめ

        上記の多様性の計算方法はすべて分類器に基づいて実装されています。このうち、\シータ評価者間の一貫性の 2 つを除いて、他の指標は統合の多様性に直接比例します。

        実は筆者も総合学習の分野は始めたばかりで、まだまだわからないことだらけですが、もしご覧になった方はアドバイスをお願いします。何か理解できない場合は、コメント欄にメッセージを残して、この総合学習の不対の多様性について話し合ってください。

5. 参考文献

        1.百度百科: 総合学習

        2. Zhou Zhihua. 統合学習: 基礎とアルゴリズム [M]. Electronic Industry Press、2020.

おすすめ

転載: blog.csdn.net/qq_36158230/article/details/130135708