すべてのメモの概要:「機械学習」スイカの本-メモを読む概要
1.基本形
線形モデルは、属性の線形結合を通じて予測する関数を学習しようとします。通常、ベクトルの形式で表現します。f(x)= w T x + bf(x)= w ^ Tx + bf (x )=wT x+b
なぜならwwwは、予測における各属性の重要性を直感的に表現するため、線形モデルは優れた解釈可能性を備えています。
2、線形回帰
サンプルは複数の属性で記述される場合があります。現時点では、f(xi)≈yif(x_i)= w ^ Tx_i + bとなるように、f(xi)= w T xi + bを学習しようとしています。(x_i)\ approx y_if (x私)=wT x私+B 、ように得ることができるF (Xを私)≈そして私これは「多重線形回帰」と呼ばれます。
例に対応する出力ラベルが指数スケールで変化すると仮定すると、出力ラベルの対数を線形モデル近似のターゲットとして使用できます。つまり、lny= w T x + b \ ln y = w ^ Tx + blnそして=wT x+bこれは「対数線形回帰」(対数線形回帰)であり、実際にはew T x + be ^ {w ^ Tx + b}を作成しようとしています。ewT x+bはyyに近似しますおよび。
より一般的には、単調微分可能関数g(⋅)g(\ cdot)を考えることができます。g (⋅ )、令y = g − 1(w T x + b)y = g ^ {-1}(w ^ Tx + b)そして=g− 1(wT x+b )このようにして得られたモデルは「一般化線形モデル」と呼ばれ、関数g(⋅)g(\ cdot)g (⋅ )は「リンク関数」と呼ばれます。明らかに、対数線形回帰は一般化線形モデルであり、g(⋅)=ln(⋅)g(\ cdot)= \ ln(\ cdot)g (⋅ )=ln (⋅ )の場合の特殊なケース。
3、対数確率回帰
単位ステップ関数は連続ではないため、そのようなg(・)g(\ cdot)を直接見つけることはできません。g (⋅ )。単位ステップ関数をある程度近似できる「代理関数」を見つけ、単調に微分可能であることを期待します。ロジスティック関数(ロジスティック関数)は、一般的に使用される代替関数です。y= 1 1 + e − z = 1 1 + e −(w T x + b)y = \ frac1 {1 + e ^ {-z} } = \ frac1 {1 + e ^ {-(w ^ Tx + b)}}そして=1+e-と1=1+e− (wT x+b)1
lny 1 − y = w T x + b ln \ frac {y} {1-y} = w ^ Tx + b l n1−そしてそして=wT x+b
最尤法を使用してwwを推定できますwとbbb
第四に、線形判別分析
線形判別分析(線形判別分析、略してLDA)は、古典的な線形学習方法です。これは、データの次元を削減することに似ており、クラス間で大きく、クラス内で小さくなります。
LDAの考え方は非常に単純です:一連のトレーニング例を前提として、類似した例の投影点ができるだけ近くなり、異種の例の投影点ができるだけ遠くなるように、例を直線に投影してみてください新しいサンプルを分類するときは、同じ直線上に投影し、投影点の位置に従って新しいサンプルのカテゴリを決定します。
この記事はここで見ることができます:ホワイトボード派生シリーズノート(4)-線形分類
5つのマルチクラス学習
マルチクラス学習の基本的な考え方は、「逆アセンブル方法」は、マルチ分類タスクをいくつかの二項分類タスクに分割することです。
一般的に使用されているMvMテクノロジである「エラー訂正出力コード」(ECOC)を確認できます。
6、カテゴリーの不均衡
クラス不均衡(クラス不均衡)とは、分類タスクのさまざまなカテゴリのトレーニング例の数が大きく異なる状況を指します。たとえば、998の反例がありますが、肯定的な例は2つしかないため、学習メソッドは常に新しいサンプルを反例として予測する学習者を返すだけでよく、99.8%の精度を達成できます。ただし、このような学習者は多くの場合価値がありません。ポジティブなケースを予測できないからです。
分類器の決定ルールは次のとおりです。ify1− y> 1 \ frac y {1-y}> 11 -とそして>>1つの予測は良い例です。
トレーニングセットの正と負の例の数が異なる場合、m + m ^ +とします。m+肯定的な例の数を示しますm− m ^-m−反例の数を示します。その場合、観測確率はm + m − \ frac {m ^ +} {m ^-}です。m−m+通常、トレーニングセットは実際のサンプル母集団の不偏サンプリングであると想定しているため、観測確率は真の確率を表します。したがって、分類器の予測確率が観測確率よりも高い限り、それは肯定的な例として判断する必要があります。つまり、y 1 − y> m + m − \ frac y {1-y}> \の場合frac {m ^ +} {m ^-}1 -とそして>>m−m+予測は前向きな例です。
分類器は決定ルールに基づいて決定を行うため、予測値を調整する必要があります。したがって、y '1 − y' = y 1 − y ∗ m + m − \ frac {y '} {1-を行う必要があります。 y '} = \ frac y {1-y} * \ frac {m ^ +} {m ^-}1−そして′そして"=1−そしてそして∗m−m+
したがって、基本的な戦略である「再スケーリング」を実行する必要があります。
- トレーニングセット内の反例を直接「アンダーサンプリング」します。つまり、それらのいくつかを削除して、正と負の例の数を近づけてから学習します。
- トレーニングセットのポジティブな例を「オーバーサンプリング」します。つまり、ポジティブな例をいくつか追加して、ポジティブな例とネガティブな例の数を近づけてから学習します。
- 学習は元のトレーニングセットに直接基づいていますが、トレーニングされた分類器が予測に使用される場合、上記の式は「しきい値移動」と呼ばれる意思決定プロセスに組み込まれます。
「再スケーリング」は「コストに敏感な学習」の基礎でもあります。
次の章ポータル:スイカの本の読書ノート(4)-デシジョンツリー