機械学習における一般的な分類方法のまとめ

私は駆け出しの新人ですが、学んだことをメモのように記録していきたいと思っていますし、同じく始めようとしている人の手助けになればと思っています。

目次

1. 一般的なメソッドとそのコア

1. 線形判別分析

2. ロジスティック回帰

3. ベイズ分類器

4. デシジョンツリー

5、SVM

2. これらの一般的な方法の長所、短所、および応用

1. 線形判別分析

(1) メリット

(2) デメリット

2. ロジスティック回帰

(1) メリット

(2) デメリット

3. ベイズ分類器

(1) メリット

(2) デメリット

4. デシジョンツリー

(1) メリット

(2) デメリット

5、SVM

(1) メリット

(2) デメリット

6. さまざまな状況に適用できる方法

(1) データが線形分離できない場合に使用することを推奨します

(2) 事前確率分布情報がある場合に使用することを推奨します

(3) データの分布が不明な場合に使用することを推奨します

(4) 特徴属性が多い場合の使用は非推奨

3. 単純ベイジアン分類器とロジスティック回帰間の相互通信

4. 2 分類から複数分類へ

5. カテゴリの不均衡問題


1. 一般的なメソッドとそのコア

1. 線形判別分析

次元削減に基づいた方法ですべてのサンプルを 1 次元の座標軸にマッピングし、サンプルを区別するためのしきい値を設定します。マッピングの基準は、クラス間の距離が大きく、クラス内の距離が小さいことです。

例として 2 つのカテゴリを取り上げます。

目標: 最大化——

 最終結果:

詳細については、線形判別分析 (LDA) を参照してください。

2. ロジスティック回帰

シグモイド関数は、線形回帰を使用して分類タスクを実行し、0 ~ 1 の間で線形に変化する値をクラス 1 として決定する確率として制限し、確率値を比較することによってその値が属するカテゴリを決定します。(多重分類はシグモイド関数をソフトマックスに置き換えます)

最尤推定法により最適な W と b を求めます。

目標の計算式 (2 つのカテゴリ):

詳細については、ロジスティック回帰 (ロジスティック回帰)を参照してください。

3. ベイズ分類器

サンプルデータに対して仮説的な分布を仮定し、ベイズ決定理論、最尤推定、ラプラス平滑化を使用して最適な分布パラメータを見つけ、最終的な分類器を取得します(一般的に使用される仮説的な分布はガウス分布です)。

詳細については、ベイジアン分類器を参照してください- ttya のブログ - CSDN ブログ

4. デシジョンツリー

情報エントロピーと情報ゲインを使用して意思決定ノードを決定し、意思決定ツリーを構築する

ディシジョン ツリーの詳細な説明を参照してください_ttya のブログ-CSDN ブログ_ディシジョン ツリー

5、SVM

最大の間隔を持つ分割超平面 (線形) を見つけ、カーネル関数を変換として使用して、非線形データの分割を実現します。

解決策はすべて内積に関連しています。

詳細については、SVM model_ttya のブログ-CSDN blog_svm モデルの詳細な説明を参照してください。


2. これらの一般的な方法の長所、短所、および応用

1. 線形判別分析

(1) メリット

高速;

カテゴリの事前知識経験は、次元削減プロセスで使用できます。

(2) デメリット

LDA は、非ガウス分布を持つサンプルの次元削減には適していません。

LDA の次元削減は、カテゴリ数 N-1 の次元に削減できます。次元削減の次元が N-1 より大きい場合、LDA は使用できません。

LDA はデータを過剰適合させる可能性があります。

2. ロジスティック回帰

(1) メリット

分類シナリオに適しています。

計算コストは​​高くなく、理解と実装が簡単です。

データの分布を事前に想定する必要がないため、不正確な想定によって引き起こされる問題が回避されます。

カテゴリが予測されるだけでなく、おおよその確率予測も取得できます。

目的関数は任意の順序で導出できます。

(2) デメリット

アンダーフィットしやすく、分類精度は高くありません。

データの特徴が欠落している場合、または特徴空間が大きい場合、パフォーマンスへの影響は良くありません。

3. ベイズ分類器

(1) メリット

シンプルで学習効率が高い。

分類プロセスにおける時間と空間のオーバーヘッドは小さいです。

前提条件を使用できます。

(2) デメリット

変数間の独立性の仮定や仮定の分布の影響を受ける(仮定が大きく影響し、仮定が不正確な場合は分類結果にも大きな影響を与える)

4. デシジョンツリー

(1) メリット

比較的単純。

非線形分類問題を処理できる。

複雑な多段階の意思決定に適用すると、段階とレベルが明確になります。

(2) デメリット

過剰適合しやすい。

使用範囲は限られており、数量で表現できない一部の決定には適用できません。

さまざまなスキームの発生確率の決定は非常に主観的な場合があり、誤った意思決定につながる可能性があります。

5、SVM

(1) メリット

カーネル関数を使用して高次元空間にマッピングし、非線形分類を解決できます。

分類の考え方は非常にシンプルで、サンプルと決定曲面の間の間隔を最大化することです。

分類効果はより優れています。

(2) デメリット

大規模なデータでトレーニングするのは困難です。

複数の分類を直接実行することは困難ですが、間接的な方法 (1 対 1、1 対多) を使用できます。

6. さまざまな状況に適用できる方法

(1) データが線形分離できない場合に使用することを推奨します

デシジョンツリー、SVM(カーネル関数)、ベイジアン分類器

(2) 事前確率分布情報がある場合に使用することを推奨します

ベイジアン分類器、線形判別分析

(3) データの分布が不明な場合に使用することを推奨します

ロジスティック回帰、デシジョン ツリー、SVM

(4) 特徴属性が多い場合の使用は非推奨

(変更や影響がほとんどない (あまり関連性のない) いくつかの特徴的な属性を削除することをお勧めします)

SVM (計算量が多い)


3. 単純ベイジアン分類器とロジスティック回帰間の相互通信

例として 2 つのカテゴリを取り上げます。

属性は相互に関連しません。

ロジスティック回帰では、次のことがわかります。\ln \frac{p(y=1 \mid x)}{p(y=0 \mid x)}=\boldsymbol{w}^{T} X+b

そしてベイズの定理は次のように教えてくれます。

P(Y=1|X) = \frac{P(X|Y=1)P(Y=1)}{P(X)}

P(Y=0|X) = \frac{P(X|Y=0)P(Y=0)}{P(X)}

次に、2 つは次のように分けられます。

- \ln \frac{p(y=1 \mid x)}{p(y=0 \mid x)}=\ln \frac{p(x|y=0)p(y=0)}{p (x|y=1)p(y=1)}

あれは:

\ln \frac{p(x|y=0)p(y=0)}{p(x|y=1)p(y=1)} = -(w^{T}x+b)

さて、ベイズの基本公式に戻ります。

P(Y=1|X) = \frac{P(X|Y=1)P(Y=1)}{P(X)} = \frac{P(X|Y=1)P(Y=1) )}{P(X|Y=1)P(Y=1)+P(X|Y=0)P(Y=0)} = \frac{1}{1+e^{-(w^{ T}x+b)}}

最後のはロジスティック回帰ではないでしょうか?


4. 2 分類から複数分類へ

2 つのカテゴリの学習を複数のカテゴリの学習に拡張 - プログラマーが求めた


5. カテゴリの不均衡問題

分類タスクにおけるカテゴリーの不均衡の問題 - プログラマーが求めた


皆さんもコメント欄で批判や修正を歓迎します、ありがとう~

おすすめ

転載: blog.csdn.net/weixin_55073640/article/details/126668382