機械学習の分類モデル

概要

機械学習分類モデルはトレーニング セットを通じて学習し、入力空間XXを確立します。Xから出力スペースYYYのマップ(離散値)。さまざまな出力カテゴリ (ラベル) に応じて、バイナリ分類 (Binaryクラシフィケーション)、マルチ分類 (Multi-Class Classification)、およびマルチラベル分類 (Multi-Labelクラシフィケーション) に分類できます。一般的に使用される分類アルゴリズムには、ロジスティック回帰、KNN、決定番号、ランダム フォレスト、単純ベイズなどが含まれます。具体的な分類モデルを以下に紹介します。

分類モデル

ロジスティック回帰

ロジスティック回帰は線形回帰に基づいて導出される分類モデルですが、線形回帰の出力は連続値であり、その範囲を制限できないため、線形回帰をそのまま分類の基礎として使用することはできません。マッピング関数 (シグモイド関数など) を使用して連続出力値を (0,1) にマッピングする必要があり、この確率値をモデルが分類結果を判断するための基礎として使用できます。

最近傍分類

最近傍分類 (KNN) は一般的に使用されるデータ クラスタリング手法であり、その中心的な考え方は、特徴空間内で一致する k 個の最近傍点を見つけ、k 個の最近傍点の投票に従って現在のサンプルがどのカテゴリに属する​​かを判断することです。 。KNN アルゴリズムでは、選択された近傍オブジェクトは正しく分類されたオブジェクトです。一般的に使用される距離関数には、マンハッタン距離、ユークリッド距離、ミンコフスキー距離などがあります。

ナイーブ・ベイズ

単純ベイズ分類器は、ベイズの法則とイベント間の条件付き独立性の仮定に基づいています。ベイズの法則は次のとおりです:
P ( B i ∣ A ) = P ( B i ) P ( A ∣ Bi ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P(B_i|A) = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{ n}P(B_j) P(A|B_j)}P ( B私はA )=j = 1P ( Bj) P ( A Bj)P ( B私は) P ( A B私は)
ここで、P ( ⋅ ) P(\cdot)P ( )はイベント発生の確率、P ( A ∣ B ) P(A|B)P ( A B )は、B が発生した場合に A が発生する確率です。
イベント間の相互独立性の仮定では、たとえこれらのイベントが互いに依存していたり​​、他のイベントの存在に依存していても、単純ベイジアン アルゴリズムはこれらのイベントを独立していると見なします。Naive Bayes は、指定されたトレーニング セットを通じて入力から出力までの同時確率分布を学習し、学習したモデルと入力に基づいて事後確率を最大化する出力を取得します。

サポートベクターマシン

サポート ベクター マシン (SVM) は、分類問題を分類平面を見つける問題に変換し、サンプル空間を高次元特徴空間にマッピングし、分類境界点と分類平面の間の距離を最大化することによって分類を実現します。SVM 学習の基本的な考え方は、トレーニング データセットを正しく分割でき、最大の幾何学的間隔を持つ分離超平面を解くことです。線形分離可能なデータ セットの場合、さまざまなカテゴリを分割する超平面が無数に存在しますが、幾何学的間隔を最大化する分離超平面は一意です。
SVM はカーネル関数を使用してデータを低次元空間から高次元空間にマッピングします。これにより計算量が大幅に削減され、データを高次元空間に投影した後、データが分離可能になり、「呪い」を回避できます。次元の」。

デシジョンツリー

デシジョン ツリーは、ツリー構造で構築された分類モデルのクラスです。このアルゴリズムは、ルート ノードから開始して、データ セットを分割するための特定の条件を通じてデータ セットをより小さなサブセットに継続的に分割し、最終的に決定ノード (ルート ノードと内部ノードを含む) とリーフ ノードを含むツリーに発展します。木の深さが深くなるにつれて、分岐ノードの部分集合は小さくなり、判定条件は徐々に単純化されます。ブランチノードの深さや判定条件が一定の停止ルールを満たした場合、ブランチノードの分割を停止するトップダウンの閾値停止(Cutoff Threshold)方式のほか、ボトムアップの枝刈り(Pruning)方式もあります。法。分類予測では、入力データは決定木内の各決定ノードを通過し、異なる属性値に従って異なる分岐に入り、葉ノードに到達するまで分類を完了します。

ランダムフォレスト

ランダム フォレストとは、複数の決定木で構成されるモデルを指し、異なる決定木の間には関連性がありません。分類タスクが実行されると、新しい入力サンプルが入力され、ランダム フォレスト内の異なる決定木に入力され、すべての決定木の判定条件に従って複数の分類結果が得られ、最終的に最終的な分類結果が決定されます。少数派投票方法。

多層パーセプトロン

Multilayer Perception (MLP) は、順伝播に基づく人工ニューラル ネットワークであり、人間の感覚ニューロンを模倣して信号を層ごとに伝播します。多層パーセプトロンの基本構造は、通常、入力層、隠れ層、出力層の 3 層で構成されます。トレーニング中に、バックプロパゲーション アルゴリズム (勾配降下法など) を使用して重みを調整し、トレーニング プロセス中の偏差、つまり真の値と予測値の間の誤差を減らします。

アンサンブル学習に基づく分類モデル

アンサンブル学習 (アンサンブル学習) は、複数の基本的な分類器を組み合わせて学習タスクを完了することで、さまざまな機械学習タスクの精度を向上させることができる強力な手法です。単一のモデルでは過学習や過小学習が発生しやすく、それぞれのモデルはそれぞれ長所と短所を持って設計されるため、アンサンブル学習の手法に基づくモデル融合により相互学習の効果を得ることができます。一般的に使用される融合スキームには、投票、バギング、スタッキング、ブレンディング、およびブースティングが含まれます。

投票

投票とは、多数決に従う少数派の原則を採用し、複数の分類器の予測結果に投票する投票方法を指し、通常投票方法と加重投票方法に分けられます。重み付け投票方法の重みは、手動または主観的に、またはモデルの評価スコアに従って設定できます。投票方法には通常3つ以上のモデルが必要であり、投票結果の偏りを避けるためにモデルの多様性を確保する必要があります。

袋詰め

Voting メソッドでは、各基本分類子はすべて同じサンプルでトレーニングされますが、Bagging メソッドではすべてのサンプルのランダム サンプリングが使用され、各分類子は異なるサンプルでトレーニングされ、他の場所はまったく同じです。これにより、モデルのトレーニング結果の均一性が回避され、不安定なモデルの精度が向上し、過剰適合の程度が軽減されます。

スタッキング

スタッキングは階層モデル統合フレームワークです。いくつかの基本分類器によって得られた予測結果は、学習者を訓練するための新しい訓練セットとして使用されます。2 層のスタッキング統合フレームワークを例にとると、最初の層は複数のベース学習器で構成され、入力は元のトレーニング セットで、2 番目の層のモデルは最初の層に基づいて他のベースを学習します。

ブレンド

ブースティング

おすすめ

転載: blog.csdn.net/weixin_43603658/article/details/132279312