機械学習の 10 の古典的なアルゴリズム

機械学習アルゴリズムは、コンピューター サイエンスと人工知能の分野の重要なコンポーネントであり、データからパターンを学習し、予測や意思決定を行うために使用されます。この記事では、線形回帰、ロジスティック回帰、サポート ベクター マシン、単純ベイジアン、デシジョン ツリー、その他のアルゴリズムを含む 10 個の古典的な機械学習アルゴリズムを紹介します。これらのアルゴリズムはそれぞれ、特定の分野で大きな価値があります。

1 線形回帰

線形回帰は、最も人気のある機械学習アルゴリズムの 1 つと見なすことができます。これは、数理統計で回帰分析を使用して、2 つ以上の変数間の定量的な関係を決定する統計分析手法です。現在、線形回帰は非常に幅広く使用されています。線形回帰は、直線を見つけて、それを散布図のデータ ポイントにできるだけ近づけることです。直線の方程式をデータに当てはめることによって、独立変数 (x 値) と数値結果 (y 値) を表現しようとします。この線は、将来の値を予測するために使用できます。このアルゴリズムで最も一般的に使用される手法は最小二乗法です。この方法では、直線上の各データ ポイントまでの垂直距離が最小になるように、最適な直線が計算されます。合計距離は、すべてのデータ ポイントの垂直距離 (緑色の線) の二乗の合計です。この二乗誤差または距離を最小限に抑えてモデルを適合させるという考え方です。

アルゴリズムの詳細説明:機械学習の線形回帰モデル

2 ロジスティック回帰

ロジスティック回帰は線形回帰に似ていますが、出力がバイナリの場合 (つまり、結果が 2 つの値しか取り得ない場合) に使用されます。最終出力の予測は、ロジスティック関数 g() と呼ばれる非線形シグモイド関数です。

このロジスティック関数は、中間結果の値を結果変数 Y にマッピングします。値の範囲は 0 から 1 です。これらの値は、Y が発生する確率として解釈できます。シグモイド ロジスティック関数の特性により、ロジスティック回帰が分類タスクにより適したものになります。

アルゴリズムの詳しい説明:機械学習のロジスティック回帰

3K 最近傍アルゴリズム

K 最近傍法 (KNN) は非常に単純です。KNN は、トレーニング セット全体にわたって最も類似した K 個のインスタンス、つまり K 個の近傍インスタンスを検索し、これらの K 個のインスタンスすべてに共通の出力変数を割り当てることによってオブジェクトを分類します。

K の選択は重要です。値を小さくするとノイズが多くなり、結果が不正確になる可能性がありますが、値を大きくすると実行不可能になります。分類に最もよく使用されますが、回帰問題にも適用できます。

インスタンス間の類似性を評価するために使用される距離は、ユークリッド距離、マンハッタン距離、またはミンコフスキー距離です。ユークリッド距離は、2 点間の通常の直線距離です。実際には、点の座標の差の二乗和の平方根です。

アルゴリズムの詳細説明:機械学習用 K 最近傍アルゴリズム

4 K 平均法アルゴリズム

K 平均法 (K-means) は、データセットを分類することによるクラスタリングです。たとえば、このアルゴリズムを使用して、購入履歴に基づいてユーザーをグループ化できます。データセット内で K 個のクラスターを見つけます。K 平均法は教師なし学習に使用されるため、トレーニング データ X と識別するクラスターの数 K のみを使用する必要があります。

このアルゴリズムは、各データ ポイントの特性に基づいて、各データ ポイントを K グループの 1 つに繰り返し割り当てます。各 K クラスターに対して K 点 (重心と呼ばれます) を選択します。類似性に基づいて、最も近い重心を持つクラスターに新しいデータ ポイントが追加されます。このプロセスは、重心の変化が止まるまで続きます。

 アルゴリズムの詳細説明:機械学習の K-means アルゴリズム

5 つのサポート ベクター マシン

サポート ベクター マシン (サポート ベクター マシン、SVM) は、教師あり学習において最も影響力のある機械学習アルゴリズムの 1 つです。このアルゴリズムの誕生は 1960 年代にまで遡ります。旧ソ連の学者ヴァプニクは、数十年を経て、この種のアルゴリズム モデルを提案しました。 1995 年までの開発期間中に、SVM アルゴリズムは本当に完成され、その典型的な用途は手書き文字認識の問題を解決することです。

SVM は非常に完全な数学的理論的根拠を備えた非常にエレガントなアルゴリズムであり、その予測効果は数ある機械学習モデルの中でも「傑出した」ものです。ディープラーニングが普及する以前、「サポートベクターマシン」は従来の機械学習における「覇者」とも言えます。

サポート ベクター マシンはバイナリ分類モデルであり、その基本モデルは特徴空間内で最大の間隔を持つ線形分類器として定義され、その学習戦略は間隔を最大化することであり、最終的に凸二次方程式の解に変換できます。プログラミングの問題。サポートベクターマシンの学習アルゴリズムは、凸二次計画法を解くための最適化アルゴリズムです。

アルゴリズムの詳細説明:機械学習用サポートベクターマシン

6 ナイーブベイズ

Naive Bayes は、古典的な機械学習アルゴリズムの 1 つであり、確率論に基づいた数少ない分類アルゴリズムの 1 つです。ナイーブ ベイズ分類器 (ナイーブ ベイズ分類器または NBC) は、古典的な数学理論に由来し、強固な数学的基礎と安定した分類効率を備えており、最も広く使用されている分類アルゴリズムの 1 つです。

ナイーブ ベイジアン法はベイジアン アルゴリズムに基づいており、それに応じて簡略化されています。つまり、ターゲット値が与えられたときに属性が条件付きで互いに独立していると想定されます。この単純化により、ベイズ分類アルゴリズムの分類効果はある程度減少しますが、実際のアプリケーション シナリオではベイズ手法の複雑さが大幅に単純化されます。

与えられたトレーニング セットについて、ナイーブ ベイズはまず、特性条件の独立した仮説に基づいて入力と出力の同時確率分布を学習します。次に、このモデルに基づいて、与えられた入力 x に対してベイズの定理を使用して、最大の事後分布を持つ出力を見つけます。確率y。
 

 アルゴリズムの詳しい説明:機械学習のナイーブベイジアン

7 デシジョンツリー

デシジョン ツリー (ディシジョン ツリーとも呼ばれます) アルゴリズムは、機械学習における一般的なタイプのアルゴリズムであり、ツリー構造の形式で表現される予測分析モデルです。決定木は教師あり学習(教師あり学習)に属し、処理されるデータの種類に応じて分類決定木と回帰決定木に分けられます。最も初期のデシジョン ツリー アルゴリズムは、1966 年に Hunt らによって提案されました。Hunt アルゴリズムは、ID3、C4.5、CART などの多くのデシジョン ツリー アルゴリズムの基礎になっています。

デシジョン ツリーは、回帰タスクと分類タスクの両方に使用できます。このアルゴリズムでは、トレーニング モデルは、ツリー表現の決定ルールを学習することによって、ターゲット変数の値を予測する方法を学習します。ツリーは、対応する属性を持つノードで構成されます。各ノードで、利用可能な機能に基づいてデータについて質問します。左右の枝は考えられる答えを表しています。最終ノード (つまり、リーフ ノード) は予測値に対応します。各機能の重要性はトップダウンのアプローチによって決定されます。ノードの高さが高くなるほど、その属性はより重要になります。

アルゴリズムの詳しい説明:機械学習の決定木


8 ランダムフォレスト

ランダム フォレストは、非常に人気のあるアンサンブル機械学習アルゴリズムです。このアルゴリズムの背後にある基本的な考え方は、多くの人の意見の方が 1 人の個人の意見よりも正確であるということです。ランダム フォレストでは、決定木アンサンブルを使用します。新しいオブジェクトを分類するには、各決定ツリーから投票し、結果を組み合わせて、多数決に基づいて最終決定を行います。

ランダム フォレスト アルゴリズムは、優れたパフォーマンスと解釈可能性により、さまざまなアプリケーション シナリオに適しています。これは、分類問題、回帰問題、特徴選択、異常検出などのさまざまなシナリオで重要な役割を果たします。

 アルゴリズムの詳しい説明:機械学習のランダムフォレスト

9 主成分分析

主成分分析 (PCA) は教師なし学習の機械学習アルゴリズムであり、主にデータの次元削減に使用され、高次元データの場合、次元削減を通じて人間にとって理解しやすい特徴を見つけることができます。

PCA は、データの次元削減を実現するアルゴリズムです。名前が示すように、データセットがあり、各データの次元が D であると仮定すると、PCA は D 次元の最初の K 個の主な特徴を分析します (K 次元は元の D 次元の特徴に基づいて再構成されます) 、および真新しい直交特徴)、D 次元データを K 主要次元にマッピングして、高次元データの次元削減処理を実現します。PCA アルゴリズムの目標は、削減された次元データによって失われる情報の量をできる限り少なくすることです。つまり、K 次元の選択は、元の D 次元データの特性にできる限り一致する必要があります。 。

 アルゴリズムの詳しい解説:機械学習の主成分分析

10 ブースティングとAdaBoost

ブースティングは、多数の弱分類器から 1 つの強分類器を作成しようとするアンサンブル手法です。Boosting メソッドを実装するには、まずトレーニング データを使用してモデルを構築し、次に 2 番目のモデル (最初のモデルのエラーを修正しようとする) を作成する必要があります。最終的にモデルがトレーニング セットで完全な予測を行えるようになるか、追加されたモデルの数が上限に達するまで、新しいモデルの追加を停止します。

AdaBoost は、バイナリ分類問題用に開発された初めて実際に成功したブースティング アルゴリズムです。これは、人々がブースティングを理解し始めるための最良の出発点です。現在のブースティング手法は AdaBoost に基づいており、最も有名なものは Stochastic Gradient Boosting Machine です。

 アルゴリズムの詳しい説明:機械学習のBoostingとAdaBoost

おすすめ

転載: blog.csdn.net/lsb2002/article/details/131966792