機械学習とアルゴリズムの紹介

機械学習アルゴリズムは、大量の履歴データから隠れた法則を掘り出し、回帰 (予測) または分類に使用しようとします。広い意味では、機械学習は直接プログラミングでは実現できない機能を実行できるように、機械学習機能を付与できる方法ですが、実際には、機械学習はデータを使用してモデルをトレーニングする方法です。次に、モデル予測の方法を使用します。

1. 機械学習の分類

学習理論によれば、機械学習モデルは、教師あり学習、半教師あり学習、教師なし学習、転移学習、強化学習に分類できます。

教師あり学習は、回帰と分類の 2 つの部分に分けられるラベル付きのトレーニング サンプルです。

半教師あり学習とは、トレーニング サンプルが部分的にラベル付けされ、部分的にラベル付けされていないことです。

教師なし学習は、ラベルなしでサンプルをトレーニングします。

移行学習とは、トレーニング済みモデルのパラメーターを新しいモデルに移行して、新しいモデルのトレーニングを支援することです。

強化学習は、オントロジー(エージェント)が特定の環境で現在の状態に従って行動し、最大の報酬を得ることができる学習最適戦略です。強化学習と教師あり学習の最大の違いは、強化学習の各決定が正しいか間違っているかではなく、最も累積的な報酬を得ることを望んでいることです。

2.機械学習アルゴリズムの紹介

1. 回帰アルゴリズム

回帰アルゴリズムには、線形回帰とロジスティック回帰が含まれます。

線形回帰の一般的な考え方は、すべてのデータに最適な直線をどのように当てはめるかということです。一般的に問題を解くには「最小二乗法」が用いられ、最小二乗法は最適問題を関数の極値を求める問題に変換します。数学では微分を0にする方法が一般的ですが、この方法はコンピュータには不向きで、解けなかったり、計算量が大きすぎたりすることがあります。そこで、関数の極値を解く問題に対処するために「勾配降下法」と「ニュートン法」が提案されています。

ロジスティック回帰は線形回帰に似ていますが、線形回帰は数値の問題を扱います。つまり、最終的な予測結果は数値ですが、ロジスティック回帰は分類アルゴリズムに属します。つまり、ロジスティック回帰の予測結果は離散分類です。この手紙を判断するなど、メッセージがスパムかどうか、ユーザーが広告をクリックするかどうかなど。

2.SVM(サポートベクターマシン)

SVM は教師あり学習アルゴリズムです。

ある意味で、SVM はロジスティック回帰アルゴリズムを拡張したものです。

SVM は、線形サポート ベクター マシンと非線形サポート ベクター マシンに分けることができます。線形問題を解くには線形サポートベクターマシンが使われ、非線形分類問題を解くには非線形サポートベクターマシンが使われます.カーネルテクニック(カーネル関数)が必要です.「カーネル」は実は特別な関数であり,最も典型的な機能を実現することが可能です.低次元空間を高次元空間にマッピングします。

SVM の利点: オーバーフィットしにくい

SVMのデメリット:計算量が多い

3.決定木

デシジョン ツリーは、教師あり学習アルゴリズムです。

決定木は基本的な分類と回帰の問題であり、分類問題では、決定木は if-then ルールと見なすことができます。決定木はノードと有向枝で構成され、ノードはさらに内部ノードと葉ノードに分けられます。

決定木学習アルゴリズムには、特徴選択、決定木の生成 (ID3、C4.5 アルゴリズムを使用)、決定木の枝刈り (分類および回帰木 CART アルゴリズムを使用) が含まれます。

  • 特徴選択は、どの特徴を使用して特徴空間を分割するかを決定し、学習データを分類する能力を持つ特徴を選択して、決定木の学習能力を向上させます。
  • 決定木の生成は、ルート ノードから開始して情報ゲインを計算し、ルート ノードから決定木を再帰的に生成することによって行われます。
  • デシジョン ツリーの枝刈りは、生成されたデシジョン ツリーのオーバーフィッティングの問題によるものであり、デシジョン ツリーを単純化するために枝刈りが必要です。

決定木の利点: 強力な解釈可能性と視覚化。

デシジョン ツリーの欠点: オーバーフィットしやすい (枝刈りによるオーバーフィットを避ける)、調整が難しい、精度が低い。

4.単純ベイズ分類

単純ベイジアン分類は、教師あり学習アルゴリズムです。

「シンプル」とは、機能が独立しており、互いに干渉しないことを意味します。

単純ベイズ分類器は、確率的分類器の単純なクラスです。Naive Bayes 分類子は、製品の説明 (機能 X) から製品のカテゴリ (Y) を推測するなどのアプリケーション シナリオで使用できます。

Naive Bayesian 法は代表的な生成学習手法であり、トレーニング データから同時確率分布 P(X,Y) を学習し、事後確率 P(Y|X) を取得します。具体的には、トレーニング データを使用して P を学習します。 (X |Y) と P(Y) から、同時確率分布 P(X,Y)=P(Y)P(X|Y) が得られます。

プロセス: トレーニング中に条件付き確率が取得され、推論中に条件付き確率が比較されます。

5. KNN (K 最近傍) アルゴリズム

KNN は教師あり学習アルゴリズムです。

KNN: K 最近隣は、基本的な分類および回帰アルゴリズムです。基本的な考え方は次のとおりです。あなたのクラスはあなたの隣人によって推論されます。基本的なアプローチは次のとおりです。特定のトレーニング インスタンス ポイントと入力インスタンス ポイントについて、まず入力インスタンス ポイントの K 個の最近傍トレーニング インスタンス ポイントを決定し、次に K 個のインスタンス ポイントのクラスの大部分を使用して、そのクラスを予測します。入力インスタンス ポイント。

KNN の 3 つの要素: 距離尺度 (一般的に使用されるユークリッド距離)、K 値の選択 (K 値の選択は、近似誤差と推定誤差の間のトレードオフを反映します)、分類決定規則 (一般的に使用される分類決定規則は多数決です) .

kd-tree、つまり kd tree を使用して距離計算の回数を減らし、KNN 添付ファイルの検索効率を向上させます。

6.アダブーストアルゴリズム

Adaboost は教師あり学習アルゴリズムです。

ブースティング法は、トレーニング サンプルの重みを変更することによって複数の分類器を学習し、複数の分類器を線形的に結合して分類性能を向上させる.基本的な考え方は、複雑なタスクに対して、複数の専門家の判断を適切に統合して、専門家は、専門家の一人よりも優れています。

Adaboost は弱分類アルゴリズムから開始し、繰り返し学習し、一連の弱分類器を取得し、これらの弱分類器をいくつかの強分類器に結合します。

7. クラスタリング アルゴリズム

クラスタリング アルゴリズムは教師なし学習に属し、より一般的に使用されるアルゴリズムは K-means (k-means クラスタリング) です。

K-means アルゴリズムの基本的な考え方: 最初に K クラスの中心を選択し、ユークリッド距離を使用して各サンプルと重心の類似度を計算し、サンプルを中心に最も近いクラスに分割し、クラスタリングを取得します。結果、クラスの中心として各サンプルの平均を計算し、収束するまで上記の手順を繰り返します。

K-means アルゴリズムの欠点: このアルゴリズムは反復アルゴリズムであり、グローバルな最適性を保証できません。

3. 機械学習の一般的な応用

ビッグデータ分析

予測する

.....

4. 機械学習の拡張: 深層学習

近年、機械学習の発展は「深層学習」という新しい方向性を生み出しました.深層学習の概念は非常に単純です,つまり,従来のニューラルネットワークは複数の隠れ層の状況に発展しました. 1990 年代以降、ニューラル ネットワークはしばらく沈黙していましたが、BP アルゴリズムの発明者であるジェフリー ヒントンは、ニューラル ネットワークの研究をあきらめていません。ニューラル ネットワークは 2 つ以上の隠れ層に拡張されるため、トレーニング速度が非常に遅くなるため、実用性は常に SVM よりも低くなります。2006年、Geoffrey Hinton氏は科学誌「Science」に記事を掲載し、複数の隠れ層を持つニューラルネットワークを深層ニューラルネットワークと呼び、深層ニューラルネットワークに基づく学習研究を深層学習と呼ぶことを示しました。それ以来、深層学習に関するさらなる研究が始まりました。

参照:機械学習の 10 の古典的なアルゴリズムの紹介

           基本的な Kmeans アルゴリズムとその実装の概要_Liam Q のコラム - CSDN ブログ_kmeans アルゴリズム

           Li Hang.「統計学習法」

注: この記事は主に私自身の研究に使用されています. コンテンツのほとんどは、多くの優れたブロガーと Li Hang 氏の「統計的学習法」から入手したものです.

おすすめ

転載: blog.csdn.net/weixin_44570845/article/details/122365860