機械学習|アルゴリズムの概要

序文

コード例を伴うことは、理解しやすい始めるためにしながら、この機械学習アルゴリズムの見直しのシリーズとは、明快精巧なアルゴリズム理論の目的をまとめます。

ディレクトリ

   直線回帰
   K-手段
  機械学習アルゴリズムの概要
 
この章では、トップ10のアルゴリズムをまとめたものであり、PythonとRの古典的アルゴリズムの実装ロジックが付属しています。

、C4.5

C4.5は、決定木分類アルゴリズムを機械学習アルゴリズムである、
それは決定木は、コアアルゴリズム(実際には、木のように意思決定を行っている組織間の意思決定ツリーノード、逆ツリーれる)である
ID3の改善アルゴリズムそう基本的に我々はそれの半分は、決定木の構築方法を構築することができます知っています。
すべての決定木の構築方法は、実際に良い機能であり、現在のノードの分類条件として分割ポイントを選択します。

ID3の改善に比べC4.5は以下のとおりです。

  • 1.属性情報利得比が選択されます。選択されたサブツリー情報利得とID3属性は、情報、ID3用いてエントロピーを定義する多くの方法があるかもしれないC4.5ながら、エントロピーのすなわち変化(エントロピーは、エントロピー純度基準の測定値ではない場合)情報利得比を使用しています。差があること一つは、情報ゲイン、情報のゲインです一般率は、ロールの分散は、2つのランナが存在するほとんど似ているように、出発点は10秒後に20メートル/秒で10メートル/ sの人である、バランシングのために採取され、別の人の速度からこれは、2メートル/秒の1秒後に、1メートル/秒です。差が非常にしっかり速度の使用の増加率場合、両者の大きなギャップにカウントされている場合(加速度、すなわち、1メートル/秒^ 2である)の加速度を測定するために同じ2つの個体です。ID3は、情報ゲイン不足が[プロパティ]を選択し、属性際したがって、C4.5はバイアス値とより多くの選択肢を克服します。
  • 決定木を構築する際に、建設プロセス2.木の剪定は、そうでない場合は簡単に過剰適合につながる、最善を考慮せずに、これらのノードのいくつかの要素が飾ら。
  • 3.は、非離散データを扱うことができます。
  • 前記プロセスは、不完全なデータに対して実行することができます。

二、k平均アルゴリズムはK平均アルゴリズム、すなわち

k平均アルゴリズムは、クラスタリングアルゴリズム、であるそれらの性質に応じて、K(K <N)に分割し、n個のオブジェクト彼らは、データセンター内の自然なクラスタを見つけようとしているので、混合EMアルゴリズム(トップ10アルゴリズムの記事V)の正規分布の契約に非常によく似ています。
これは、空間ベクトルからオブジェクトのプロパティと仮定し、目標は、各グループ内の最小の合計は平均二乗誤差ということです。

三、サポートベクターマシン

サポートベクターマシンとしてSVM、英語では、SVマシン(SVM一般的と呼ばれる紙)と呼ばれます。

これは、広く統計分類と回帰分析に使用される教師付き学習の方法です。
SVMベクターは、より高い次元の空間は、この空間内で最大間隔超平面の確立にマッピングされます超平面でデータを分けた2つの超平面は互いに平行であり、2つの離間平行な超平面は、距離を最大にするために超平面。分類の合計誤差も小さく、平行超平面の間の距離またはギャップより大きいと仮定する。

優れたガイドは、のCJCバージェスである「パターン認識SVMガイド。」ファン・デル・ウォルトとバーナードおよびその他のサポートベクトルマシン分類器を比較しました。

四、アプリオリアルゴリズム

アプリオリアルゴリズムは、最も影響力の一つであるブール協会が頻出アイテムセットルールマイニングアルゴリズムのを。コア周波数は、二段再帰アルゴリズム思想に基づいて設定されます。相関ルールは、分類上の一次元、単一ブールアソシエーションルールに属します。ここで、すべてのサポートが頻出集合と呼ばれる最小支持品目よりも大きい、周波数セットと呼びます

第五に、最大の期待(EM)アルゴリズム

統計計算では、最大予想(EM、期待値最大化)アルゴリズムは、確率モデルは、観察不能な隠れ変数(潜在Variabl)に依存している確率(確率)モデルにおいて、最尤推定アルゴリズムのパラメータを見つけることです。

予想される最大値は、多くの場合、(データクラスタリング)フィールドを収集コンピュータビジョン、機械学習とデータに使用されています。

六、ページランク

GoogleのPageRankアルゴリズムの重要な部分です。2001年9月には、特許は、Googleの共同創設者ラリー•ページ(ラリーペイジ)は、米国特許を取得しました。したがって、ページがページを参照するには、ページランクはありませんが、ペイジに、この方法は、グレードのページに基づいていることを命名します。サイトの外部および内部リンクの数と質に基づいてページランクは、サイトの価値を測定します。PageRankの背後にある考え方は、ページへの各リンクは、ページのための投票であることを、より多くのリンクされている、それは他のサイトでより多くの票であることを意味します。

多くの人々は彼らのウェブサイトやウェブサイトをリンクするために喜んでいるかの指標 - これは、いわゆる「リンク人気」です。学術論文引用された周波数から引き出されPageRankのコンセプトは - 他の人の数は、この論文の一般的な判断力が高い権威を引用より、すなわち。

七、のAdaBoost

アダブーストは、反復アルゴリズムである、核となるアイデアは、分類を設定異なるトレーニングのために同じであるこれら弱判別器は、一緒になって、その後、(弱判別器)訓練された強力な最終分類器(強分類器)を構成しています。アルゴリズム自体は、各サンプルの重量を決定するために、各サンプルに対して設定毎のトレーニングセッション、ならびに以前の全体的な分類の精度で正確であるか否かに応じて、データの分布を変化させることによって達成分類されます。下の分類器の訓練に新しいデータセットの改訂重みは、各トレーニングは最終的に分類器が最終決定分類器として、統合されます。

八、k最近傍:k最近傍分類

K最近傍(k近傍、KNN)分類アルゴリズムは、理論的にはより成熟したアプローチ、最も簡単な機械学習アルゴリズムの一つです。KNN法を考えて:特定のカテゴリに属するサンプルの大部分の(即ち最も近い特徴空間K)最も類似する特徴空間kにおけるサンプル場合、サンプルは、このカテゴリに分類することができます

九、ナイーブベイズ

分類モデルの中で、二つの最も広く使用される分類モデルは、ある決定木モデル(ディシジョンツリーモデル)とナイーブベイズモデル(ナイーブベイズモデル、NBC) ナイーブベイズモデルでは、それが固体の数学的な基盤と安定した分級効率を持ち、古典数学的理論的に始まりました。一方、NBCが欠落しているデータに少し敏感なモデルパラメータを推定するために必要な、アルゴリズムは比較的簡単です。理論的には、NBCは、他の分類モデルは、最小のエラーレートを有すると比較します。モデルはNBCが独立した性質を前提としているので、しかし、実際には、この仮定は正しくNBCがある程度をもたらした分類モデルを与える、確立されていないことが多い、実際には、必ずしもそうではありません。属性または複数の属性の数が多いとの相関関係は、分類モデルの効率はNBCの決定木モデルを比較した場合。そして時に財産関連性が低い、最も良いのNBCのパフォーマンスモデル。

テン、CART:分類および回帰木

CART、分類および回帰木。ここでは分類ツリーでは二つの重要なアイデアがあります:最初は、再帰的に引数のスペースを分割するというアイデアで、2番目のアイデアは、検証データをプルーニングすることです

 

以下はアルゴリズムの概要を見つけるためにオンライン掲載

 

参考:

http://www.csuldw.com/2015/03/18/2015-03-18-machine-learning-top10-algorithms/

 

 

おすすめ

転載: www.cnblogs.com/geo-will/p/11203156.html