統計的学習法 - 機械学習入門

簡単な紹介

  統計的学習または機械学習方法の構成要素は教師あり学習教師なし学習強化学習(統計的学習法に属するすべて、彼らが結び付けられている)の組成を。

統計的学習方法の要素

  1、データがあると仮定IID。(同じデータソースの異なる試料間で互いに独立)

  2 *、想定したモデルを学習することは呼び出された関数の集合に属する仮説スペース(あなたは、この機能を確信しているスタイルを、このような= 2x_1 + 3x_2 $の学校は$ Y = 3x_1 + 2x_2 $となった$ yと、学習パラメータである。学ぶために、スペースでなく、関数のパラメータの不確実性内部の仮定があると、 $ Y = 3x_1 ^ 2 + 3x_2に学ぶありません $)

  3、仮説空間から一定の評価基準の適用は、最適なモデルを選択するので、モデルは、入力(訓練データまたはテストデータ)の最良の予測を有します。(最適化の判断の基準として損失関数の構成、)

  図4に示すように、この損失関数アルゴリズム特定の最適化を使用します。

  :それは3つの要素であるので、モデル(2)、戦略(3)、アルゴリズム(4) 。

実装手順

  1、トレーニングデータの有限集合を取得します。
  2、すなわちモデルのセットを学習し、すべての可能なモデルを含む仮説スペースを決定するために。
  図3は、モデルの選択基準、その学習戦略を決定します。
  図4は、最適なモデルアルゴリズム、学習されたアルゴリズムを実現しています。
  5、方法を学習することで、最適なモデルを選択してください。
  6、予測したり、新しいデータを分析することを学ぶのに最適なモデルを使用して。

統計的学習の分類

基本的な分類

  統計的学習または機械学習は、一般的に教師あり学習、教師なし学習、強化学習が含まれます。そして、時には半教師あり学習、能動学習。

教師付き学習

  教師付き学習はからですタギングデータの予測モデルを学習する問題。

  入力と出力との関係からラベルデータは、目標は、学習統計的規則マッピング出力に入力され、入力された予測モデルの出力、を介して取得することです。

  入力ベクトル$ N $ X_Iと組成のY_I $ $出力のトレーニングセット:

$ T = \ {(X_1、Y_1)、(X_2、Y_2)、...、(XN、y_n)\} $

  例としては、ベクトルで表現$ $入力をX_I:

$ X_I =(X_I ^ {(1)}、X_I ^ {(2)}、...、X_I ^ {(N)})^ T $

  教師付き学習の離散または連続的トレーニングモデルの入力と出力に基づいてタスクと異なる名前:(ノート命名!これは、教師付き分類学習です)

  1、回帰:入力と出力変数は連続変数

  2、分類:可変出力が制限され、離散変数を(そうなし、連続変数は、このような状況を考慮していないとして、我々は唯一の有限離散入力と出力を持っていますが、これは実際的な意味がありませんが、回帰問題をカウントしていない。そして、無限の離散変数と無実用的な意義。)

  3、疑問符は:問題は、入力および出力変数系列(ベクトル)されている予測疑問符の、実際には、分類または回帰で昇進

  教師あり学習入力$ X $と$ Y $出力は、同時確率分布$ P(X、Y)$に従うものとします。だから、学習プロセスは、同時確率分布をフィットするプロセスです。

  同時確率分布の具体的な定義が不明であるため(そう自分にそれが機械学習によって、そのパラメータを計算するために、その後一定の分布を満たしている、と仮定して、仮説スペースを想定)、そして私たちは、すべてのサンプルを取得することはできませんが、唯一通じそれは機械学習嘘に困難であるので、限られたサンプルは、その分布を推定します。

  私たちは、入力と出力が分布に従うことを前提としていますが、我々は置くことができるモデルを(それは教師あり学習であるので、それは確率モデルと非確率モデルにモデルを生成する判別モデルを(Y | X)を条件付き確率分布$ Pによって、それぞれ、)$そして、意思決定機能$ Y = F(X)$言います:

  1、$ P(Y | X )$: 分布関節分布$ P(X、Y)$を仮定し 、 結合確率分布$ P(X、Y)$適合するように回帰タスクを使用して 、 $ X = X $予測出力分布、それは同時確率分布を通して条件付き分布$ Pの計算である(Y | X = X)= \ FRAC {P(X = X、Y)} {\ INT P(X = X | Y = Y)DY} $(この確率論は、人々が知って学びました)。特別 Yのために$ $ある有限の離散的な場合、$ P(Y | X = x)は$はのような離散値の数の確率分布である:$ P(Y = Y_1、 X = X)= 0.2、P( Yは= Y_2、X = X) = 0.3、P(Y = y_3、X = X)= 0.5 $。Yのために$ $で連続場合、$ P(Y | X = x)は$ 例えば、正規分布のようなY $ $の連続確率密度値です。

  2、$ Y = F(X)$:追求プロセスは配布を想定していないので、それが直接関数、(X)$が近いリアル$ $ Yを最大化することができます$ Fだから訓練されたパラメータの機能を提供しています予測時に直接Y $の値を計算するためにX- $ $ $に代入。

  教師付き学習マップ上の本:

  確率分布の研究を通して、モデルが状態$ \帽子{P}(Y | X)を示して$ X $周辺分布の近似関節分布で割っ$する($ Y $積分の周辺分布関節分布と、得られます取得)又は決定関数$ Y = \帽子{F}(X)$、プラス上記表記(非リアルタイム)手段のフィッティング。予測、通常それぞれ$ Y_ {N + 1} = \ mathop {\のarg \最大} \ limits_ {Y} \帽子{P}(Y | X_ {N + 1})$、$ Y_ {N + 1 } = \帽子{F}(X_ {N + 1})$対応$ Y_ {N + 1} $予測を与えます。

教師なし学習

  教師なし学習は、予測モデルを学習マークの付いていない機械学習の問題からデータを参照します。で基本的に学習データを統計的法則潜在的な構造は、データ上で実現することができ、クラスタリング次元削減確率推定

  $ \ mathcal {X} $入力空間、$ \ mathcal {Z} $暗黙的空間であると仮定する。(| X z)は$または$ P(x | z)は$形で$ X \で\ mathcal {X} $であるモデルは、$ Z = G(X)$、条件付き確率分布$ Pの関数として表すことができます。入力、$ Z \ \ mathcal {Z} $出力します。

  教師なし学習マップ上の本:

  入力の$ X_ {N + 1} $のために、図出力の$ Z_ {N + 1} $、クラスタリングまたは次元削減統計的確率のモデルによって与えられます。

強化学習

  強化学習は、環境との継続的な対話における知的学習システムの最適な行動戦略における機械学習です。

半教師付き学習と能動的学習

  半教師付き学習は、予測モデルを学習ラベル付きデータおよびラベルなしデータの機械学習の問題を使用することです。

  能動学習は常に予測モデルを学習機械学習の問題を使用してマークとラベルのデータへの教師のための例を与えるためのイニシアチブを取る機械です。

 

モデルに従って分類

非確率的モデルと確率モデル

  機械学習モデルは非確率モデルと確率モデル(決定論的モデル)に分けることができます。実際に学習されたモデルを生成するために、生成モデルと判別モデル(上記述べ)と呼ばれる教師あり学習であるデータを生成する機構教師なしモデルは、確率分布モデルは、条件を予測するために使用され、非確率モデルは、予測値(上記の話)の直接的な関数です。

  ツリー、ナイーブベイズ、隠れマルコフモデル、条件付確率、確率的潜在意味解析、潜在ディリクレ配分は、ガウスモデルは確率モデル合成温度です。

  パーセプトロンは、サポートベクターマシンは、K最近傍は、アダブーストは、K-手段、潜在意味解析、およびニューラルネットワークは、非確率モデルです。

  ロジスティック回帰は、確率モデルとして見ることができる、それは非確率モデルとみなすことができます。

  条件付き確率分布$ P(Y | X)$および機能の$ Y = F(X)$は互いに変換することができます。

  具体的には、条件付き確率分布は、最大確率$ $は、Yの関数に変換されとります。

  そして、関数値が正規化された後、我々は条件付き確率分布を得ることができ、私の理解である:予想$ Yから= F(X = X_I)は= Y_I $となっ確率$ P(Y = Y_I | X = X_I)=図1に示すように、P(Y = Y_ {他} | X = X_I)= 0 $。すべての条件付き確率分布は、同時確率分布を介して取得された後、キャスト、そう直接変換はどんな意味がない、無駄と思われます。

  だから、確率と非確率モデルのモデル嘘ではない、入力と出力の間のマッピングではなく、むしろモデルの内部構造の違い。一定の確率モデルは次のように表すことができる同時確率分布変数は入力、出力、さらに隠された変数パラメータを表す形態、。非確率モデルのために、必ずしもそのような同時確率分布の存在ではなく、それはそのまま出力の予測値であるため、一般的に、より正確であると予想されます。

  確率モデルの代表である確率的グラフィカルモデル、確率モデル又は非ビューの有向グラフ表現の同時確率分布からの確率的グラフィカルモデル、及び同時確率分布図の構造のフォームファクタの積に分解することができます。(これはまだについて学ぶ必要があります)

非線形モデルと線形モデル

  非確率モデル(関数)は、線形および非線形モデルのモデルに分けることができます。関数$ Y = F(X)$または$ Z = G(X)$は、線形関数である場合、線形モデル、非線形モデルそうでありません。

  パーセプトロン、線形サポートベクターマシン、K最近傍、K-手段、潜在意味解析は、線形モデルです。カーネル関数SVM、アダブースト、ニューラルネットワークは非線形モデルです。

パラメトリックとノンパラメトリックモデルのモデル

  パラメトリックモデルを修正モデルパラメータの寸法を仮定は、モデルが完全に有限次元のパラメータで描写することができ、ノンパラメトリックモデルは、固定または無限されていないモデルパラメータの大きさを想定し、訓練データの量の増加に伴って増加しています。

  パーセプトロンは、ナイーブベイズ、ロジスティック回帰、K-means法、ガウス混合モデルは、パラメトリックモデルです。決定木、サポートベクターマシン、アダブースト、隣人、潜在意味解析、確率的潜在意味解析、潜在的なノンパラメトリックモデルのディリクレ配分最寄りK。

分類アルゴリズムにより、

  統計的学習アルゴリズムによると、オンライン学習で学習バッチに分けることができます。オンライン学習手段、あなたがサンプル、予測、学習モデルの後、機械学習や操作を繰り返すがありますたびに。バッチ学習は予測した後、モデルを学習し、すべてのデータを受け入れます。

  シーンのいくつかの実用的なアプリケーションは、オンラインで取るために必要とされなければなりません。たとえば、次のように保存することができないデータを達成するために、システムはタイムリーな治療を行う必要があります。大規模データは、すべてのデータを処理することはできません。時間をかけて動的な変更とモードデータ、アルゴリズムはすぐに新しいモード(IID仮定を満たしていない)に適応する必要があります。

  システムの学習および予測、X_T $ $を受信する各入力は、予測モデルによって与えられるが、$ \帽子{F}(X_T)$されている、対応するフィードバック、即ち、入力Y_t $ $に対応する出力。システムは、損失関数、更新モデルを有する2つの間の差を計算し、かつ連続的に上記の動作を繰り返します。図:

  確率的勾配降下アルゴリズムを使用して学習アルゴリズムパーセプトロンは、オンラインで学ぶことです。

スキルの分類により、

  ここでのトリックは戦略(損失関数)の三つの要素ではなく、モデルの選択。 

ベイズ学習

****

カーネル法

****

 事前確率、事後確率を理解します。ベイズ学習だけでなく、最大尤度の違い。

おすすめ

転載: www.cnblogs.com/qizhou/p/12229604.html