統計的学習方法の概要
1.1統計的学習
学習は、ビルドコンピュータモデルとデータも統計的機械学習として知られている予測と分析、統計的学習の規律を使用して、統計的確率モデルの統計データに基づいています。
システムは、学ぶことですプロセスの実施を通じて、その性能を向上させることができる場合
- オブジェクト統計的学習は、
データの統計的研究オブジェクト。それはデータから始まり、データ抽出機能、抽象データモデル、データ分析、知識で見つかったデータと予測データが行くへ戻ります。 - 統計的学習の目的
、特に新しいデータの予測やデータの分析のためには、未知の分析を予測します。モデルは正確にも可能な限り学ぶために学習の効率を向上さを考慮し、予測したデータの分析できるように、どのようなモデルを考えてみて、どのようにモデルに学びます。 - 統計調査
のデータを予測し、分析するための統計モデルを構築するために、データに基づいて。教師あり学習、教師なし学習、半教師あり学習と強化学習やその他のコンポーネントによって、統計的学習。 - 統計調査
統計的学習方法、統計的学習理論と統計的学習の3つのアプリケーション、 - 統計的学習の重要性
1.2教師あり学習
教師あり学習、教師なし学習と強化学習などの統計的学習、教師付き学習に焦点を当て
1.2.1基本概念
- 入力スペース、特徴空間と出力空間
教師付き学習では、すべての可能な値のセットの入力と出力は、入力制御や出力空間と呼ばれています。
各入力は、一般に、特徴ベクトルによって示される、特定のインスタンスです。 - 同時確率分布
確率変数X及びYは、入力と同時確率分布P(X、Y)の出力と仮定追従する教師あり学習。P (X、Y)は分布関数、分布または密度関数を表します。 - 仮説空間は
学習を目的とした学習指導、このマッピングは、モデルによって入力を出力にマップすることによって表されます。
1.2.2正式な問題
そのモデルは、試験サンプルセットを予測するために、モデルを学習するためのトレーニングデータを用いた学習監修。このプロセスは、多くの場合、その教師付き学習と呼ばれる人工的に、与えられたデータセットとトレーニングデータセットを訓練が必要なので、教師付き学習は、学習や予測の二つのプロセスに分けられ
1.3統計的学習の三つの要素
メソッド=モデル+戦略+アルゴリズム
1.3.1モデル
教師付き学習では、モデルは、確率分布関数や意思決定の条件を研究することです。
1.3.2戦略
統計的学習の目標は、仮説空間から最適なモデルを選択することです
- 損失とリスク関数の
予測値と真の値が同じではありません、それは予測の程度が間違って測定する機能やコスト機能の損失を取りました。
よりよい価値の喪失、モデル小さいです。モデルへの入力は、出力は同時分布P(X、Y)は、以下の確率変数です。最小限のリスクモデルである学習の所望の目的を選択します。 - 経験的リスクの最小化と構造的リスク最小化
1.3.3アルゴリズム
アルゴリズムは、戦略を学ぶに基づいて、データセットを訓練に基づいて学習、統計的学習の計算モデルの具体的な方法を指し、仮説空間から最適なモデルを選択して、最終的にはどのような計算のを検討するための最適なモデルを解きます。
1.4モデルの評価とモデル選択
1.4.1訓練誤差とテストエラー
目的は、既知のデータと未知のデータだけでなく、良い予測能力、さまざまな学習方法が異なるモデルを与えることができます学ぶために、統計的学習モデルを作ることです。
トレーニングエラーとテストのエラーは、当然、標準学習評価と呼ばれます。
1.4.2オーバーフィッティングとモデル選択
仮説空間が異なるモデルの複雑さを含んでいるとき、私たちはモデル選択の問題に直面しなければなりません。私たちは、習得したり、適切なモデルを選択します。
トレーニングデータの予測力のブラインド追求は、選択されたモデルの複雑さは、未知のデータを予測するために、多くの場合、既知のデータを予測するための本当のオーバーフィッティングされたモデルで、良いよりも高いが、悪い場合。
1.5と相互検証正則
1.5.1正則
代表的な方法は、正則化は、構造リスク最小化戦略を達成するため、モデル正則化を選択することであるペナルティ経験的リスクを正則アイテムまたはアイテムを追加することです。
1.5.2クロスバリデーション
サンプルデータに、十分な十分な、モデル選択の簡単な方法は、トレーニングセットとテストセットの検証に分割3つの部分にランダムなデータセット切断されます。
- シンプルなクロスバリデーション
- S-倍相互検証
- 相互検証を残します
1.6一般化
本質的学習の重要な特性のモデル予測能力に未知のデータで学習する方法。
1.6.1汎化誤差
バインド汎化誤差の1.6.2
研究コミュニティ汎化誤差の確率で実行される以下の性質を有します
- これは、サンプルサイズの関数で、容量が増加し、汎化誤差が領域0有界試料空間であります
- 上部の汎化誤差が大きくなるにバインドされ、難しくはモデルを学習することで、空間の機能は、より大きな空き容量が想定されているものとします。
1.7生成モデルと判別モデル
教師付き学習課題は、モデル、このモデルでは、与えられた入力予測のための対応する出力の応用を学ぶことです。
教師あり学習法は、生成方法及び同定方法に分けることができます。私たちは、モデル生成モデルを学び、判別モデルと呼ばれています
1.8分類
出力変数Yは、離散値の有限数をとり教師あり学習において、問題は、離散入力変数Xは、連続とすることができるで分類問題となるであろう予測します。
分類は、学習と分類の二つのプロセスが含まれます
1.9寸法
Labelクラスのプロモーション、ラベリング問題はより複雑な構造予測問題の単純な形式であるとき。
1.10回帰
回帰は、入力と出力変数間の関係を予測するために使用されました