記事のディレクトリ
0機械学習の分類
機械学習は、[トレーニングデータセットのセットを指定し、そこから経験とルールを学習し、通常、多くのパラメーターを使用してモデルを構築し、このモデルに基づいて新しいインスタンスの入力と出力を予測する]方法です。
注:すべての機械学習方法にモデルが必要なわけではありません。
0.1教師あり学習
教師あり学習のトレーニングデータセットは、入力データ(通常はベクトル)と期待される出力(またはラベル値と呼ばれる)で構成されます。モデルの出力は、連続値(この場合は回帰分析)または分類ラベル(この場合は分類)を予測できます。
手書き認識(分類問題)などのアプリケーションシナリオ:
0.2教師なし学習
トレーニングデータセットは、ラベル値のないトレーニングデータで構成されており、モデルは入力データをクラスター化またはグループ化する必要があります。
教師なし学習の主な用途には、分類、相関ルール、および次元削減が含まれます。
画像ノイズリダクションなどのアプリケーションシナリオ:
0.3半教師あり学習
名前が示すように、半教師あり学習のトレーニングデータセットは、次の2種類のデータで構成されます。(1)入力データ(通常はベクトル)と期待される出力(またはラベル値)で構成されるデータのごく一部。(2)そのほとんどはラベル付けされていません。トレーニングデータの値が構成されています。
0.4強化学習
強化学習は、リターンを最大化する、または特定の目標を達成するための学習戦略を通じて、環境と相互作用するプロセスにおけるエージェントの問題を説明および解決するために使用されます。
強化学習は、期待される利益を最大化するために環境に基づいて行動する方法を強調します。
「統計的学習方法」の主な内容-LiHangの本は、教師あり学習における分類問題です。
知識予備の必要性:
(1)数学的分析/高度な数学:積分、微分、関数の極値など。
(2)線形代数/行列解析:行列演算、導出など。
(3)確率統計:共通分布、条件付き分布など。
(4)プログラミング言語:簡単なプログラム(代入、操作、ループ、条件)を理解できる。
1統計的学習方法の紹介
1.1教師あり学習の手順
1.限られたトレーニングデータセットを取得します。
2.モデル、つまりすべての候補モデルの仮説空間を決定します。
3.モデル選択の基準、つまり学習戦略を決定します。
4.最適なモデルを解くためのアルゴリズムを実現します。
5.学習方法を通じて最適なモデルを選択します。
6.学習した最適モデルを使用して、新しいデータを予測または分析します。
次の図に示すように、ラベルの対応に注意してください。
トレーニングセット:T = {(x 1、y 1)、(x 2、y 2)、...、(x N、y N)} 、Nトレーニングデータ対(又はN個のトレーニング例)は、入力変数をxここで、あるiは、一般に、多次元ベクトルであり、y iはラベル値です。すべての入力変数xiは入力スペースを構成し、すべてのタグ値yiは出力スペースを構成します。また、一般的に入力空間と同じ特徴空間があり、入力空間がある程度処理されると特徴空間になります。入力データxを(x、x 2、x 3)とすると、形成される3次元空間が特徴空間になります。
2つのモデル(以下で間違って入力、最小は最大である必要があります):
1.2統計学習の3つの要素
(1)モデル:①決定関数Fは複数の候補モデルfで構成され、Xは入力空間、Yは出力空間、θはモデルのパラメーター、1つのθは1つの候補モデルfに対応します。②条件付き確率分布Fは複数で構成されます。条件付き確率Pで構成されます。ここで、Pθ(Y | X)は、指定された入力空間Xの条件下での出力空間Yの条件付き確率分布です。
例:入力は、出力をy、xは、及び[スペースを想定]次に、Y =一次元線形空間である0 + 1 X。このとき=θ(A0、A.1)T。
(2)戦略:複数の候補モデルを評価して、それらから最適なモデルを選択する方法。損失関数は、各インスタンスの[真の値と予測値]の関数です。つまり、各インスタンスのデータは損失関数の値に対応します。
トレーニングデータセット全体のすべてのインスタンスデータには、合計N個の損失関数値があります。最適なモデルを選択するために包括的に判断するにはどうすればよいですか。2つの基準があり、その中でL(y i、f(x i))はi番目のインスタンスの損失関数値の損失です。
構造的リスクの最小化は過剰適合を防ぐために提案された戦略です。構造的リスクの最小化は、正則化と同等です。構造的リスクは、モデルの複雑さを表す正則化項またはペナルティ項を経験的リスクに追加します。仮説空間、損失関数、およびトレーニングデータセットが決定される場合、構造リスクの定義は次のとおりです。
ここで、J(f)はモデルの複雑さであり、仮説空間Fで定義された関数です。モデルfが複雑になるほど、複雑さJ(f)が大きくなります。逆も可能です。つまり、複雑さは[複雑なモデルのペナルティ]を表します(モデルが単純であるほど、もちろん、複雑であるほどペナルティが大きくなるため)。λ≥0は、経験的リスクとモデルの複雑さを比較検討するために使用される係数です。[小さな構造的リスク]必要性[経験リスクとモデルの複雑さは同時に小さい]。構造的リスクが低いモデルは、トレーニングデータと未知のテストデータの予測パフォーマンスが向上する傾向があります。
構造的リスク最小化の戦略では、構造的リスクが最小のモデルが最適なモデルであると見なされます。したがって、最適モデルを探すことは、最適化問題を解くことです。
このように、教師あり学習問題は[経験的リスクまたは構造的リスク関数の最適化]問題になります。現時点では、経験的または構造的なリスク関数が最適な目的関数です。
(3)アルゴリズム:学習モデルの特定の計算方法を参照します。
1.3モデル評価
エラーには2つのタイプがあります。
モデルのエラーはトレーニングデータセットの最小値であるだけでなく、さらに重要なことに、テストデータセットのエラーであるため、このモデルの評価は高くなります。
1.4相互検証
相互検証の目的は[適切なモデルを選択する]ことです。
与えられたサンプルデータで十分な場合、モデルを選択する簡単な方法は、データセットをランダムに3つの部分に分割することです。
(1)トレーニングセット:モデルのトレーニングに使用されます。
(2)検証セット(検証セット):モデルの選択に使用されます-さまざまな複雑さの学習されたモデルの中から、検証セットで予測誤差が最小のモデルを選択します。
(3)テストセット:学習方法の最終評価に使用されます。
検証セットには十分なデータがあるため、それを使用してモデルを選択することも効果的です。ただし、実際のアプリケーションでは一般にデータが不十分です。したがって、適切なモデルを選択するために、交差検定法を使用できます。
相互検証の基本的な考え方は、データを繰り返し使用することです-与えられたデータをセグメント化し、セグメント化されたデータセットをトレーニングセットとテストセットに結合し、これに基づいてトレーニング、テスト、モデル選択を繰り返します。
1.4.1単純な相互検証
まず、指定されたデータを2つの部分にランダムに分割します。1つはトレーニングセットとして、もう1つはテストセットとして使用します。たとえば、データの70%はトレーニングセットであり、データの30%はテストセットです。次に、トレーニングセットを使用して、さまざまな条件(パラメーターの数が異なるなど)でモデルをトレーニングし、さまざまなモデルを取得します。テストセットの各モデルのテストエラーを評価し、テストエラーが最小のモデルを選択します。
1.4.2S分割交差検定
まず、与えられたデータを同じサイズのS個の互いに素なサブセットにランダムに分割します。
データのS-1サブセットを使用してモデルをトレーニングし、残りのサブセットを使用してモデルをテストします。
Sの可能な選択肢について、上記のプロセスを繰り返します。最後に、S評価で平均テストエラーが最小のモデルが選択されます。
1.4.3相互検証するために1つを残します
S分割交差検定の特殊なケースは、S = N(Nは特定のデータセットの容量)です。これは、リーブワンアウト交差検定と呼ばれ、データが不足している場合によく使用されます。
1.5一般化能力
学習方法の一般化能力とは、この方法で学習した未知のデータに対するモデルの予測能力を指します。これは、学習方法の本質的な特性です。実際には、最も広く使用されている方法は、[テストエラーによる学習方法の一般化能力の評価]です。この評価は、テストデータセットによって異なります。テストデータセットは限られているため、結果の評価結果は信頼できない可能性が非常に高くなります。統計的学習理論は、学習方法の一般化能力を理論的に分析しようとします。
まず、汎化誤差の定義を示します。学習したモデルがf-tipの場合(下にあるものが表示され、入力できません)、このモデルを使用して未知のデータを予測する際の誤差は汎化誤差です。 :
汎化誤差は、学習法の汎化能力を反映しています。A法で学習したモデルの汎化誤差がB法で学習したモデルよりも小さい場合は、A法の方が効果的です。実際、汎化誤差は、学習したモデルの予想されるリスクです。
学習方法の一般化能力分析は、一般化誤差の上限と呼ばれる一般化誤差の確率の上限を調べることによって実行されることがよくあります。具体的には、2つの学習方法の汎化誤差の上限を比較することにより、長所と短所を比較します。汎化誤差の上限には通常、次の特性があります。サンプルサイズNの関数であり、サンプルサイズNが増加すると、汎化上限は0になる傾向があります。同時に、想定される空間の関数です。容量、つまり候補モデルの数d。スペース容量dが大きいほど、モデルの学習が難しくなり、汎化誤差の上限が大きくなると仮定します。
汎化誤差の定義は次のとおりです
。Nはトレーニングデータの数、dは仮説空間の関数の数、δは確率です。上記の不等式の意味は次のとおりです。[代替モデルfのトレーニングエラーR(f)チップ] +ε= [代替モデルの汎化誤差の上限]。一般化誤差は、学習されたモデルの予想されるリスクであり、学習方法の一般化能力は、通常、誤差をテストすることによって評価されます。
1.6生成モデルと判別モデル
生成方法は、データからP(X、Y)を学習する必要があります。つまり、XとYの同時確率分布を学習し、予測モデルとして条件付き確率分布P(Y | X)を取得する必要があります。つまり、生成モデルです。モデルが特定の入力Xと出力Yの間の関係を表すため、これは「生成」メソッドと呼ばれます。典型的な生成モデルは、単純ベイズ法と隠れマルコフモデルです。
判別法は、予測モデル、つまり判別モデルとして、データから決定関数f(X)または条件付き確率分布P(Y | X)を直接学習します。判別法は、与えられた入力Xに対してどの出力Yを予測する必要があるかに関係します。典型的な判別モデルには、k最近傍法、パーセプトロン、決定木、ロジスティック回帰モデル、最大エントロピーモデル、サポートベクターマシン、リフティング法、条件付き確率場が含まれます。
1.7分類の問題
混同行列は次のとおりです。
1.7.1精度
精度は、正しい(正と負の)すべての予測の割合です。
1.7.2精度
適合率(適合率、またはPPV、正の予測値)、適合率。つまり、正の予測全体に対する正の正しい予測の比率は次のとおりです。
1.7.3リコール率
リコール(リコール、または感度、感度、真陽性率、TPR、真陽性率)、つまり、実際に陽性であるすべてに対して陽性である正しい予測の割合:
1.7.4 F1
F1値(H平均値)は、精度率Pと再現率Rの調和平均値です。F1が大きいほど、モデルは優れています。
1.8ラベル付けの問題
ラベル付けの問題では、入力と出力は両方ともベクトルであり、2つの次元は同じです。
栗を取る:情報抽出-英語の冠詞から基本的な名詞句を抽出します。この目的のために、記事はマークされるべきです。英語の単語は観察であり、英語の文は観察のシーケンスです。マーカーは、名詞句の「開始」、「終了」、または「その他」(それぞれB、E、Oで示されます)、およびマークシーケンスを示します。英語の文の場所にある基本的な名詞句を示します。情報を抽出する場合、「開始」から「終了」とマークされた単語は名詞句と見なされます。たとえば、次の観測シーケンス、つまり英語の文が与えられた場合、タグ付けシステムは対応するタグシーケンス、つまり文の基本的な名詞句を生成します。
1.9回帰問題
回帰は教師あり学習の重要な問題であり、入力変数(独立変数)と出力変数(従属変数)の関係を予測するために使用されます。特に、入力変数の値が変化すると、出力変数の値がそれに続きます。状況。
回帰モデルは、入力変数から出力変数へのマッピングを表す関数です。回帰問題の学習は、関数フィッティングと同等です。既知のデータを適切にフィッティングし、未知のデータを適切に予測する関数曲線を選択します。
回帰問題は、学習と予測の2つのプロセスに分けられます。まず、トレーニングデータセットを所与:
、ここでx∈Rをn個の入力ベクトルであり、y∈Rは、対応する出力ラベルであり、iは1,2 =、···、N。学習システムは、トレーニングデータ、つまり関数Y = f(X)に基づいてモデルを構築します。新しい入力x N + 1の場合、予測システムは、学習したモデルYに従って対応する出力y N +1を決定します。 = f(X)。
1つの回帰と重回帰に分割された入力変数の数に応じた回帰。線形回帰と非線形回帰に分割されたモデルのタイプである関係の入力変数と出力変数のタイプの間をたどります。
回帰学習で最も一般的に使用される損失関数は二乗損失関数です。この場合、回帰問題は最小二乗法で解くことができます。
終わり