統計的学習ノート

ディレクトリ

統計的学習方法へ1はじめに

2パーセプトロン

3 k近傍

4ナイーブベイズ法

5決定木--ID3、C4.5、CART

最大エントロピー6ロジスティック回帰モデル

7 SVM - SMOシーケンスの最小化

8アップグレード方法--AdaBoost、ツリー(分類、回帰)を持ち上げ、勾配ブースティングツリー(GBDT)


統計的学習方法へ1はじめに

教師付き学習:分類、回帰、タギング;教師なし:クラスタリング

一般的な損失関数:0-1損失関数、二次損失関数、絶対的な損失関数、対数損失関数。

正則:経験はトレーニングセットにおけるエラーのリスクである、モデル構造リスクが(正則化を使用して、オーバーフィッティング)不適切な使用のリスクです。正L1又はL2パラメータベクトルのノルム。

クロスバリデーション:単純交差検定(70%トレーニング、30試験);(基群S最小モデル試験エラーから選択したテストのセットを残してトレーニングのS、S-1セットにデータ)クロスバリデーションをS倍、リーブ・ワンデータ不足の場合にはクロスバリデーション(S倍クロスバリデーションS = N、すなわちN-1学習データ、テストデータを残します)。

評価カテゴリ:一般分類精度、二値一般的に用いられる精度と再現率P Rについて P = TP /(TP + FP)、R = TP /(TP + FN)。P陽性量比(クラスが正、負、正のクラス+クラスは正のクラスを予測される予測された)クラスで陽性クラス予測される予測のすべてのクラスでは正です。Rは、実際のクラスの比であるN想起される(正、負、正のクラスタイプの予測が予測されたn +クラスのクラス)におけるn型の量を予測し、n型です。

P及びRが高く、調和平均値F1、2 / F1 = 1 / P + 1 / Rであり、F1 = 2PR /(P + R)、F1は高くなります。

2パーセプトロン

線形分類モデル、記号(W * X + b)は、nは0より大きいクラス0より小さい負型よりなります。WX + B = 0分離超平面へ、wは法線ベクトルであり、bは切片です。

コスト関数:超平面の距離に誤分類のポイント

アルゴリズム:確率的勾配降下法、勾配降下点を選択するたびに

線形分離のデータセット、一定の収束とき。

3 k近傍

アルゴリズム:計算各入力サンプルから距離ベクトル、そのようなクラス分類決定の最大数最新のk個のサンプルを選択します

k近傍法は、学習プロセスを示していません。トレーニングセットが決定され、距離測定方法、K値、分類決定規則(例えば多数決)、任意の入力のためにそれが属するクラスの新しいインスタンスを一意に決定されます。

メトリック距離Lpが、pは一般的に2を取ります。k最近傍探索の効率を改善するには、KDツリーメソッドを使用することができます。第1の平衡ツリーを構成1-トレーニングセット; 2-検索

4ナイーブベイズ法

事前確率は、確率の計算は、確率は、トレーニングセットで知られている、請求すべての既知のデータを指します。

事後確率は、既知の入力手段、推測の各出力確率は、確率ビーイングを試験由来しました

最尤推定:それぞれの確率を計算し、確率ゼロがあってもよいです。

ナイーブベイズ推定:原稿が分子ラムダを追加、事前確率に基づいて算出された場合、分母はK *ラムダを添加した。*ラムダを共に分子ラムダと、条件付き確率を計算すること、プラス分母Sjに、Sjのすべての機能J可能な値はSjのを持っています

アルゴリズム:

1>事前確率、トレーニングセット中の各クラスの確率を計算し、確率AJIの可能な値の各々における各クラスkにおける各特徴jの条件付き確率を計算します。

これらはおそらく、所与の特性に対する各クラスkに発生する可能性が2>確率が計算されます。そのための機能間のIID仮定するように乗じて確率

3>クラスの最大事後確率を選択します。

5決定木--ID3、C4.5、CART

ディシジョン・ツリー:特徴選択、決定木を生成し、木の剪定

特徴選択:入力データ・セットと前記A、最適な出力特性

  1. 不確実性のエントロピーデータセットの経験レベル、データセットの分類:エントロピーデータセットの経験を計算
  2. 特徴量算出経験データセットの条件付きエントロピー:所定の特性、特徴に基づいた分類は、条件付きエントロピーは、この場合の経験を計算します。条件は、計算式をエントロピー:与えられた条件の下でX、として定義されている状態の確率分布YのエントロピーにXのために望ま。そのデータ・セットに解釈される:A指定された特性、及び分類サブセットAのサブセットの確率を計算し、この確率を計算するために使用されるAの条件を期待し、そして、各サブセットについて、計算されたエントロピー分類サブセット(分子の様々な種類の数は、分母は、分類エントロピー条件付確率分布が与えられたサブセットの数です)。第一の特徴の分類と、一般的に、分類サブ条件付きエントロピー所望の条件付きエントロピーを求めるのは、分類結果(確率)を計算集中しました。
  3. 情報利得を計算

ディシジョン・ツリー:ID3は、情報利得比のC4.5の使用を情報利得を使用しています

ツリーの剪定

| T |がリーフノードの数であり、Ntがエントロピーリーフノードを体験するサンプルリーフノード、Htの上の点の数です。親ノードの損失関数に対応するリーフノードの場合は後の後退は、剪定を減少させます。無剪定までは、最小の損失関数のサブツリーを取得

CARTアルゴリズム:決定木は、バイナリツリー、二乗誤差最小化基準に回帰木、ジニ係数を使用して分類ツリーの最小化です。

最大エントロピー6ロジスティック回帰モデル

ロジスティック回帰:二項ロジスティック回帰P(Y = 1 | X)= EXP(WX)/(1 + EXP(WX))、P(Y = 0 | X)= 1 /(1 + EXP(WX))これは、マルチ分類に拡張することができます

対数確率ログ(P /(1-P))= WX線形。対数尤度関数L(W)=シグマ(ylog(HX)+(1-y)のログ(1-HX))、HX = EXP(1つの+ EXP(WX))

7 SVM - SMOシーケンスの最小化

線形分離サポートベクターマシン

線形分離デュアルアルゴリズム:

直線切っても切れない:スラック変数を追加

非線形サポートベクターマシン:カーネル関数を使用して、元の特徴の類似度を計算します

SMOのシーケンス最小化アルゴリズム

8アップグレード方法--AdaBoost、ツリー(分類、回帰)を持ち上げ、勾配ブースティングツリー(GBDT)

アダブースト(ブースト適応):

初期化データ分布Dの1>組

G(x)を得るために2>訓練データ分類

    - トレーニングセット内の計算分類エラーe_m

    - このエラー分類器重みalpha_mの計算

    - 更新データセットの分布D

3> M時間の後、最終的な分類器は、サブ識別器の線形結合であります

ブーストツリー:2つの分類、回帰

基本のAdaBoost分類器を高めるためにバイナリ分類ツリーアルゴリズムは、二クラス分類木を使用することができます。

次のように木の回帰問題を高めるために、アルゴリズムは次のとおりです。

1> F0 = 0の初期化

2>回帰木を学ぶために

3>回帰木残を通じて学習を続け、各学習データの残差に対して計算されています

グラデーションツリーGBDT後押し(決定後押しにグラデーションをツリー)

一般的な損失関数、に残留する負勾配のために。

 

 

 

 

 

公開された46元の記事 ウォンの賞賛0 ビュー1041

おすすめ

転載: blog.csdn.net/weixin_37680513/article/details/102969975