gbdtインタビューフォーカス

はじめに:

学習を統合する方法を高めるに属します。反復トレーニングベースの分類器の使用が重い重み付け方法である昇圧、試料の各ラウンドのために、ベースの分類器を訓練するの各ラウンドは、重みは、分類結果に依存して、重み付けされます。ベースと最後の強分類器を得た線形加重分類間。

アルゴリズムのプロセス

線形加重ベース分類子と連続してトレーニング中に発生したエラーを減らします。

反復の数回、各反復は弱分類器を生成し、弱判別器(カート回帰木)は、分類器の最後のラウンドである残差に基づいて得られます。強い学習者がラウンドを取得することを前提にF1は、損失が、その後、カートが丸い木を見つけるために、L1の関数であるので、より小型の現在のラウンドの値の機能の喪失。

特性を選択する方法(つまり、カートの木を生成する方法、ですか)?

カート回帰ツリー:

A = Aに対して、集合Dの最小誤差は、ほとんどの切断点の特徴量を選択するように前記二乗誤差が最小化されます。

分類ツリー:

代わりに、エントロピーのジニ係数を使用する場合の特徴A = A、Dジニインデックスセット最小に対して計算される、ことを特徴とする最も切断点の選択

どのように機能を構築するには?

自身gbdt機能の組み合わせが生成され、機能を生成することはできません。gbdtを有する2つのサブツリー(CART回帰木)、5つのリーフノードの合計を生成し、例えば、その後、サンプルを最後の二つの二つのサブツリーのリーフノードの出力のいずれかに確かに、二つのサブツリーに配置されています出力。葉ノードの出力が1となるように、そうでない場合は0、次いで、ベクターは、ベクターの特徴の組み合わせである、[0,1,1,0,0]から構成され、入力の元の特徴と共にロジスティック回帰と機能訓練は、最終的な効果は、手動ですべての機能を設定する代わりに、改善されています。

関数フィッティングの損失?

ラウンド損失(残留)を合わせて、その後、カートの木を合わせて損失関数近似の負の勾配。

i番目のラウンドのサンプルと負の勾配のT:

これは、(すべてのサンプルについて計算負の勾配で、その後、(XI、RTI)がラベルとして負の勾配に相当し使用し、木が良いされている、カートの木に合わせて、このデータを使用し、その後にXI、最小損失関数は、出力値(残留C)を得るために、そのようなツリーの内部に残留I)データ、損失関数の計算:

したがって、このラウンドの決定機能(残留値関数)が出てきました:

そして、一緒にクラシファイアの意思決定機能のこのラウンドは、強識別器のこのラウンドを取得します:

(PS:Tラウンドの合計なので、tは強分類器を得る。この最初のラウンドは、強分類器が最終である場合)

どのように分類するには?

時刻を返します:

図1に示すように、弱判別器の初期化、トレーニングの最初のラウンドの開始。

図2に示すように、反復、負勾配が負の勾配カート木、そのような最小の損失関数、最良適合値(残差)をフィッティングすることによって計算されます。

3、強分類器を更新

4、最も最強の最終的な分類を得るために!

各ラウンドは乗法決定関数であります:

分類は同じではない場合:

出力は、離散カテゴリであるので、それはカテゴリのエラー・クラスの出力を合わせて出力から直接ではありません。

方法:(1)指数関数損失を使用して、それはアダブーストなる;(2)ロジスティック回帰、対数尤度関数に似。予測確率値カテゴリと差の実際の確率値

損失関数、対数尤度関数:

指数損失関数:

利点:

データ処理の柔軟な様々なタイプ。

かつ高精度に少ない時間をスケジューリングします。

、外れ値に非常に堅牢で強固な損失関数を使用します。

 

おすすめ

転載: www.cnblogs.com/pacino12134/p/11110113.html