データマイニング:モデル選択 - アルゴリズムと統合されたツリーモデル

モデルツリーの導入が弱学習に所属する前に、アルゴリズム自体は比較的簡単ですが、合併・統合アルゴリズムの後に、より良い結果を生成します。たとえば:+袋詰め=ランダムフォレストツリー; +後押し=木木を後押し
ここで簡単に統合アルゴリズムを説明し、その後、ランダムフォレスト木々を説明エンハンスありません。

統合されたアルゴリズム

統合されたアルゴリズム:より多くのモデルによって組み合わせた実践的な問題を解決します。
統合モデルの複数というモデルになる統合評価各モデルについて、評価者の組成物は、集積と呼ばれるグループ評価
ここに画像を挿入説明
(バギングに)袋詰め、引き上げ法(ブースト):本実施形態の「組み合わせ」は、主に次の二つを有し
バギングに昇圧、そのような統合は、個々の学習者同じタイプのためのものである均質との異なるタイプの個々の学習者は、そのような統合がある異質

よると、弱識別器の均一性均一性の間の依存性がある場合に分類カテゴリを統合することができます。

  • 弱学習強い依存性、弱学習基本的に必要な一連の間に存在する生成されたシリアル(弱い学習者は弱い学習の処理の結果である)の代表的なアルゴリズムは、アルゴリズムを昇圧シリーズです。
  • 弱学習強い依存性との間の違いは、弱い学習者の一連のことはできない並行して生成(互いに独立弱い学習者の同時治療)、アルゴリズムは、アルゴリズムの袋詰めファミリーの代表です。

ここに画像を挿入説明

バギング

ランダムサンプリングデータがバック、異なるデータは、異なるモデルが生成され、T Tは、いくつかを介して、データ・モデルを生成し、あろう結合ポリシーこれらの結合モデルの得られた結果。
ここに画像を挿入説明
データの1/3がチェックされていないについては、ランダムフォレストは(ランダムな森林がOOBを持っている)、それをテストすることができ、別途のクロスバリデーションセットは分割されません。
ここに画像を挿入説明

統合戦略

平均法

どちらが出力として平均値です。
ここに画像を挿入説明

投票法

大多数。
ここに画像を挿入説明

ラーニング

積層:新しいデータとしてM一次学習者を、次に学習における新しいモデル(二次学習者)に入れ、最終的な結果が得られました。線形回帰に、ランダムフォレストの結果は、複数のモデルは、最終的な結果を得ることが重ね合わさ。
ここに画像を挿入説明

後押し

弱い学習者は、前のステップの結果を使用して、シリアルに生成されるように、弱い学習者の間に袋詰めには依存せず、弱学習器をブースティング間の依存関係が存在します。
最初の列車の弱学習器と、結果はより大きな重み所与の予測誤差値の真値と比較し、次いで往復するために、トレーニング中に弱識別器の下に置きました。
ここに画像を挿入説明

バギングと比較ブースティング

バギングで:小さな分散(強い汎化)、大偏差(精度弱識別器ではない)ので、弱い学習者のフィッティング能力を向上させるフリッカを低減する、深さ大きな木(ツリー大きい深さを選択するためにそれは)ほんの少しの偏差特性を構成して、オーバーフィッティングです。
ブースティング上のように相対的小さい深さ(小深度の深さを選択するために、弱い学習分散低減、決定木を低減するために、フィッティング大きな分散(一般弱)、小偏差(精度弱い学習者であってもよいです)。大きい方だけ)大きな分散特性を補うために、あまりフィット感です。
このランダムな森林やGBDTパラメータ調整すると、決定木の深さの大きさも実現することができます
ここに画像を挿入説明
ここに画像を挿入説明

ランダムフォレスト

バギングは、決定木との組み合わせのランダムフォレスト製品です。しかし、いくつかの添加は、独自の特徴:

  • ランダムサンプリングの数のデータのみに比べて袋詰め、ランダムな森林はランダムサンプリング機能が増加しています。
  • 決定木は、機能がランダムに選択されているため(以下、元の機能特性データの数よりも多数にモデル)、CARTで使用され、通常CART小規模、トレーニングセットとテストセットよりしたがって、ランダムフォレストCARTツリーれます堅牢良く類似した結果、。

ランダムフォレストアルゴリズムの流れがある
木の剪定は、袋詰めの決定の特性の大きなばらつきに起因するものではないです。
平均値を使用して回帰分析の結果を得るためには、過半数の票を分類します。
ここに画像を挿入説明

ランダムフォレスト長所と短所

1.並列計算、速度
CARTツリーに基づいて2は、また、分類回帰することができ
、高次元の特徴の問題を解決するため、機能がランダムに選択されているので3、及び従って全て抽出された特徴量、追加のオーバーフィッティングを防ぐことができます。しかし、ランダムに長所と短所の両方の特性を選択し、それが結果に影響します。
ここに画像を挿入説明
ここに画像を挿入説明

AdaBoost

AdaBoostのアルゴリズム:基本的な事前分類器誤分類されたサンプルは、サンプル全体が分類器の下に基本的なトレーニングに再び重み付けされ、強化されます。まで、各ラウンドで新たな弱分類器を追加している事前定義十分に小さい誤り率又は反復の所定の最大数に達し

  • 加法モデル:強分類器の最終的な数は、加重平均弱分類器です。
  • フォワード分散アルゴリズム:アルゴリズムの結果を更新した後は、弱識別器の前のラウンドのトレーニングの重み弱学習の重みを使用して、弱識別器のラウンドを介して取得することです。

プロセスのAdaBoostアルゴリズム:
1.方法の誤り率計算する
2弱学習の重み係数αは
3 Dを更新するサンプルの重み
4組み合わせ戦略
ここに画像を挿入説明

アダブースト損失関数

:のようにK-1ホイール及びkは、第i車輪強い学習
ここに画像を挿入説明
を得ることができる。
ここに画像を挿入説明
アダブーストの分類ので、損失関数は指数関数である(指数関数は、データが正しいかエラー状態を分級することは明らかであってもよいが)ので、その損失関数として
ここに画像を挿入説明
ここに画像を挿入説明
I(X = y)は指標関数です。
ここに画像を挿入説明
ここに画像を挿入説明

アダブースト分類アルゴリズム

ここに画像を挿入説明
ここに画像を挿入説明
3.計算トレーニングセット上の弱判別器Gkの(X)分類誤り率、
ここに画像を挿入説明
K Gkの(X)の前記弱判別器は、重み係数である:
ここに画像を挿入説明
重み係数バイナリ分類、分類は、IFことがわかりますエラー比eが大きいほど、より小さな重み係数α、即ち、より大きな誤り率小さい弱識別器の重み係数に対応する右弱判別器。
5.アップデートトレーニングデータの重み
ここに画像を挿入説明
ここに画像を挿入説明
6.統合戦略
ここに画像を挿入説明

アダブースト回帰アルゴリズム

ここに画像を挿入説明
5.計算k番目の低エラー率と重みは、重み付け係数回帰
ここに画像を挿入説明 ここに画像を挿入説明
ここに画像を挿入説明
上述する式を詳述する人です。AdaBoostのは覚えておくの場合:

  • モデル:加法モデル、最終結果の加重加算により得られた弱識別器のすなわち複数。
  • 目的関数は指数関数です。
  • アルゴリズムを学ぶことは弱学習Updateを通じて再訓練の前に右の弱学習データの後にある前方段階的アルゴリズムです。
    (エラー率に基づいて算出)弱判別器の重量に関連する権利、サンプル重みの誤分類があります。カテゴリー:リターンのエラー率:平均二乗誤差。

AdaBoostのアルゴリズムの長所と短所

ここに画像を挿入説明

ブーストツリー

ツリーを強化することに加えは、CARTモデルツリーモデルで、フィット残差は、真の値に近づくために続けています。
例えば:
ここに画像を挿入説明

アップグレードツリーアルゴリズム

ここに画像を挿入説明
さまざまな問題のためにここで経験的リスクの最小化、異なる損失関数。平方誤差損失関数、分類指数損失関数を使用して回帰。一般的な損失関数を用いた一般的な決定問題。

:回帰木は前アルゴリズムのステップを、以下の強化
ここに画像を挿入説明
回帰問題については、真の値との二乗誤差が最小化され、最後の木によると、Mソリューションツリーパラメータθを。最後^ 2(RT)得られた式を簡略化する、最小化され、すなわち、最小木残留嵌合前の最後の木。
ここに画像を挿入説明

戻り値は、ツリーを高め流れ

ここに画像を挿入説明

ブーストツリーとのAdaBoostアルゴリズム

アダブーストアルゴリズムフロント弱識別器の誤り率更新訓練データの重みによって、すなわち、フォワードステップワイズアルゴリズムを使用して、
フォワードステップワイズアルゴリズム、使用されるツリーを昇圧弱学習のみツリーモデル(典型的にはCARTであります)

木の長所と短所を強化

回帰ツリーのアップグレードについては、単に現在のモデルの残差をフィット
ここに画像を挿入説明

グラデーション後押しツリー

GBRTは、損失関数の任意の順序誘導体を増強する方法を有するのに適しています。

グラデーションのアップグレード

前のステップのアルゴリズムにより、学習プロセス工程を最適化するための添加剤のモデルを使用してツリーを高めます。損失関数は、二次損失と損失指標関数である場合には、各ステップの最適化は非常に簡単です。しかし、一般的な損失関数のための各ステップを最適化するために、多くの場合、それほど簡単ではありません。一般的な損失関数
この問題に対して、提案フリードマン勾配昇降ツリーアルゴリズム近似最も急な降下を用いる方法で、キーは、残留ツリーアルゴリズム近似を持ち上げるの損失関数の負勾配の使用です
ここに画像を挿入説明

GBDTアルゴリズム原則

ここに画像を挿入説明

GBDT回帰ケース

データショーは
ここに画像を挿入説明
パラメータ設定
ここに画像を挿入説明
1.初期化弱学習
ここに画像を挿入説明
2. 1,2-反復回数= M、...、M
初期弱学習の最初のステップは、残留値が嵌合するように計算されます。
ここに画像を挿入説明
ここに画像を挿入説明
ここに画像を挿入説明
最大深さは3に設定されているので、木の深さは今だけで2、あなたは別の区分を行う必要があり、部門はそれぞれ、左と右の二つのノードを分割する必要があります。
ここに画像を挿入説明
ここに画像を挿入説明
結果をフィッティングする前に第1の残差ツリーを計算します。
ここに画像を挿入説明
ツリーの計算予測値。
ここに画像を挿入説明
学習率は
ここに画像を挿入説明
繰り返しの数は、5であるため、5つの異なるツリーを生成します。
これらの5本の木は、統合最終的なモデルを取得します
ここに画像を挿入説明
ここに画像を挿入説明

GBDT分類計算ケース

除去以来パートI - GBDTインタビューのハイライトの概要アルゴリズム機械学習
ここに画像を挿入説明

GBDT差とツリー代替勾配残差を改善し、各グループは、重みを対応するパラメータを学習しています

勾配高める木の長所と短所

この欠点を解決するのにXgboostを使用することができます。
ここに画像を挿入説明

リファレンス

https://blog.csdn.net/weixin_46032351/article/list/3
https://weizhixiaoyi.com/category/jqxx/2/
https://blog.csdn.net/u012151283/article/details/77622609
ます。https: //blog.csdn.net/zpalyq110/article/details/79527653

公開された26元の記事 ウォン称賛29 ビュー10000 +

おすすめ

転載: blog.csdn.net/AvenueCyy/article/details/105142680