統合学習中にバギングまたはブースティングを選択する方法

統合学習

  • 単一の機械学習アルゴリズムではなく、複数の弱学習器を構築し、組み合わせて学習タスクを完了する
  • いくつかの個別の学習者を訓練し、特定の組み合わせ戦略を使用することにより、強力な学習者を形成することができます
  • それは主に2つのタイプのアルゴリズムに分かれていますバギングとブースティング

BaggIng(撤回されたサンプル)

  • バギングアルゴリズムの弱学習器(基本学習器)は依存関係がなく、並行して生成できます。
  • 典型的なアルゴリズムはランダムフォレストです

ブースティング(ブーストツリー)

  • 一般的には逐次学習です。1回の学習の後、次の回でさらに学習します。
  • 典型的なアルゴリズムは、AdaBoosting、XGBoosting、LightGBM、GBDTです。

モデルをトレーニングするときは、偏差と分散の両方に注意する必要があります。
以下のためのアルゴリズムの袋詰めタイプ、私たちはそれぞれが交換用サンプリングしてサンプリングしていることを考えると理由、そして、並行して、それを別の分類(並列研究)の多くを訓練します主な目的は分散を減らすことです、したがって、より多くの独立した基本学習者が選択されると、分散は非常に小さくなり、しかし、このアルゴリズムは比較的高いバイアスにつながりますしたがって、各基本学習者の目標は、偏差を減らすことです。そのため、深さの深い、または枝刈りなしの(決定の度合いを上げる)決定木を使用します。
以下のためのアルゴリズムの種類を後押し、それは同じトレーニングセットラウンドすべて、一般的に、すべてのサンプルのための学習ですが、各ステップは、次で間違っを学ぶ、より元のデータ(シリアル学習へのフィットに基づいています丸めて重みを増やし、より多くのことを学ぶ)ので、このタイプのアルゴリズム一般に、偏差は小さくなりますが、分散が大きくなり、過剰適合しやすくなります;したがって、ブースティングタイプのアルゴリズムでは、分散が小さい、つまり単純な分類器(単純な分類器は学習が少なく、分散が小さく、オーバーフィットが容易でない)の分類器を選択する方法を考慮する必要があるため、一般的な選択は非常に深いです。浅い決定木。
したがって、さまざまなアプリケーションシナリオやビジネス要件に応じて、使用するアルゴリズムのタイプを決定する必要があります。たとえば、銀行調整などの要件やモデルの精度に対する高い要件については、ブースティングアルゴリズムが考慮されることが多く、小さな変動の変動を必要とする一般的な需要予測については、バギングアルゴリズムが考慮されます。

ここに画像の説明を挿入
ブースティングとバギング

  1. サンプルの選択
    ブースティング:各ラウンドのトレーニングセットは変更されませんが、トレーニングセット内の各サンプルの重みは分類子で変更され、重み値は前のラウンドの分類結果に従って調整されます。
    バギング:トレーニングセットは元のセットで置き換えて選択されます。元のセットから選択されたトレーニングセットの各ラウンドは独立しています
  2. サンプルの重み
    ブースト:エラー率が常に大きな誤り率、より大きな重量に応じたサンプルの重みを調整し、その分類精度をブーストすると、より良いバギングが(よりあるので、右、より高精度、より多くを学ぶために、より大きな重みを間違っを学ぶ
    バギングに:各サンプルに同じ重量の均一なサンプリングを使用する
  3. 予測機能
    ブースティング:各弱い分類器には対応する重みがあり、分類誤差が小さい分類器の場合、重みが大きくなります。
    バギング:すべての予測関数の重みは同じです。
  4. 並列計算
    ブースティング:後者のモデルパラメータはモデル結果の前のラウンドを考慮する必要があるため、各関数は順次生成されます。
    バギング:各関数は並列に生成できますこのようなニューラルネットワークの非常に時間のかかる学習方法、バギングは並列トレーニングで多くの時間を節約できます。

2つの違いと接続:

  • バギングとブースティングはどちらも分類精度を効果的に向上させることができます。ほとんどのデータセットでは、ブースティングの精度はバギングよりも高くなっています。
  • 一部のデータセットでは、ブースティングは過剰適合により劣化を引き起こします

統合学習統合戦略:

  1. 投票方法
  2. 平均法
  3. 学習方法:スタッキング(stacking)、つまり、トレーニングセットの弱学習器の結果が入力として使用され、トレーニングセットの出力が出力として使用され、トレーナーは再トレーニングされて最終結果を取得します。

参照
https://zhuanlan.zhihu.com/p/33700459

元の記事69件を公開 賞賛された11件 20,000回以上の閲覧

おすすめ

転載: blog.csdn.net/weixin_41636030/article/details/101644325