総合学習
総合学習の原則
アンサンブル学習: 複数の学習器を構築して組み合わせることで学習タスクを完了し、予測結果の精度と汎化能力を向上させます。
例:
アンサンブル学習における個々の学習者は、次の 2 つの条件を満たす必要があります。 1. 汎化誤差は 50% 未満である必要があります。つまり、予測パフォーマンスはランダムな推測よりも優れている必要があります。2. 予測結果が異なる。
アダブーストアルゴリズム
ブースティングは、弱い学習者を強い学習者にアップグレードできるアルゴリズムのファミリーです。このアルゴリズムのファミリーの動作メカニズムは次のようなものです: まず、初期トレーニング セットから基本学習者をトレーニングし、それに応じてトレーニング サンプルの分布を調整します。設定された学習器のパフォーマンス。これにより、前のベース学習器によって作成されたトレーニング サンプルがフォローアップでより多くの注目を集め、次のベース学習器が調整されたサンプル分布に基づいてトレーニングされ、学習が繰り返されます。基底学習器の数があらかじめ指定された値 T に達するまで続けられ、最後に T 個の基底学習器に重み付けが行われて結合されます。Adaboost アルゴリズムはブースティングの代表的なアルゴリズムです。
勾配ブースティング
H(X)とf(x)の条件を緩和すると、二値分類、多分類、回帰などのさまざまな機械問題の学習に応用できます。
GBDT
Adaboost はバイナリ分類問題の処理に使用され、GBDT はマルチクラス回帰問題の処理に使用されます。
袋詰め
ブースティングは直列統合学習手法であり、バギングは並列
統合学習の代表的なセルフサービス サンプリング手法です。m 個のサンプルを含むデータ セットが与えられた場合、まずサンプルをランダムに取得してサンプリング セットに入れ、次にサンプルを入れます。初期データセットに戻り、次のサンプリングでもサンプルが引き続き選択されるようにします。これにより、m 個のサンプルのサンプリングセットの後、初期トレーニングセットの一部のサンプルがサンプリングセットに複数回出現し、一部のサンプルはサンプリングセットに出現しません。サンプルの約 63.2% がサンプリング セットに出現しました。
ランダムフォレスト
ランダム フォレストはバギングの拡張版であり、決定木ベースの学習器に基づいたバギング アンサンブルの構築に基づいて、属性のランダム選択が決定木の学習プロセスにさらに導入されます。
サンプルに基本決定木の各ノードの d 個の属性が含まれていると仮定すると、まず、最適な分割のためにノードの属性の組み合わせから k (k<=d) 個の属性を含むサブセットをランダムに選択します。
ランダム フォレストのトレーニング効率は、通常、バギングによるものです。各ノードの分割では、参加する属性の一部のみが必要であり、属性の摂動により各基本決定に対してより高いロバスト性が提供されるため、ランダム フォレストの汎化誤差は通常バギングよりも低くなります。木のセックス。
参考:スイカの本、カボチャの本の動画