概要
1. 統合アルゴリズム
複数の推定器のモデリング結果が集約されて、単一モデルよりも優れた回帰または分類パフォーマンスが得られます。
統合評価器を構成するモデルには、バギング、ブースティング、スタッキングの 3 種類があります。
ブースティング手法の代表的なモデル:
adaboost ランダム フォレストの基本分類器は決定木です。
- 分岐方法:
分類木の不純物:ジニ係数または情報エントロピー、
回帰木の不純物:MSE平均二乗誤差
1. 乱数モデリングの基本プロセス
from sklearn.tree import RandomForestClassifier as rf
tree=rf()
tree=tree.fit(x_train,y_train)
score=tree.score(x_test,y_test)
2.重要なパラメータ
- 基準
- 最大深さ
- min_samples_leaf
- min_samples_split
- max_features
- min_impurity_decrease: 設定値未満の情報ゲインを持つ分岐は再度発生しません。
- n_estimators: 基本評価の数 数値が大きいほどモデルの効果は高くなりますが、計算量とメモリ量も多くなります。バージョン 0.22 のデフォルト値 100
3.モデリング
ランダム フォレストとデシジョン ツリー:
インターフェイス:
- .estimators_
- .oob_score_: バッグ外の精度
- 予測: 予測確率
パラメータを調整します。
- 一般に経験に依存します。一般化誤差の最低点を探すと、ランダム フォレストの一般モデルはより複雑になります。
- 一般に、推定量はパフォーマンスに大きな影響を与え、次に max_ Depth、min_samples_leaf & min_samples_split、max_features、criteria が続きます。汎化能力が低い場合は、max_ Depth、min_samples_leaf、min_samples_split に焦点を当てます。