第 2 章: ランダム フォレスト: 1. アンサンブル アルゴリズム 1. 乱数モデリングの基本プロセス 2. 重要なパラメーター 3. モデリング

概要

1. 統合アルゴリズム

複数の推定器のモデリング結果が集約されて、単一モデルよりも優れた回帰または分類パフォーマンスが得られます。
統合評価器を構成するモデルには、バギング、ブースティング、スタッキングの 3 種類があります。
ここに画像の説明を挿入します
ブースティング手法の代表的なモデル:
adaboost ランダム フォレストの基本分類器は決定木です。

  • 分岐方法:
    分類木の不純物:ジニ係数または情報エントロピー、
    回帰木の不純物:MSE平均二乗誤差

1. 乱数モデリングの基本プロセス

from sklearn.tree import RandomForestClassifier as rf

tree=rf()
tree=tree.fit(x_train,y_train)
score=tree.score(x_test,y_test)

2.重要なパラメータ

  • 基準
  • 最大深さ
  • min_samples_leaf
  • min_samples_split
  • max_features
  • min_impurity_decrease: 設定値未満の情報ゲインを持つ分岐は再度発生しません。
  • n_estimators: 基本評価の数 数値が大きいほどモデルの効果は高くなりますが、計算量とメモリ量も多くなります。バージョン 0.22 のデフォルト値 100

3.モデリング

ランダム フォレストとデシジョン ツリー:
ここに画像の説明を挿入します
インターフェイス:

  • .estimators_
  • .oob_score_: バッグ外の精度
  • 予測: 予測確率

パラメータを調整します。

  • 一般に経験に依存します。一般化誤差の最低点を探すと、ランダム フォレストの一般モデルはより複雑になります。
  • 一般に、推定量はパフォーマンスに大きな影響を与え、次に max_ Depth、min_samples_leaf & min_samples_split、max_features、criteria が続きます。汎化能力が低い場合は、max_ Depth、min_samples_leaf、min_samples_split に焦点を当てます。

おすすめ

転載: blog.csdn.net/qq_53982314/article/details/131186128