なぜ数値型の特徴を正規化する必要があるのですか? なぜツリー アルゴリズムに正規化が必要ないのですか?

関連する説明: 

  1. 変数間の相関は考慮されず、各スクリーニングでは 1 つの変数のみが考慮されます (したがって、正規化は必要ありません)。
  2. 重み付きモデルの場合、特徴は次のようにスケーリングできます: 線形回帰、SVM、(BP??) 重みのないメソッドの場合、特徴は正規化 (標準化) に適していません。回帰アルゴリズムと組み合わせて、特徴の前に重みを追加します。
  3. 線形モデルの場合、LR のように特徴量が大きく異なる場合、2 つの特徴があり、1 つは (0,1) で、もう 1 つは (0,10000) です。勾配降下法を使用すると、損失等高線は楕円形になります。形状を最適な点に到達するには複数回の反復が必要です。ただし、正規化が実行されると、等高線が円形になり、SGD が原点に向かって反復することになり、必要な反復が少なくなります。これは、勾配降下法アルゴリズムを正規化する必要があるためで、正規化後は、最適解を見つけるための勾配降下法の速度が向上します。ツリーモデル(回帰木)は最適点を見つけたら、最適な分割点を見つけることで完成しますが、それはPythonの決定木ID3アルゴリズムを見ると理解できます。導出には意味がないため、正規化する必要はありません。
  4. 確率モデルは変数の値ではなく、変数の分布と変数間の条件付き確率に関係するため、正規化を必要としません。svm や線形回帰などの最適化問題には正規化が必要です。決定木は前者に属します。

実験を比較すると、次のような結論が得られます。 

  • Lasso モデルの場合、MaxAbsScaler メソッドを使用すると、MSE が非常に明らかに増加し、正規化後の結果は正規化なしよりも高くなります (データに問題がある可能性があります)。
  • Redige モデルの場合も、正規化された結果は、正規化されていない結果よりも大幅に高くなります。
  • SVR モデルの場合、正規化が実行されない場合、MSE は非常に大きくなります。svm は基本的に 2 種類のデータを分離する最も遠い超平面を選択するためです。誤分類の影響により、正規化しないと誤分類が発生します。平面の精度が低いと、得られた分割平面のテスト積分力が不正確になります。
  • RandomForest と XGBoost の場合、正規化が実行されるかどうかは結果にほとんど影響しません。これもツリーモデルの大きな特徴です。

おすすめ

転載: blog.csdn.net/qq_35290785/article/details/100704783