1.剪定の目的
過剰適合を回避し、モデルの一般化効果を改善します
2、剪定方法
2つの主要な剪定アルゴリズム、事前剪定と事後剪定があります
2.1事前プルーニング
事前プルーニングは、決定木を構築する過程でモデルのパフォーマンスを悪化させるブランチを停止することです。
事前剪定方法:
- 木の深さが一定の大きさに達すると、成長が止まります。
- 現在のノードのサンプル数が特定のしきい値を下回っており、成長が停止しています。
- ときに情報ゲイン、情報利得率とジニ指数ゲインがある一定の閾値未満、成長が停止します。
- ときにテストセットの精度が一定の閾値未満改善しない、またはもはや改善あるいは停止が成長し、低下します。(スイカの本)
事前剪定法は、モデルのパフォーマンスを効果的に改善し、トレーニング時間とテスト時間を短縮できますが、この方法は貪欲な性質を採用しており、適合不足のリスクがあります。
2.2プルーニング後
ポストプルーニングは、デシジョンツリーが構築された後にボトムアッププルーニングを開始します
剪定後の方法:
- 悲観的剪定(PEP)
- 最小エラープルーニング(MEP)
- エラー率削減剪定(REP)、(ウォーターメロンブック)
- コストの複雑さのプルーニング(CCP)
- OPP(最適剪定)
- CVP(臨界値プルーニング)