1. デシジョンツリーとは何ですか?
デシジョン ツリーは一般的な機械学習手法であり、バイナリ分類を例に挙げると、一連のサブデシジョンに基づいてサンプルが正の例であるかどうかを判断します。意思決定プロセスは、判断を行う属性を選択することです。スイカの問題を例として、モデルがトレーニングされていると仮定します。スイカがあります。最初にその色 (ターコイズ色) を確認し、次に段階的に確認して、最後にこのスイカが肯定的な例 (良いメロン) であるかどうかを調べます。
2. 最適なサブ属性を選択する3つの方法
デシジョン ツリーがどのように機能するかはわかりましたが、各サブデシジョンに対応する属性はどのように選択すればよいでしょうか? 「純度」は、この問題を解決するのに役立ちます。決定木の分岐ノードに含まれるサンプルが可能な限り同じカテゴリに属することを期待しているため、純度が高いほど優れています。
2.1 情報の獲得 (大きいほど良い)
情報ゲイン = 情報エントロピー - 条件付きエントロピー
条件付きエントロピー: サンプル属性 a の値がわかっている場合に、サンプル セットの純度を測定する指標。j は属性 a を表す j 番目の値です。
有名なID3決定木学習アルゴリズムは、パーティション属性を選択する基準として情報利得を使用します。情報利得が大きいほど、純度の向上も大きくなります。ただし、情報獲得基準では、より多くの望ましい属性を持つ属性が優先されます。例えば、各サンプルには番号が付いており、学習者にその番号を付加すると、最適な部分属性を選択する際にその番号が選択されることは間違いありませんが、そのようなモデルには汎化機能が全くありません。