C4.5最新版本Release8与ＭＤＬ的关系的详细解读

最近联系了决策树的作者Ｑｕｉｎｌａｎ教授，搞清了网上对Ｃ４．５的一些不够前沿的描述，
《Inferring Decision Trees Using the Minimum Description Length Principle*》
《Improved Use of Continuous Attributes in　Ｃ４．５》
对这两篇文章做下总结：

我们一般希望决策树可以稍微简化点,要不然就太乱了.
所以这篇论文怎么简化决策树呢?
作者提出使用MDL来简化决策树,简化的衡量指标是MDL,也就是ＭＤＬ编码最短原则.
为什么使用ＭＤＬ来衡量决策树？论文中提到，这个就是一个合理的ａｒｔｉｆｉｃｅ，也就是作者设置的一个合理的量化标准．
遵循这个标准对决策树进行简化
在这里插入图片描述
上面这个什么意思呢？比如说，我要找一个好姑娘，有的看身材，有的看心灵善良，所以众说纷纭是不行的，为了让这个衡量有一个尺度所以我定下来一个衡量的规则，这个规则就是ＭＤＬ，也就是文章中提到的的ａｒｔｉｆｉｃｅ

所谓的MDL，就是从发送方传送＂编码后的决策树模型＋不遵守模型的一些例外数据＂给接收方,要求发送的长度最短.

正好１９96年以前,作者说有文章吐槽Quinlan的C4.5容易对"连续数值"的特征有偏袒，也就是说，从ＩＤ３的熵增益到Ｃ４．５的熵增益率作为判据以后，依然会出现分割时，倾向于选择连续数值特征作为分割特征的问题．

Ｑｕｉｎｌａｎ教授看到有文章吐槽以后就对Ｃ４．５进行了最后一次改进，改进的文章就是《Improved Use of Continuous Attributes in　Ｃ４．５》
这篇文章中的Ｃ４．５也是最后一个版本Ｃ４．５－Ｒｅｌｅａｓｅ８

下面详细解释ＭＤＬ的原理．

这里的ＭＤＬ：有ｓｅｎｄｅｒ和ｒｅｃｅｉｖｅｒ两方，
两方具备相同的数据集，但是限定：
ｒｅｃｅｉｖｅｒ的数据集没有类别标签，也就是裸数据
现在想让ｓｅｎｄｅｒ把这个分类规则发送给ｒｅｃｅｉｖｅｒ
要求这个分类规则最短，这个就是决策树的ＭＤＬ原则．

假如，一个连续数值的特征有Ｎ个取值，那么就有Ｎ－１个候选阈值．
我们采用独热编码的话，从ｓｅｎｄｅｒ－＞ｒｅｃｅｉｖｅｒ，就需要Ｎ－１ｂｉｔ，
为了省事儿，我们进行压缩，需要ｂｉｔ数为log2(N-1)
例如：
某连续特征取值有９个，那么候选阈值是８个
ｓｅｎｄｅｒ发送０１１
那么ｒｅｃｅｉｖｅｒ解码后是３，选择第３个（从第０个开始数）候选阈值作为该特征的分割阈值
这样呢，传输成本就从原来的８ｂｉｔ下降为ｌｏｇ２（８）＝３个ｂｉｔ，节省了５个ｂｉｔ

所以，Ｒｏｓｓ　Ｑｕｉｎｌａｎ教授对于决策树的简化与我们一般人理解的不同，我们一般可能百度上看个什么博客，深度浅一些啊，就是一个比较简化的决策树的．而Ｑｕｉｎｌａｎ教授对于＂决策树简化的量化程度＂，是依据于ＭＤＬ原则的．

所谓的ＭＤＬ有一些限定：
ｓｅｎｄｅｒ与ｒｅｃｅｉｃｅｒ可以事先约定第几个ｂｉｔ的数值代表什么含义．
ｓｅｎｄｅｒ与ｒｅｃｅｉｃｅｒ可以事先约定可能的取值的列表，例如ｓｅｎｄｅｒ告诉ｒｅｃｅｉｖｅｒ对连续特征进行分割时，第几个阈值作为分割阈值，那么这里至少需要ｌｏｇ２（Ｎ－１）ｂｉｔ才能表达是第几个．

这篇文章中，ｌｏｇ２（Ｘ）的含义，其实是，对Ｘ采用二进制编码，我需要几个ｂｉｔ？

另外，这篇论文的相关实现中，关于分支数量是：
离散的特征可以２分支及以上．连续的特征的对应分支一律２分支，连续的特征，不存在多分支．

整个C4.5-Release8算法的细节总结如下面链接所示：
https://blog.csdn.net/appleyuchi/article/details/83154696
关于ＭＤＬ＋决策树的具体实例可以看下面的链接：
https://blog.csdn.net/appleyuchi/article/details/83216608

这两个链接都联系Ｒｏｓｓ　Ｑｕｉｎｌａｎ教授看过，已经没问题了．

先总结下ＭＤＬ：
ＭＤＬ的原因：希望ｓｅｎｄｅｒ给ｒｅｃｅｉｖｅｒ的决策树编码规则最小＋ｅｘｃｅｐｔｉｏｎ编码最小
ＭＤＬ的好处：进一步降低＂优选连续数值特征＂为分割特征的＂倾向性＂

所谓的ｅｘｃｅｐｔｉｏｎ指的是，决策树不完美或者输入数据有噪声的时候，导致按照这个决策树规则判定的结果是错的，这个时候就需要对这些例外（ｅｘｃｅｐｔｉｏｎ）的案例进行编码，从ｓｅｎｄｅｒ传输到ｒｅｃｅｉｖｅｒ．

另外，关于第一个链接中的连续数值特征的判据使用，再做一些补充．
$\frac{D·Ｇａｉｎ（D,T）-log2(N-1)}{Ｄ·Ｓｐｌｉｔ（Ｄ,T）}$
表示的是:
$\frac{类别标签列的熵编码ｂｉｔ数－划分特征的熵编码ｂｉｔ数－阈值的编码ｂｉｔ数}{划分特征的熵编码ｂｉｔ数}$

前面提到了ｅｘｃｅｐｔｉｏｎ，那么上面的分子是啥呢？它的含义在第二篇文章中有提到：
MDL thus provides aframework for trading off the complexity of a theory against its accuracy on the training data $D$ .
The exceptions cost associated with a set of cases $D$ is
asymptotically equivalent to $|D|·Ｉｎｆｏ（Ｄ）$ so that $｜Ｄ｜·Ｇａｉｎ（Ｄ,T）$ measures the reduction in exceptions cost when $D$ is partitioned by a test $T$
也就是说，当Ｄ被Ｔ分割时，分割前后产生的例外（也就是不满足决策树分类规则的所有数据）的编码成本的降低ｂｉｔ数（ｒｅｄｕｃｔｉｏｎ），
当Ｄ被Ｔ分割时，需要的编码成本是:
$D·\sum_{i=1}^{k}\frac{D_i}{D}·Ｉｎｆｏ（Ｄ_i）＋\log_2(N-1)$
这里的Ｎ是连续特征的取值的种数．
这里的ｋ＝２，Ｃ４．５的连续特征分割时，都是二树叉的，不存在多树叉．
只有离散特征才是多树叉．
这里的例外（exception）什么意思呢？举例：
特征　类别
０．１　　０
０．３　　１
０．６　　０
０．８　　０
如果现在分割阈值＝０．５
那么此时连续特征转化为离散特征处理，也就将区间分成两个子区间
那么前两条数据中，０．１和０．３对应的类别分别是０和１，也就是说，
决策树的规则中到这一步为止，使用该特征不能完美描述数据集，
这个时候就存在ｅｘｃｅｐｔｉｏｎ，为了对ｅｘｃｅｐｔｉｏｎ进行编码（ＭＤＬ的要求）
每个子区间需要消耗的编码数量为 $Di·Ｉｎｆｏ（Ｄｉ）$
所以，用来确定到底选择哪个特征作为分割特征的判据变成：
到底选择哪个特征，能够使得ｅｘｃｅｐｔｉｏｎ的编码数落差最大（文中提到的ｒｅｄｕｃｔｉｏｎ　ｉｎ　ｅｘｃｅｐｔｉｏｎｓ　ｃｏｓｔ）．

因为我们分割的时候，数据集每经过一个节点，数据集总量就会下降，所以ｅｘｃｅｐｔｉｏｎ的意思就是当前数据集不能使用＂已经经过的树枝（也就是从根节点到当前节点的一堆判定规则）＂来判定，所以称为ｅｘｃｅｐｔｉｏｎｓ

以上是为了精确地理解Ｃ４．５的最新版本，
但是呢，面试的时候，不要说这么多，因为面试官也是打工的，
比较浮躁，你就说熵增益最大就行了．

C4.5最新版本Release8与ＭＤＬ的关系的详细解读

猜你喜欢