决策树
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。
缺点:可能会产生过度匹配问题。
适用类型:数值型、标称型。
1、信息增益
划分数据集的大原则是:将无序的数据变得更加有序。
在划分数据集之前之后信息发生的变化称为信息增益,计算每个特征值划分数据集获得的信息增益,获得信息增益最高的特征就算最好选择。
xi的信息: l(xi)=-log2p(xi),其中p(xi)是选择该分类的概率。
信息增益(熵的减少或数据无序度的减少):熵H=- sigma(i=1~n)p(xi)log2p(xi),其中n是分类的数目。熵值越大,信息越无序。
2、实现程序