决策树模型（二）

Q:信息增益是什么？
特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即
$\tag{5.6}$
一般地，熵H(Y)与条件熵H(Y|X)之差成为互信息（mutual information）。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

Q:信息增益的意义是？
信息增益g(D,A)代表由于特征A而使得对数据集D的分类的不确定性减少的程度。信息增益依赖于特征，不同的特征往往具有不同的信息增益。信息增益大的特征具有更强的分类能力。

Q:决策树中根据信息增益准则的特征选择方法是什么？
核心思想：对训练数据集（或子集）D，计算其每个特征的信息增益，并比较它们的大小，选择信息增益最大的特征。
设训练数据集为D，|D|表示其样本容量，即样本个数。设有K个类$C_k，k=1,2,\ldots,K,|C_k| $为属于类$ C_k $的样本个数，$ \sum_{k=1}^K |C_k|=|D| $。设特征 A 有 n 个不同的取值$ {a_1, a_2, \ldots, a_n} $，根据特征 A 的取值将 D 划分为 n 个子集$ D_1, D_2, \ldots, D_n, |D_i| $为$ D_i$的样本个数， $\sum_{i=1}^n |D_i|=|D|$ 。记子集 $D_i$ 中属于类 $C_k$ 的样本的集合为 $D_{ik}$ ，即 $D_{ik} = D_i \cap C_k, |D_{ik}|$ 为 $D_{ik}$ 的样本个数。

于是信息增益算法如下：
输入：训练数据集D和特征A
输出：特征A对训练数据集D的信息增益g(D,A)。
(1)计算数据集D的经验熵H(D)
$\sum^K_{k=1}\frac{|C_k|}{|D|}\log_2\frac{|C_k|}{|D|} \tag{5.7}$
(2)计算特征A对数据集D的经验条件熵H(D|A)
$\sum_{i=1}^n\frac{|D_i|}{|D|} H(D_i) = -\sum_{i=1}^n\frac{|D_i|}{|D|} \sum_{k=1}^K\frac{|D_{ik}|}{|D_i|} \log_2 \frac{|D_{ik}|}{|D_i|} \tag{5.8}$
在这里， $D_i|$ 是该子集的数目， $D_{ik}|$ 是该子集中取某一类的数目。
(3)计算信息增益
$\tag{5.9}$

Q:使用信息增益作为划分训练集特征的问题是什么？以及纠正的方法？
会存在偏向于取值较多的特征的问题，使用信息增益比可以纠正

Q:信息增益比(information gain ratio)的定义是什么?
特征A对训练数据集D的信息增益比 $g_R(D,A)$ 定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵 $H_A(D)$ 之比，即
$g_R(D,A) = \frac{g(D,A)}{H_A(D)} \tag{5.10}$
其中， $H_A(D) = -\sum_{i=1}^n\frac{|D_i|}{|D|}\log_2 \frac{|D_i|}{|D|}$ ，n是特征A的取值的个数。

Q:决策树的剪枝是什么意思？
剪枝是对已生成的树进行简化的过程

Q:决策树的剪枝的实现方式是？
通过极小化决策树整体的损失函数（loss function）或代价函数（cost function）来实现

Q:CART的回归树用什么最小化准则，分类树用什么最小化准则？
回归树用平方误差最小化准则，分类树用基尼指数（Gini index）最小化准则

Q:基尼指数的定义是什么？
在分类问题中，假设有K个类，样本点属于第k类的概率为 $p_k$ ，则概率分布的基尼指数定义为
$\text{Gini}(p) = \sum_{k=1}^K p_k(1-p_k) = 1- \sum_{k=1}^K p_k^2 \tag{5.22}$
对于二分类问题，若样本点属于第1个类的概率是p,则概率分布的基尼指数为
$\text{Gini}(p) = 2p(1-p) \tag{5.23}$
对于给定的样本集合D，其基尼指数为
$\text{Gini}(D) = 1- \sum_{k=1}^K ( \frac{|C_k|}{|D|} ) ^2 \tag{5.24}$
在这里， $C_k$ 是D中属于第k类的样本子集，K是类的个数。

Q:在特征A的条件下，集合D的基尼指数定义是什么？
如果样本集合D根据特征A是否可取某一可能值a被分割成 $D_1和D_2$ 两部分，即
$D_1=\{(x,y)\in D|A(x)=a\}, D_2 = D - D_1$
则在特征A的条件下，集合D的基尼指数定义为
$\text{Gini}(D,A) = \frac{|D_1|}{|D|}\text{Gini}(D_1) + \frac{|D_2|}{|D|}\text{Gini}(D_2) \tag{5.25}$

Q:基尼指数Gini(D)和Gini(D,A)的意义？基尼指数值越大代表什么？
基尼指数Gini(D)代表集合D的不确定性，基尼指数Gini(D,A)代表经A=a分割后集合D的不确定性。
基尼指数值越大，样本集合的不确定性也就越大。与熵相似

决策树模型（二）

猜你喜欢