机器学习-关键词:正则化、过拟合、决策树

过拟合

过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一对已知数据预测得很好,但对位置数据预测得含茶的现象。 即对训练数据预测得好,对测试数据预测得差的现象。
过拟合出现的情况:
1:样本容量很小时,
2:选择的模型所包含的参数过多。

两种常用的模型选择方法:正则化、交叉验证。
正则化是模型结构风险最小化策略的实现。
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
正则化的作用是选择经验风险与模型复杂度同时较小的模型。

交叉验证:

给定的样本数据充足时,将样本分成三部分:训练集、验证集、测试集。
训练集用于训练模型,验证集用于模型的选择,测试机用于 最终对学习方法的评估。但是在实际应用中数据是不充足的,为了选择好的模型,可以采用交叉验证的方法。


决策树:

决策树的学习通常包括三个步骤:特征选择、决策树的生成、决策树的修剪。
ID3算法、C4.5、CART算法。
其中,ID3算法:用信息增益来选择特征;只有树的生成,容易产生过拟合。
C4.5对ID3算法进行了改进,在生成的过程中国,用信息增益比来选择特征。

特征选择:选取对训练数据具有分类能力的特征。目的:提高决策树学习的效率。
通常的特征选择的准则是信息增益或信息增益比。
信息增益:

熵(entropy)

是表示随机变量不确定性的度量。
设随机变量X是一个取有限个值的离散随机变量,其概率分布为:

P ( X = x i ) = p i , i = 1 , 2 , . . . , n

则随机变量X的熵的定义为:

H ( X ) = i = 1 n p i log p i

式中对数以2为底或以e为底,这时熵的单位分别称作比特(bit) 或者纳特(nat).
有定义可知,熵只依赖于X的分布,而与X的取值无关,所以也可以将X的熵记作 H ( p ) ,即:

H ( p ) = i = 1 n p i log p i

熵越大,随机变量的不确定性就越大。从定义可以验证:

0 H ( p ) log n

当随机变量只取两个值,例如1,0时,X的分布为:

P ( X = 1 ) = p , P ( X = 0 ) = 1 p , 0 p 1

熵为:

H ( p ) = p l o g 2 p ( 1 p ) l o g 2 ( 1 p )

这时,熵 H ( p ) 随概率p的变化曲线如图(单位为bit):

p = 0 p = 1 时,随机变量完全没有不确定性。
p = 0.5 时, H ( p ) = 1 ,熵取值最大,随机变量不确定性最大。

信息增益:

特征A对训练数据集D的信息增益 g ( D , A ) ,定义为集合D的经验熵 H ( D ) 与特征A给定条件下D的经验条件熵 H ( D / A ) 值差。即:

g ( D , A ) = H ( D ) H ( D / A )


信息增益的算法:

输入:训练数据集D和特征A;
输出:特征A对训练数据集D的信息增益 g ( D , A )
(1) 计算数据集D的经验熵 H ( D )

H ( D ) = k = 1 K | C k | | D | log 2 | C k | | D |

(2)计算特征A对数据集D的经验条件熵 H ( D / A )

H ( D / A ) = i = 1 n | D i | | D | H ( D i ) = i = 1 n | D i | | D | k = 1 K | D i k | | D i | log 2 | D i k | | D i |

(3)计算信息增益:

g ( D , A ) = H ( D ) H ( D / A )

ID3算法:用信息增益来选择特征;只有树的生成,容易产生过拟合。

信息增益比

(信息增益比定义)特征A对训练数据集D的信息增益比 g R ( D , A ) 定义为其信息增益 g ( D , A ) 与训练数据集D关于特征A的值得熵 H A ( D ) 之比,即

g R ( D , A ) = g ( D , A ) H A ( D )
其中, H A ( D ) = i = 1 n | C i | | D | log 2 | C i | | D |

C4.5对ID3算法进行了改进,在生成的过程中,用信息增益比来选择特征。


决策树的剪枝(pruning)

决策树的修剪:自下而上地进行剪枝,将树变得简单,从而使它具有更好的泛化能力。——解决过拟合问题。
决策树的剪枝一般通过极小化决策树整体的损失函数(loss function)/代价函数(cost function)来实现。
设树T的结点个数为 | T | , t 是树T的结点,该叶结点有 N t 个样本点,其中 k 类的样本点有 N i k 个, k = 1 , 2 , . . . , K , H t ( T ) 为叶结点 t 上的经验熵, α 0 为参数,则决策树学习的损失函数可以定义为:

C α ( T ) = i = 1 | T | N t H t ( T ) + α | T | (1)

其中经验熵为:

H t ( T ) = k N i k N t log N i k N t (2)

在损失函数中,将(1)式右端的第一项记作:

C ( T ) = i = 1 | T | N t H t ( T ) = i = 1 | T | k = 1 K N i k log N i k N t

这时有:

C α ( T ) = C ( T ) + α | T | (3)

式(3)中, C ( T ) 表示模型对训练数据的预测误差,即模型与训练数据的拟合程度, | T | 表示模型复杂度,参数 α 0 控制两者之间的影响,较大的 α 促使选择较简单的模型(树),较小的 α 促使选择较复杂的模型。 α = 0 意味着只考虑模型与训练数据的拟合程度,不考虑模型的复杂度。

CART算法

分类树与回归树(classification and regression tree,CART)模型由Beriman等人在1984年提出,是应用广泛的决策树学习方法。CART由特征选择、树的生成、剪枝组成。既可以用于分类也可以用于回归。
CART算法:决策树生成+剪枝。
对回归树用平方误差最小化准则,对分类树用基尼指数(Geni index)最小化准则,进行特征选择,生成二叉树。

猜你喜欢

转载自blog.csdn.net/zhenaoxi1077/article/details/80071879