机器学习笔记一

协同滤波:

项目向量:特征

用户向量:对对应的项目特征的偏好程度

二者点乘并相加。两个向量都应该有一个偏置项,充分考虑不同用户,不同项目之间的差异。比如,用户有可能是消极的,也有可能是积极的。

项目向量和用户向量可以作为给项目和用户分类的依据。

挑战:新用户和新项目不太好处理,未知的太多


决策树:选取最优特征是很重要的一步。选取的标准有信息增益( 表示了某特征使得数据集D的分类不确定性减少的程度),信息增益比(归一化),基尼指数,分别对应于ID3,C4.5,CART树。它可以看成一个条件概率分布,它会使数据集的纯度越来越高。

信息增益的偏好是属性取值有很多种的特征,所以引入了信息增益比。


挑选特征A,且该特征有两个取值时,

扫描二维码关注公众号,回复: 1037513 查看本文章


决策树划分在三种情况下,终止划分:

1、该结点只包含一类(纯度已经100%),

2、特征集为空,说明决策树已经把所有的特征都用上了,输出类别是比例最大的那一类。

3、某个划分的子集为空,此时说明没有取该特征对应的某一取值。

当然,为了防止过拟合,还可以加一个划分终止条件:信息增益小于某一阈值时。

剪枝也是很重要的一步操作,它是一种动态规划问题,主要是防止过拟合,需要借用验证数据集。决策树只考虑信息增益,而剪枝优化的是损失函数(考虑到了模型复杂度)。

现在很流行的CART树是基于基尼指数来进行。要注意的是,它除了可以解决分类问题,还可以解决回归问题,此时每个结点对应一个固定值(可以用平方误差最小原则求解每个结点的最优值)

猜你喜欢

转载自blog.csdn.net/melody96313/article/details/80346769