协同滤波:
项目向量:特征
用户向量:对对应的项目特征的偏好程度
二者点乘并相加。两个向量都应该有一个偏置项,充分考虑不同用户,不同项目之间的差异。比如,用户有可能是消极的,也有可能是积极的。
项目向量和用户向量可以作为给项目和用户分类的依据。
挑战:新用户和新项目不太好处理,未知的太多
决策树:选取最优特征是很重要的一步。选取的标准有信息增益( 表示了某特征使得数据集D的分类不确定性减少的程度),信息增益比(归一化),基尼指数,分别对应于ID3,C4.5,CART树。它可以看成一个条件概率分布,它会使数据集的纯度越来越高。
信息增益的偏好是属性取值有很多种的特征,所以引入了信息增益比。
挑选特征A,且该特征有两个取值时,
扫描二维码关注公众号,回复:
1037513 查看本文章
决策树划分在三种情况下,终止划分:
1、该结点只包含一类(纯度已经100%),
2、特征集为空,说明决策树已经把所有的特征都用上了,输出类别是比例最大的那一类。
3、某个划分的子集为空,此时说明没有取该特征对应的某一取值。
当然,为了防止过拟合,还可以加一个划分终止条件:信息增益小于某一阈值时。
剪枝也是很重要的一步操作,它是一种动态规划问题,主要是防止过拟合,需要借用验证数据集。决策树只考虑信息增益,而剪枝优化的是损失函数(考虑到了模型复杂度)。
现在很流行的CART树是基于基尼指数来进行。要注意的是,它除了可以解决分类问题,还可以解决回归问题,此时每个结点对应一个固定值(可以用平方误差最小原则求解每个结点的最优值)