机器学习几种方法总结——待完善

参考文献:

中文文本分类的特征选择和权重计算

以下内容链接

朴素贝叶斯方法: 基于条件独立性假设,即每一个特征对类别的影响是条件独立的,即特征之间相互不影响。其思路是:将文本看成一个特征集,计算特征对各个类别的先验概率(出现该特征时的文本属于每一类别的概率),根据该先验概率在测试集中计算出文本属于某个类别的后验概率,将文本分到概率最大的类中去。
k近邻方法: 给一个新的文本,计算出该文本和所有文本的距离,找出k个距离最近的训练文本,这k个训练文本属于哪一类更多,那个新文本就属于哪一类。
决策树:
是一种有二叉树形式的分类算法,该树分为内部节点和叶子节点,内部节点为特征或者属性,叶子结点为类别。
- 根节点为选取的第一个属性,在内部节点上判断是否符合该属性条件(符合为是,不符合为否),分成两个分支,在新的分支上判断新的属性。 所以,决策树每条路径可以被看成一条规则,路径的最终节点表示结果,所有的路径是互斥且完备的,就是说任何一个实例X都可以被放到决策树的一条路径中,有且只有一条。
同样可以认为决策树的每条路径是一个条件概率分布,所有的路径组合就是某类别的条件概率分布,实例X一定符合某个概率分布,决策树选取最大概率的条件分布作为结果输出。

  • 学习过程:决策树的训练学习包括三部分:选择特征(即按某种标准对所有特征进行优先级排序,选择最优先的作为根节点);构建树(即根据节点进行分裂);剪枝过程(就是去掉决策树的某些节点)

  • 选择特征:选择特征部分是为了决定哪个特征或属性作为决策树的根节点,选择方法是通过信息增益来确定,一般信息增益(ID3)大的特征具有的分类能力也越强。还可以用信息增益比(C4.5)来确定。
    信息增益 = 特征A出现后数据集D的条件熵 - 数据集D的信息熵
    信息增益比 = 信息增益 / 数据集D的信息熵
    (这里的特征A 和 数据集D确切来说应该是随机变量A和随机变量D)
    信息熵:随机变量D的概率分布 乘 log_2(随机变量D的概率分布) 的 累加的负数
    条件熵:随机变量X的概率分布*
    信息增益: 信息熵 - 条件熵
    信息增益比: (信息熵 - 条件熵)/ 信息熵

猜你喜欢

转载自blog.csdn.net/ilikede/article/details/80241099