机器学习学习笔记.day7

周志华《机器学习》学习笔记

最近开始学习机器学习，参考书籍西瓜书，做点笔记。

第七章贝叶斯分类器

7.1 贝叶斯决策论

λij是讲一个真实标记cj的样本误分类为ci所产生的损失，条件风险：；

为最小化总体风险，只需选择使条件风险最小的类别标记：；

具体情况如果误判损失为0/1损失，此时条件风险为：；

则只需选择P(c|x)最大的类别标记：；

判别式模式：给定输入样本，通过类别中输入的概率预测类别；

生成式模式：先对联合概率分布建模，由此得到概率；

由贝叶斯公式可以得到：；

其中P(c)为类先验概率，P(x|c)为样本标记c的类条件概率，或城似然；

7.2 极大似然估计

假设类条件概率具有确定的形式并被参数向量唯一确定，则任务就是利用训练集估计参数；

假设样本是独立同分布的，则参数对于数据集的似然：；

通常使用对数似然，避免下溢：；

此时的参数极大似然估计：；

7.3 朴素贝叶斯分类器

基于属性条件独立性假设，可得到：；

对于所有类别来说，分母是相通的，所以问题转化为：，即朴素贝叶斯分类器表达式；

其中：，对于连续值，假设服从正态分布：

当样本中某个属性值在训练集中没有与某个类同时出现过，则会造成概率为0的情况，此时需要拉普拉斯修正：；

其中N为训练集D中可能的类别数，Ni为第i个属性可能的取值数；

7.4 半朴素贝叶斯分类器

独立依赖估计：；

SPODE：假设所有属性依赖同一个属性，称为超父；

TAN：基于最大带权生成树算法，通过条件互信息构建完全图；

条件互信息：；

AODE：尝试将每一个属性作为父类，构建SPODE，。

7.5 贝叶斯网

贝叶斯网也成为信念网，借助有向无环图可换属性之间的依赖关系，并用条件概率表来描述属性的联合概率分布；

1.结构

贝叶斯网假设每个属性与他的非后裔属性独立，于是将属性的联合概率分布定义为：

三种依赖关系：同父结构、V型结构、顺序结构；

2.学习

实际中不知道网络结构，根据训练集找到恰当网络结构，需要评分函数：；

3.推断

吉布斯采样，随机采样法；

第七章贝叶斯分类器，这一章开始涉及概率，需要一点概率的基础，一边学习一边查询公式，并且自己推导一遍会有更深的理解，再结合书上例子过一遍，后面的贝叶斯网和EM算法暂时没太深入，等以后需要的时候再做补充。

我的笔记做的比较粗糙，还请见谅。

有不正确或者不完整的地方，欢迎补充。