机器学习学习笔记.day7

周志华《机器学习》 学习笔记

最近开始学习机器学习,参考书籍西瓜书,做点笔记。



第七章 贝叶斯分类器

7.1 贝叶斯决策论

λij是讲一个真实标记cj的样本误分类为ci所产生的损失,条件风险:

为最小化总体风险,只需选择使条件风险最小的类别标记:

具体情况如果误判损失为0/1损失,此时条件风险为:

则只需选择P(c|x)最大的类别标记:

判别式模式:给定输入样本,通过类别中输入的概率预测类别;

生成式模式:先对联合概率分布建模,由此得到概率;

由贝叶斯公式可以得到:

其中P(c)为类先验概率,P(x|c)为样本标记c的类条件概率,或城似然;

7.2 极大似然估计

假设类条件概率具有确定的形式并被参数向量唯一确定,则任务就是利用训练集估计参数;

假设样本是独立同分布的,则参数对于数据集的似然:

通常使用对数似然,避免下溢:

此时的参数极大似然估计:

7.3 朴素贝叶斯分类器

基于属性条件独立性假设,可得到:

对于所有类别来说,分母是相通的,所以问题转化为:,即朴素贝叶斯分类器表达式;

其中:,对于连续值,假设服从正态分布:

当样本中某个属性值在训练集中没有与某个类同时出现过,则会造成概率为0的情况,此时需要拉普拉斯修正:


其中N为训练集D中可能的类别数,Ni为第i个属性可能的取值数;

7.4 半朴素贝叶斯分类器

独立依赖估计:

SPODE:假设所有属性依赖同一个属性,称为超父;

TAN:基于最大带权生成树算法,通过条件互信息构建完全图;

条件互信息:

AODE:尝试将每一个属性作为父类,构建SPODE,

7.5 贝叶斯网

贝叶斯网也成为信念网,借助有向无环图可换属性之间的依赖关系,并用条件概率表来描述属性的联合概率分布;

1.结构

贝叶斯网假设每个属性与他的非后裔属性独立,于是将属性的联合概率分布定义为:

三种依赖关系:同父结构、V型结构、顺序结构;

2.学习

实际中不知道网络结构,根据训练集找到恰当网络结构,需要评分函数:

3.推断

吉布斯采样,随机采样法;


第七章贝叶斯分类器,这一章开始涉及概率,需要一点概率的基础,一边学习一边查询公式,并且自己推导一遍会有更深的理解,再结合书上例子过一遍,后面的贝叶斯网和EM算法暂时没太深入,等以后需要的时候再做补充。

我的笔记做的比较粗糙,还请见谅。

有不正确或者不完整的地方,欢迎补充。

猜你喜欢

转载自blog.csdn.net/qq_38550836/article/details/77986400