机器学习:李宏毅:概率分布生成概率模型

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/qq_45056216/article/details/102770721

1.概率分布

由于前面学习的是回归,因此我们通过回归的方法来查看概率分布
分类是class 1 的时候结果是1
分类为class 2的时候结果是-1;
测试时,如果结果接近1的是class1 ,如果结果接近-1的是class2。
在这里插入图片描述
但是呢,这只是看起来很美丽,但是如果当结果远远大于1的时候,他的分类应该是class1还是class2呢? 我们为了降低整体误差,需要调整已经找到的分类函数,这样会导致实际结果的不准确。
在这里插入图片描述
因此对于概率分布的类型题目我们不能使用回归的方法去解决。

依旧遵循机器学习的三步走:
1.设计一个model
我们根据李宏毅老师的视频使用二分类为例:
在这里插入图片描述
2.loss function (损失函数)在这里插入图片描述
3.找到最好的函数
使用(perceptorn,SVM)两种方法。

2.概率生成模型

根据李宏毅老师的视频中我们设计了两个盒子box1和box2 假设我们重盒子里面拿出来的蓝球为p(b1) = 2/3 , 则绿球的概率p(b2) = 1/3 假设p(b1|x)>0.5说明x属于box1;反之则属于box2。
在这里插入图片描述
因此盒子来自box1的概率为:
在这里插入图片描述
其中这里面涉及有关数论的知识,由于本身没有学过,所以里面有些内容不是很理解。
我们假设这种概率分布模型是高斯分布(因为是最常见的分布类型),根据概率论中的中心极限定理告诉我们答案,所以我们选择的高斯分布。
在这里插入图片描述
相关理解可以查阅网站:

关于多维度的高斯分布(正态分布)

其中均值为μ,协方差为∑(用来表示一组数据的波动大小的)
根据李宏毅老师的视频中我们假设有79组宝可梦数据,因此:在这里插入图片描述
我们计算得出μ和∑的值

3.解决分类问题

(李宏毅老师的例子)
开始我们的分类问题:
我们要进行二分类,分别是水系的怪物精灵和一般的怪物精灵,我们计算得到他们的高斯分布分别为
在这里插入图片描述
我们就可以用第一部分的概率分布公式计算x的分类了,水系p(C1),非水系p(C2)分别在数据中就可以简单计算,p(x∣C1),p(x∣C2)由它们概率密度函数推导求解得到(积分)。如果P(C1|x)>0.5,说明x属于水系
如果P(C1|x)>0.5,说明x属于水系。

但是得到的结果的正确率只有54%。
分析一下原因,是由于两类额协方差导致参数过多,那我们让协方差共享∑\sum∑,减少协方差的种类。
在这里插入图片描述
这样正确率就达到了73%在这里插入图片描述
本图片,公式均引用自李宏毅老师的机器学习。
以上是我对李宏毅老师视频学习的笔记记录。

猜你喜欢

转载自blog.csdn.net/qq_45056216/article/details/102770721