生成模型--高斯判别+朴素贝叶斯

分类算法:

判别学习算法(logistic二元分类器,softmax分类器..)特点:直接去求条件概率分布 p(y|x; θ), 也表示为 hθ(x),重点是去拟合参数θ

生成学习算(中心思想是直接去求p(y|x; θ)很难,然后转而去求联合分布 p(x,y), 然后利用贝叶斯公式得到:p(y|x) = p(x|y) * p(y )/ p(x))

高斯判别分析(GDA)----------解决的是连续型随机变量的分类问题

                                      join density:P(x,z)=πiN(x|ui,Σi)

模型假设:

                                                               y~B(1,\phi)    假设问题的概率结构已知

                                          x|y=0~N(u0,Σ)     x|y=1~N(u1,Σ)  类别yi对样本的类条件概率密度PDF

                                                       p(y)=\phi ^{^{y}}(1-\phi )^{1-y}  先验概率

贝叶斯规则:                 p(y|x)p( x)=p(x,y)=p(x|y)p(y)

                                     P(y=?|x)=p(x|y=?)p(y=?)/p(x)  后验概率

                                                p(x)=Σp(x|y=?)

模型:              argmax_{y} P(y|x)=argmax_{y}P(x|y)P(y)     最大后验概率决策

含有     \phi \ \mu 0\ \mu 1\ \sum四个参数,用其估计去替换参数

MLE:

                                                             \phi =\frac{\sum_{i=1}^{m}Iy^{i}=1}{m}

                                                    \mu _{k}=\frac{\sum_{i=1}^{m}Iy^{i}=kx^{i}}{\sum_{i=1}^{m}Iy^{i}=k}\ k=0,1

                                                \sum =S^{2}=\frac{1}{m}(X-u_{y})^{T}(X-u_{y})

MAP:                    \hat{\Theta }_{MAP}=argmax_{\Theta }p(\Theta |X)=argmax_{\Theta }p(X|\Theta )p(\Theta )

当参数的先验分布是均匀分布时,MLE和MAP等价

贝叶斯估计:

协方差矩阵对角化/单位化:

对角化:主成分分析再写

单位化:白化变换:A=\Phi \Lambda ^{-1/2} 

协方差奇异矩阵时:求伪逆矩阵代替逆矩阵/正则判别分析

                         \sum (\beta )=(1-\beta )\sum +\beta I 对LDF做正则,加个小扰动

朴素贝叶斯(条件独立)--------------x 是 离散值(特征是连续值的情况,也可以采用分段来将连续值转化为离散值)

二分类                               

                                             P(y|x1,...,xn)=\frac{P(x1|y)P(x2|y)...P(xn|y)P(y)}{P(x1)P(x2)...P(xn)}   P(x|y)类别yi对样本的类条件概率质量PMF

因为分母与输入数据是常量相关:     P(y|x1,...,xn)\propto P(y)\prod P(xi|y)

模型:                                                        \hat{y}=argmaxyP(y)Πni=1P(xi|y)

参数估计:

                                                 p(y=1)=\phi y=\frac{\sum I{y(i)=1}}{m}

                                    p(xj=1|y=K)=\phi j|_{y=K} =\frac{\sum I{(x(i)j=1)\Lambda (y(i)=K)}}{\sum I{y(i)=K}}

最小错误率决策等价于最大后验概率决策

   平均错误率  : J(\Theta )=\int _{x}P(error,x)dx=\int _{x}P(error|x)P(x)dx

最小风险决策(期望风险最小化):(不同于收益最大化一个是风险厌恶型的,一个是风险偏好型的

y∈{1,2....C}用one-hot表示y属于哪一类:y=(0,1,0...0)∈R^c  属于i类后验概率aj(x)  a(x)∈R^c

损失函数:   

0-1损失函数                                   L(y,a(x))=1,if y!=a(x) else 0

平方损失函数:                             L(y,a(x))=(y-a(x))^2

交叉熵损失函数:                       L(y,a(x))=-log a_{y}(x)^{}

合页损失函数:标签-1,1             L(y,a(x))=max{0,1-ya(x)}

期望(经验)风险(大数定理保证):                         R_{exp}(a)=E L(y,a(x))=\int _{x}\int _{y}L(y,a(x))P(x,y)dxdy=E_{x} R(a(x)|x)

其中                                                          R(ai|x)=\sum_{i=1}^{c}\lambda ijP(wj|x)

条件风险与平均错误率关系:风险a(x) 是错误率的一个替代品

选择对于每个样本都保证条件风险尽可能小的分类规则 ,将使期望风险最小化===>argminR(ai|x)

取损失函数为0-1 函数,最小风险决策退化为最小错误决策:

                                     R(ai|x)=\sum_{i=1}^{c}\lambda ijP(wj|x)=\sum_{j!=i}^{}P(wj|x)=1-P(wi|x)

猜你喜欢

转载自blog.csdn.net/weixin_42492025/article/details/83538536