分类算法:
判别学习算法(logistic二元分类器,softmax分类器..)特点:直接去求条件概率分布 p(y|x; θ), 也表示为 hθ(x),重点是去拟合参数θ
生成学习算(中心思想是直接去求p(y|x; θ)很难,然后转而去求联合分布 p(x,y), 然后利用贝叶斯公式得到:p(y|x) = p(x|y) * p(y )/ p(x))
高斯判别分析(GDA)----------解决的是连续型随机变量的分类问题
join density:P(x,z)=πiN(x|ui,Σi)
模型假设:
y~B(1,) 假设问题的概率结构已知
x|y=0~N(u0,Σ) x|y=1~N(u1,Σ) 类别yi对样本的类条件概率密度PDF
先验概率
贝叶斯规则: p(y|x)p( x)=p(x,y)=p(x|y)p(y)
P(y=?|x)=p(x|y=?)p(y=?)/p(x) 后验概率
p(x)=Σp(x|y=?)
模型: 最大后验概率决策
含有 四个参数,用其估计去替换参数
MLE:
MAP:
当参数的先验分布是均匀分布时,MLE和MAP等价
贝叶斯估计:
协方差矩阵对角化/单位化:
对角化:主成分分析再写
单位化:白化变换:
协方差奇异矩阵时:求伪逆矩阵代替逆矩阵/正则判别分析
对LDF做正则,加个小扰动
朴素贝叶斯(条件独立)--------------x 是 离散值(特征是连续值的情况,也可以采用分段来将连续值转化为离散值)
二分类
P(x|y)类别yi对样本的类条件概率质量PMF
因为分母与输入数据是常量相关:
模型:
参数估计:
最小错误率决策等价于最大后验概率决策
平均错误率 :
最小风险决策(期望风险最小化):(不同于收益最大化一个是风险厌恶型的,一个是风险偏好型的)
y∈{1,2....C}用one-hot表示y属于哪一类:y=(0,1,0...0)∈R^c 属于i类后验概率aj(x) a(x)∈R^c
损失函数:
0-1损失函数 L(y,a(x))=1,if y!=a(x) else 0
平方损失函数: L(y,a(x))=(y-a(x))^2
交叉熵损失函数:
合页损失函数:标签-1,1 L(y,a(x))=max{0,1-ya(x)}
期望(经验)风险(大数定理保证):
其中
条件风险与平均错误率关系:风险a(x) 是错误率的一个替代品
选择对于每个样本都保证条件风险尽可能小的分类规则 ,将使期望风险最小化===>argminR(ai|x)。
取损失函数为0-1 函数,最小风险决策退化为最小错误决策: