损失函数与风险函数
* 损失函数度量模型一次预测的好坏
* 风险函数度量平均意义下模型预测的好坏
损失函数
- 平方损失函数: L(Y, f(X)) = (Y - f(X))2
- 对数似然损失函数: L(Y, P(Y|X)) = -logP(Y|X) RP: 为什么不直接用-P(Y|X)
- 模型f(X)关于联合分布P(X, Y)的平均意义下的损失, 称为风险函数(risk function)或期望损失(expected loss), 及R
exp(f)
期望风险与经验风险
- 期望风险Rexp(f)是模型关于联合分布的期望损失
- 经验风险Remp(f)是模型关于训练样本集的平均损失
- 根据大数定律, 当样本容量趋于无穷时, 经验风险趋于期望风险
经验风险最小化
- 当模型是条件概率分布, 损失函数是对数损失函数时, 经验风险最小化就等价于极大似然估计(maximum likelihood estimation)
结构风险最小化
- 结构风险最小化等价于正则化, 防止过拟合
- 结构风险在经验风险上加上表示模型复杂度的正则化项或罚项
- 贝叶斯估计中的最大后验概率估计就是结构风险最小化. 当模型是条件概率分布, 损失函数是对数损失函数, 模型复杂度由模型的先验概率表示时, 结构风险最小化等价于最大后验概率估计. RP: 不懂