scikit-learn 官方文档翻译学习
1.5.7 数学公式
来源:https://scikit-learn.org/stable/modules/sgd.html#mathematical-formulation
给定一组训练实例
(x1,y1),⋅⋅⋅,(xn,yn),其中
xi∈Rm,和
yi∈{−1,1},需要学习目标函数
f(x)=wTx+b。通过最小化训练误差来学得最佳参数
w,b:
E(w,b)=n1i=1∑nL(yi,f(xi))+αR(w)其中
L是经验损失函数,
R是正则化项(惩罚项)。
通常
L可选的形式包括:
- 合页函数(Hinge):支持向量机(软间隔)
- 对数函数(log):逻辑回归
- 最小平方差(Least-Suqares):岭回归
- Epsilon敏感:(软间隔)支持向量回归
以上所有这些损失函数都可以看做是
0−1损失函数的上界限,如下图所示:
正则化项
R的通常选择以下三种:
L2正则化:
R(w)=21i=1∑nwi2L1正则化(产生稀疏解):
R(w)=i=1∑n∣wi∣弹性网络(Elastic Net,介于L1和L2之间)
R(w)=2ρi=1∑nwi2+(1−ρ)i=1∑n∣wi∣下图展示了对于当
R(w)=1时,三个不同的正则化项的参数空间轮廓:
后记:
损失函数是机器学习三要素(模型、策略、算法)中,策略一项的核心。最小化损失函数的期望(aka ,also known as 风险函数)是机器学习的目标。风险函数包括了经验风险和结构风险(正则化项,aka惩罚项)两部分。
根据理解加深,本文会逐步完善。