sklearn官方文档1.5.7

scikit-learn 官方文档翻译学习

1.5.7 数学公式
来源:https://scikit-learn.org/stable/modules/sgd.html#mathematical-formulation

给定一组训练实例 ( x 1 , y 1 ) , , ( x n , y n ) , (x_1,y_1),\cdot\cdot\cdot,(x_n,y_n), 其中 x i R m x_i \in R^m ,和 y i { 1 , 1 } y_i \in \{-1,1\} ,需要学习目标函数 f ( x ) = w T x + b f(x)=w^Tx+b 。通过最小化训练误差来学得最佳参数 w , b w,b : E ( w , b ) = 1 n i = 1 n L ( y i , f ( x i ) ) + α R ( w ) E(w,b)=\frac{1}{n}\sum_{i=1}^{n}L(y_i,f(x_i))+\alpha R(w) 其中 L L 是经验损失函数, R R 是正则化项(惩罚项)。
通常 L L 可选的形式包括:

  • 合页函数(Hinge):支持向量机(软间隔)
  • 对数函数(log):逻辑回归
  • 最小平方差(Least-Suqares):岭回归
  • Epsilon敏感:(软间隔)支持向量回归
    以上所有这些损失函数都可以看做是 0 1 0-1 损失函数的上界限,如下图所示:
    在这里插入图片描述
    正则化项 R R 的通常选择以下三种:
    L2正则化: R ( w ) = 1 2 i = 1 n w i 2 R(w)=\frac{1}{2}\sum_{i=1}^{n}w_i^2 L1正则化(产生稀疏解): R ( w ) = i = 1 n w i R(w)=\sum_{i=1}^n|w_i| 弹性网络(Elastic Net,介于L1和L2之间) R ( w ) = ρ 2 i = 1 n w i 2 + ( 1 ρ ) i = 1 n w i R(w)=\frac{\rho}{2}\sum_{i=1}^{n}w_i^2+(1-\rho)\sum_{i=1}^{n}|w_i| 下图展示了对于当 R ( w ) = 1 R(w)=1 时,三个不同的正则化项的参数空间轮廓:
    在这里插入图片描述
    后记:
    损失函数是机器学习三要素(模型、策略、算法)中,策略一项的核心。最小化损失函数的期望(aka ,also known as 风险函数)是机器学习的目标。风险函数包括了经验风险和结构风险(正则化项,aka惩罚项)两部分。
    根据理解加深,本文会逐步完善。

猜你喜欢

转载自blog.csdn.net/houhuipeng/article/details/93770050