机器学习(回归问题)

逻辑回归

  • sigmoid函数

s i g m o i d ( x ) = 1 1 e x sigmoid\big(x\big)=\frac{1}{1-e^{-x}}

  • 损失函数(二元交叉熵损失)

C o s t ( h θ ( x ) , y ) = { l o g ( h θ ) i f y = = 1 l o g ( 1 h θ ( x ) ) i f y = = 0 Cost\big(h_\theta\big(x\big),y\big)=\begin{cases} -log\big(h_\theta\big) &if &y==1\\-log\big(1-h_\theta\big(x\big)\big)&if&y==0\end{cases}

上式中 h θ = s i g m o i d ( θ T x ) h_\theta=sigmoid\big(\theta^T x\big)

  • 综合损失函数

J ( θ ) = 1 m i = 1 m c o s t ( h θ ( x i ) , y i ) = 1 m [ i = 1 m y i l o g h θ ( x i ) + ( 1 y i ) l o g ( 1 h θ ( x i ) ) ] J\big(\theta\big)=\frac{1}{m}\sum\limits_{i=1}^mcost\big(h_\theta\big(x^i\big),y^i\big) =-\frac{1}{m}\big[\sum\limits_{i=1}^my^ilogh_\theta\big(x^i\big)+\big(1-y^i\big)log\big(1-h_\theta\big(x^i\big)\big)\big]

  • 正则化后的损失函数( L 2 L_2 函数)

J ( θ ) = 1 m [ i = 1 m y i l o g h θ ( x i ) + ( 1 y i ) l o g ( 1 h θ ( x i ) ) ] + λ 2 m j = 1 n θ j 2 J\big(\theta\big)=-\frac{1}{m}\big[\sum\limits_{i=1}^my^ilogh_\theta\big(x^i\big)+\big(1-y^i\big)log\big(1-h_\theta\big(x^i\big)\big)\big]+\frac{\lambda}{2m}\sum\limits_{j=1}^n\theta_j^2

  • 逻辑回归求极值

逻辑回归的综合损失函数是一个凸函数,因此可以使用梯度下降法直接求最小值

  • 二分类与多分类
  1. one vs one

将N个类别两两配对,形成 N ( N 1 ) / 2 N\big(N-1\big)/2 个分类任务。再测试阶段,新样本被提交给所有而分类器,然后我们将得到 N ( N 1 ) / 2 N\big(N-1\big)/2 个分类结果,最终结果可通过投票产生:即把被预测得最多的类作为最终分类结果

  1. one vs rest

将一个类的样例作为正例,其他所有类的样例最为反例来训练N个二分类器。然后选择置信度最大的类别作为分类结果

线性回归

  • MSE损失函数
    L ( θ ) = 1 2 m i = 1 m ( y ^ y ) 2 L\big(\theta\big)=\frac{1}{2m}\sum\limits_{i=1}^{m}\big(\hat y-y\big)^2
    L ( θ ) = 1 2 m i = 1 m ( θ T x y ) 2 L\big(\theta\big)=\frac{1}{2m}\sum\limits_{i=1}^{m}\big(\theta^Tx-y\big)^2

  • 损失函数对应的梯度

L θ k = 1 m i = 1 m ( θ T x i y i ) x k i L^\prime_{\theta_k}=\frac{1}{m}\sum\limits_{i=1}^m\big(\theta^Tx^i-y^i\big)x^i_k

扫描二维码关注公众号,回复: 5122125 查看本文章
  • 更新方程

θ k : = θ k η L θ k \theta_k:=\theta_k-\eta L^{\prime}_{\theta_k}
θ k : = θ k η ( 1 m i = 1 m ( θ T x i y i ) x k i ) \theta_k:=\theta_k-\eta \big(\frac{1}{m}\sum\limits_{i=1}^m\big(\theta^Tx^i-y^i\big)x_k^i\big)

  • 从上式可知每个 θ \theta 的更新都需要使用训练集中的所有样本因此提出了以下解决方案
  1. 随机梯度下降法

每次只取其中的一个条数据参与 θ \theta 的更新

  1. 小批量梯度下降法

每次取其中的一部分数据参与 θ \theta 的更新

持续更新中…

  • 归一化
  • 正则化

猜你喜欢

转载自blog.csdn.net/weixin_42150936/article/details/85566916
今日推荐