从线性回归到最小二乘法和梯度下降法 - 代码天地

从线性回归到最小二乘法和梯度下降法

编程语言 2019-01-19 11:15:23 阅读次数: 0

线性回归

如下图，要对样本点进行线性拟合，求得使预测尽可能准确的函数，这个过程就是线性回归

线性函数

单变量

上升到两个变量即为如下形式

两个变量

image

多个变量即可以写成

多变量

我们可以使用误差平方和（几何中可视为欧式距离的平方）来度量回归任务的性能。

那么我们如何找到一条直线，使所有样本到直线地距离之和最小呢？ 这就是最小二乘法（least square method）————基于误差平方和最小化来进行模型求解.

如果上升到更高维的空间，我们如何解释最小二乘呢。下面一小节尝试使用最大似然估计来解释最小二乘的合理性。

从最大似然解释最小二乘

线性回归似然函数如下

似然函数

假设误差是独立同分布的，服从均值为 0，方差为 σ 平方的高斯分布（中心极限定理）。

中心极限定理的意义

实际问题中，很多随机现象可以看做众多因素的独立影响的综合反应，往往近似服从正态分布

城市耗电量：大量用户的耗电总和

测量误差：许多观察不到的、微小误差的总和

注：应用前提是多个随机变量的和，有些问题是乘性误差，则需要鉴别或者取对数后再使用

根据以上，有概率密度以及似然估计

概率密度-似然估计

求解似然函数，将其取对数

求解似然函数

要使 l(θ) 最大，则上式减号右边的式子最小，即下式最小。下式形式与最小二乘相同，由此可解释最小二乘的合理性。

image

最小二乘与极大似然的区别

最小二乘法：即观测值与实际数据误差平方和最小，其没有假设，几何意义上就是距离最小
最大似然估计：估计参数可能值，使样本发生概率最大

最小二乘求解

将 m 个 n 维样本组成矩阵 X，每行对应一个样本，每列对应一个维度，额外一维常数项，全为 1

目标函数

目标函数

对上式求梯度

求梯度

令其最小，求驻点，则有

求驻点

损失函数增加正则项防止过拟合

常见的有以下三种

L1-norm (LASSO)

L1 正则

L1 正则可以做特征选择
L2-norm (Ridge)

L2 正则

L2 正则比较常用
Elastic Net

Elastic Net

结合 L1 和 L2

梯度下降法 (Gradient Descent)

接下来我们使用梯度下降法来求解上文中的目标函数 J(θ) ,步骤如下

随机初始化 θ
沿着负梯度方向迭代，使更新后的 θ 令 J(θ) 更小，公式如下

迭代公式

α 为学习率、步长
当下降到无法下降或某个定义的极小值时，则停止下降。

注：梯度下降的最终点并非是全局最小点，可能是一个局部最小点

梯度下降

梯度方向，偏导数计算

偏导

批量梯度下降法（Batch Gradient Descent）

批量梯度下降法，是梯度下降法最常用的形式，具体做法也就是在更新参数时使用所有的样本来进行更新，也就是上文中的计算方法

批量梯度下降

随机梯度下降法（Stochastic Gradient Descent）

随机梯度下降法，其实和批量梯度下降法原理类似，区别在与求梯度时没有用所有的m个样本的数据，而是仅仅选取一个样本来求梯度。

随机梯度下降

对于训练速度来说，随机梯度下降法由于每次仅仅采用一个样本来迭代，训练速度很快，而批量梯度下降法在样本量很大的时候，训练速度不能让人满意。对于准确度来说，随机梯度下降法用于仅仅用一个样本决定梯度方向，导致解很有可能不是最优。对于收敛速度来说，由于随机梯度下降法一次迭代一个样本，导致迭代方向变化很大，不能很快的收敛到局部最优解。

小批量梯度下降法（Mini-batch Gradient Descent）

小批量梯度下降法是批量梯度下降法和随机梯度下降法的折衷，也就是对于m个样本，我们采用x个样本来迭代，即若干个样本的平均梯度作为更新方向，1<x<m。一般可以取 x=10，当然根据样本的数据，可以调整这个x的值。

作者：Skye_kh
链接：https://www.jianshu.com/p/1c86f9770aa7
來源：简书

猜你喜欢

转载自blog.csdn.net/FANGUOHAO/article/details/86549966

从线性回归到最小二乘法和梯度下降法

Python-多元线性回归方程比较最小二乘法与梯度下降法

线性回归之最小二乘法、梯度下降法，以及经验风险、期望风险和结构风险

最小二乘法和梯度下降法

机器学习之--梯度下降和最小二乘法算线性回归

最小二乘法与梯度下降法的区别

最小二乘法，梯度下降法

机器学习：最小二乘法、梯度下降法

机器学习之线性模型-最小二乘法、梯度下降法

随机梯度下降法和最小二乘法的TensorFlow实现

最小二乘法(牛顿法和随机梯度下降法)

最小二乘法和梯度下降法有哪些区别？

最优化算法【最小二乘法和梯度下降法】

线性回归算法实现（最小二乘法，梯度下降）

13_线性回归分析、线性模型、损失函数、最小二乘法之梯度下降、回归性能评估、sklearn回归评估API、线性回归正规方程，梯度下降API、梯度下降和正规方程对比

最小二乘法和梯度下降的区别

一文全解经典机器学习算法之线性回归（关键词：回归分析、最小二乘法、极大似然估计、梯度下降法、逻辑回归、对数几率、线性判别分析）

最小二乘法、梯度下降法以及最大似然法之间区别整理

最优化方法——最小二乘法与梯度下降法

线性回归-最小二乘法

线性回归与最小二乘法

线性回归（最小二乘法）

线性回归——最小二乘法

线性回归(最小二乘法)

最小二乘法及线性回归

线性回归模型和最小二乘法

最小二乘法—梯度下降专题

梯度下降与最小二乘法的区别（详解）

最小二乘法，回归，线性回归，Logistic回归

python实现线性回归之最小二乘法，最小二乘法详解

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)