机器学习第2天：线性回归（理论篇）

文章目录

1. 前言
2. 什么是回归
3. 什么是线性
4. 什么是线性回归
5. 百度百科+维基百科
6. 一元线性回归
7. 损失函数
8. 梯度下降

------【机器学习第1天：线性回归（代码篇）】------

1. 前言

在上篇文章（线性回归-代码篇）中我们实现了用线性归回模型预测鸢尾花的花瓣宽度，上一篇更侧重代码的实现。在这篇文章中，我们会把重心放到理论知识上面。

2. 什么是回归

回归的目的是为了预测，比如上一篇文章中通过花瓣长度预测花瓣宽度

回归之所以能预测是因为它通过大量的花瓣长度与宽度数据，“弄懂了”花瓣长度与宽度之间的线性关系，在这个基础之上就可以通过花瓣长度预测花瓣宽度了。

3. 什么是线性

线性就是关系可以用线性方程来表示，通过一个或多个变量来表示另外一个变量。

通俗的说符合“越…，越…”这种说法的可能就是线性关系，比如

“房子”越大，“租金”就越高
“汉堡”买的越多，花的“钱”就越多
杯子里的“水”越多，“重量”就越大

但是也并非所有“越…，越…”都是线性的，比如“弹簧的弹力与位移的关系”，
在这里插入图片描述

4. 什么是线性回归

通过两个或多个变量之间的线性关系来预测结果。

通过鸢尾花的花瓣长度与宽度的线性关系来预测花瓣宽度，通过杯子里水的体积就可以知道（预测）水的重量

5. 百度百科+维基百科

百度百科：

线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。其表达形式为y = w’x+e，e为误差服从均值为0的正态分布。

回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

维基百科：

在统计学中，线性回归是一种线性方法，用于建模标量响应（或因变量）与一个或多个解释变量（或独立变量）之间的关系。一个解释变量的情况称为简单线性回归。对于多个解释变量，该过程称为多元线性回归。该术语不同于多元线性回归，其中预测了多个相关因变量，而不是单个标量变量。

6. 一元线性回归

一个简单的监督学习任务可以表示为，给定N个两两数据对，使用某种机器学习模型对其进行建模，得到一个模型。X为特征（feature），Y为真实值（label）。
在这里插入图片描述
例如，花瓣长度为特征(X)，花瓣宽度为真实值(Y)。可以比较直观的看出花瓣宽度与花瓣宽度存在一个线性关系，针对这个数据集，可以使用一个最简单的机器学习模型——一元线性回归。

一个元一次方程，对的。我们只需要给模型喂数据，然后通过一系列计算得到参数θ，随即就可以通过X的值推算出Y的值，即通过鸢尾花的花瓣长度推断出花瓣宽度。
在这里插入图片描述
那么问题来了，当我们选择不同的θ值时，会得到不同直线。那么如何选择θ的值使得我们得到的直线更好的拟合数据呢？