监督学习1-线性回归

线性回归

可以认为是多项式回归的一个特例吧，最高次幂是1的多项式回归。可以有多个参数或者叫维度。
所有的课程都很热衷于用房价来展示，看来国内外都不可避免。
这里写图片描述
也有用虫子与温度关系表示：

这里， $x$ 是属于 $R^1$ 的向量，只有一个维度， $x_1$ 表示每分钟的虫子名叫次数。为了根据虫子鸣叫的次数预测温度，我们可以通过一个线性方程表达。
$h_\theta(x)=\theta_0+\theta_1x_1$
这里 $\theta_i$ 称为参数（也称为权重），推广到一般形式，当参数有多个的时候，如下面的公式表示：
$h(x)=\sum_{i=0}^n \theta_ix_i=\theta^Tx$
这个就转成矩阵的表达方式。（机器学习中，很多都是转成了矩阵的方式，这让我很多时候理解起来比较困难，主要是线性代数扔的太久了，好多特性和符号都忘记了。不过要是想学好机器学习，线性代数非常必要，得重新捡起来。）

既然设计了预测的函数，就碰到一个在现在机器学习里非常重要的问题，就是如何衡量结果的好坏。这个非常重要，至少在我看来，现在大部分的算法都是确定了一个模型之后，把主要的工作和精力都放在计算结果好坏了上，用了各种最优化的方法，做这些事情。不过我还在初学阶段，等后面学多了说不定有不同的东西。

线性回归，教程提出的衡量结果好坏都是用方差来表示，定义了一个损失函数(cost function):
$J(\theta)=\frac{1}{2}\sum_{i=1}^m (h_\theta(x^i)-y^i)^2$
从图中可以看出不同的 $\theta$ 选择会出现不同的损失
这里写图片描述
我们的目标就变成了找到一组合适的 $\theta$ ，使得函数 $J(\theta)$ 最小

总结下我现在得到的东西：
机器学习，或者说监督学习，通过构造一个确定的模型(估计就是我们以后学习的不同算法，线性回归、决策树、支持向量机等)，明确需要的输入数据(看起来输入数据是向量的集合，每条数据是一个向量，构造了一个巨大的矩阵),最后明确损失函数。这样一个算法的构造就完成了，后续的工作就是找到一组参数，使得损失函数最小。把现实问题转换成了一个最优化问题，不知道我这样的理解对不对。

如果这样的话，人参与的内容也会比较多，需要选取足够的特征，构造精巧的模型才行，可能这就是现在深度学习流行的原因吧，貌似这些都可以机器自己搞定。

希望能随着学习的深入更加明确，加油~

监督学习1-线性回归

线性回归

猜你喜欢