监督学习1-线性回归

线性回归

可以认为是多项式回归的一个特例吧,最高次幂是1的多项式回归。可以有多个参数或者叫维度。
所有的课程都很热衷于用房价来展示,看来国内外都不可避免。
这里写图片描述
也有用虫子与温度关系表示:
这里写图片描述
这里, x 是属于 R 1 的向量,只有一个维度, x 1 表示每分钟的虫子名叫次数。为了根据虫子鸣叫的次数预测温度,我们可以通过一个线性方程表达。
h θ ( x ) = θ 0 + θ 1 x 1
这里 θ i 称为参数(也称为权重),推广到一般形式,当参数有多个的时候,如下面的公式表示:
h ( x ) = i = 0 n θ i x i = θ T x
这个就转成矩阵的表达方式。(机器学习中,很多都是转成了矩阵的方式,这让我很多时候理解起来比较困难,主要是线性代数扔的太久了,好多特性和符号都忘记了。不过要是想学好机器学习,线性代数非常必要,得重新捡起来。

既然设计了预测的函数,就碰到一个在现在机器学习里非常重要的问题,就是如何衡量结果的好坏。这个非常重要,至少在我看来,现在大部分的算法都是确定了一个模型之后,把主要的工作和精力都放在计算结果好坏了上,用了各种最优化的方法,做这些事情。不过我还在初学阶段,等后面学多了说不定有不同的东西。

线性回归,教程提出的衡量结果好坏都是用方差来表示,定义了一个损失函数(cost function):
J ( θ ) = 1 2 i = 1 m ( h θ ( x i ) y i ) 2
从图中可以看出不同的 θ 选择会出现不同的损失
这里写图片描述
我们的目标就变成了找到一组合适的 θ ,使得函数 J ( θ ) 最小

总结下我现在得到的东西:
机器学习,或者说监督学习,通过构造一个确定的模型(估计就是我们以后学习的不同算法,线性回归、决策树、支持向量机等),明确需要的输入数据(看起来输入数据是向量的集合,每条数据是一个向量,构造了一个巨大的矩阵),最后明确损失函数。这样一个算法的构造就完成了,后续的工作就是找到一组参数,使得损失函数最小。把现实问题转换成了一个最优化问题,不知道我这样的理解对不对。

如果这样的话,人参与的内容也会比较多,需要选取足够的特征,构造精巧的模型才行,可能这就是现在深度学习流行的原因吧,貌似这些都可以机器自己搞定。

希望能随着学习的深入更加明确,加油~

猜你喜欢

转载自blog.csdn.net/lantern_wu/article/details/81742057