资料来源:百度技术学院视频:
http://bit.baidu.com/course/detail/id/137/column/117.html
声明:博主只是将资料中的视频整理为图片,在某些地方稍作编辑,为了方便查阅而已。本文绝大部分的智力产出都来源于视频资料。推荐看视频资料以获得更多内容。
一、模型?
模型,我的理解,就是函数的输入和输出之间的映射关系。如y=θx
二、模型的能力?
有两种,一是拟合的能力,看能否很好的拟合已有数据的值。二是泛化的能力,也叫预测的能力,即对位置数据的预测能力。
三、机器学习?
从数据中产生模型的过程。
四、假设函数?
用数学的方法描述自变量x和应变量y之间的关系。这种关系可以是线性的或非线性的,都有可能。
一般线性回归的假设函数为:
五、损失函数?
描述了假设函数的预测值和真实值之间的差异。
如均方误差损失函数:
比较复杂的损失函数:
六、梯度下降?
如下图所示:斜率为正时,θ向左移动(下图的上半部分),斜率为负时,θ向右移动(下图的下半部分的左侧)
七、超参数?
不是通过学习得到的,而是通过人为设定的参数,如学习率就是一个超参数。
八、学习率?
九、三种梯度下降优化框架?
批量梯度下降,随机梯度下降,小批量梯度下降。
红色的线是批量梯度下降BGD,粉红色的线是随机梯度下降SGD,可以看到随机梯度下降的随机性更强,因为它每次只有一条数据,并且数据是有随机性的。但是总体而言它还是会朝着全局最优的方向迭代。SGD可能不会训练到最佳点,但会在最佳点附近,其实也足够使用了。
十、问题建模?