机器学习入门03

视频随笔记
从3-4开始，话不多说，开始学习

3-基本是，线性代数的一些基本内容
3-4，矩阵乘法，打包数据运算给计算机。

Octave求解矩阵运算

4-1
x行数表示，训练样本的特征量，
多元线性回归，多个x,多个系数，矩阵的内积
系数矩阵的转置*未知数矩阵，x0=1
4-2
理解线性梯度下降运算的运算，单个特征与多个特征的区别
4-3
特征缩放，
假设，2个变量，变量的取值范围相差很大（x1(1-5),x2(0-2000)），这会导致，梯度下降算法的轮廓图特别瘦长，通到全局最小的路径，更加便捷。
特征缩放，就是（x1/5 x2/2000）,所重新画出来的轮廓图，更加清晰明了。
x1,x2变量范围都在(0,1)间，更快收敛，得到局部最小值
特征缩放的变量范围一般是（-1<=x<=1）
上下限差别不大，不等于±1并不重要，（±3，±1/3-0）可接受

均值归一化
x1=x1-(x的）平均值/最大值（特征max-min）
得到心得范围，并不需要太精确，加速特征梯度下降

学习率a
确定梯度下降算法正确工作，
迭代步数与局部最小值得函数图像，确定收敛与否

函数图像一般是下降的

如果图像上升，就应该使用更小的学习率
大的学习率会超过最小值，达不到最小值
图像先下后上，循环往复的，
同理，
学习率够小，图像都会下降，
太小了，图像就会收敛的很慢，需要迭代多次
每隔10倍，尝试一个a值
E.g：（0.001,0.003,0.01,0.03,0.1,0.3,1,……）

4-5多项式回归，
线性回归，选择特征，创造新特征，从什么角度审视问题，得到不同的模型，
多元线性回归，多项式（一次函数，二次三次函数）拟合到数据上

4-6标准方程法
与梯度下降的迭代算法相比，可以一次性解出，局部最小值（最优值）

遍历偏微分，导数置零，
所有的特征训练集，所有的特征向量，x放到一个矩阵，y放到m维向量，
m训练样本数量，n是特征变量数，需要求解x转置*x的逆，
该方法，不需要特征变量归一化，

特征数量很大，是用梯度下降，n=>>10000~
100-10000-标准方程法

4-7正规方程
不可逆性
正规方程与现行回归，
奇异矩阵，正则化，通过删除某些特征或者使用某些技术，解决问题，

5-1
Octave向量化，MATLAB，
做作业，

机器学习入门03

猜你喜欢