coursera—吴恩达Machine Learning笔记（1-3周）

Machine Learning 笔记

笔记主要按照进度记录上课主要内容和部分代码实现，因为我会看一阶段再进行整理，内容会有一定交叉。关于代码部分，一开始我是只为了做作业而写代码的，现在觉得不妨仔细看一遍老师给的代码，把其当作一个技能语言去学习，所以在分享时也会把老师的代码一起放进来。

错误之处欢迎指正，欢迎一起讨论。

l 第一周

　　首先这门课要求的数学功底比较低，偏向于应用（用吴恩达的话说是如何像木匠大师那样使用工具），属于基础课程，主要讲监督学习和非监督学习，没有涉及算法背后的理论。

监督学习和非监督学习的区别是（我的理解），在你训练的时候有没有告诉数据集对应的真实的y，监督学习是会告诉训练的输入数据应得到的输出是多少的，而非监督学习则是去寻找输入数据背后的结构、规律。典型的监督学习问题如回归和分类。

下面通过比较简单的只有一个变量的线性回归来熟悉一些基本概念，整理如下：

图1-1

介绍完上述概念后，引入损失函数（Cost Function）概念，来显示预测值和实际值之间的偏离。在线性回归中，损失函数表达如下：

图1-2

其中，在只有一个自变量时，。正像上面说的那样，这个损失函数只是在线性回归中的形式，在不同的模型中，损失函数会有不同的形式，而这和接下来要涉及的梯度下降法（Gradient Descent）有关。

特别注意的损失函数和hypothesis的自变量是不一样的，在hypothesis中自变量是x，而损失函数中自变量是。我们只有知道才能求预测值，接着才能算某一个对应的损失函数值，而我们不确定的、最终要求的参数都是。这一层关系一定要明确。

现在来看下我们怎么确定。我们其实最终的愿望是找到使预测值和实际值相差最小的，而这部分体现在损失函数中，我们的目标函数即：

现在我们有两种方法，一个是直接在损失函数两边对求导，直接算出使损失函数取得极值的；另一种方法则是梯度下降法（Gradient Descent），通过迭代来求得合理的。

虽然对梯度下降法背后的原理不理解，但是通过直观的图形还是比较清楚的了解其大概原理（以吴恩达老师上课举的下坡为例）。但是我们需要注意的是，当函数较为复杂时，梯度下降法无法保证找到全局最优解，可能会收敛到局部最优解，即和最初的选择有一定关系。现在我们再来回答上面提到的损失函数有不同形式的问题，因为梯度下降法无法保证找到全局最优解，当损失函数不合适时（局部解很多时），找到的模型的预测效果并不是很好。（这里会涉及到凸优化(convex optimization)的内容）。在线性模型中，我们找到的损失函数是类似碗形状的，是一定会找到全局最优解的。

现在我们来看下在线性回归模型中参数的迭代过程：

图1-3

即（抱歉我没找到求偏导的符号，用delta来代替）：

图1-4

其中表示的是赋值符号，在处已补全为1，这样即使对于偏执项上述公式仍可以满足。表示学习率，是一个我们需要选择的参数，如何进行选择会涉及第二周的内容，放到第二周的内容里。

l 第二周

　　这周仍然讲线性回归，讲了些在实际应用中注意的技巧，也会有相关的编程作业。

　　先从feature scaling说起，在实际应用中，常常会对不同取值范围的变量x进行回归。但是当取值范围差异很大时，以二元为例，我们得到的等值线（为了方便，我这样称呼它）会是一个长轴和短轴差别很大（很扁）的椭圆。这样的图形会使得我们迭代的次数增多，而当其为圆形时，迭代次数最少（不是很理解其原理）。

根据上述，在进行回归之前，如果我们对变量（这里注意不是变量）进行标准化处理的话，计算的效率会得到提高。常用的标准方法为：

图2-1

　　因为之前概率和统计的公式背的比较死，自己理解的只有样本标准差，老师上课提及也可以用极差。

　　下面谈一下学习率选择的问题。可以画出损失函数和迭代次数的图像来观察学习率选择是否合适，如果学习率选择合适的话，损失函数是随着迭代次数逐渐下降的。

如果选择的学习率过小，那么收敛速度会过慢，迭代次数较多；如果学习率选择的过大的话，损失函数可能会不收敛。可以用上面提到的画迭代-损失函数图像来判断学习率是否选择合适了。

　　下面讲的内容时多项式回归（polynomial regression），（在开始前一直有个问题，和进行回归会不会有多重共线的问题，一年前学的应用统计学都忘记的差不多了，不敢和胡平老师打招呼了。好吧，我就算是学得很好，我也不会和胡平老师打招呼的）。我们之前讨论的都是线性回归，在生活中我们也会遇到非线性的问题，我们可以增加次方项来提高模型的应用性。我们仍用上述的损失函数和迭代关系计算参数。

因为线代知识和Normal equation或者比较简单，或者我解释不清楚（比如pseudo invert），这里就略过了，下面分享下我写代码的思路。

因为word不好敲代码，我直接复制粘贴代码和注释了。

读入数据数据文件，并进行切片，划分出自变量和因变量。m代表样本数。并画出图像。