01.机器学习入门

这是我在网易上学习斯坦福的CS229课程的笔记。
http://open.163.com/special/opencourse/machinelearning.html

这门课程的基础知识:
计算机科学的基本知识和基本技能以及原理
基本的概率统计知识
基本的线性代数知识

工具matlab或者octave
matlab的使用参考这里

Machine Learning机器学习:
Arthur Samuel(1959):在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域。
Tom Mitchell(1998):对于一个计算机程序来说,给他一个任务T和一个性能测量方法P,如果在经验E的影响下,P对T的测量结果得到了改进,那么就说改程序从E中学习。

1、Supervised Learning监督学习:
监督解决问题的算法,给算法提供了一组“标准答案”,使算法学习标准输入和标准答案之间的联系,以尝试对于我们的其他输入给我们提供更为标准的答案。
(1)Regression Problem回归问题:
需要预测的变量是连续的。
(2)Classification Problem分类问题:
需要预测的变量是离散的。

2、Unsupervised Learning无监督学习:
有一组数据,不知道数据的任何正确答案,找出其中的结构。
(1)Clustering Problem聚类问题

3、Reinforcement Learning强化学习
用在不需要进行只一次决策的情形中

可以在该课程的官方网站上下载讲义,不过我刚刚看了一下,似乎没有找到讲义下载的入口,我已经下载好了,一下图片大部分来自讲义,只不过是英文的。

机器学习的基本思想

这里写图片描述
根据已有的数据集(样本)设计采用合适的学习算法来寻找h(x)用以在已知x条件下预测y。

1、Linear Regression线性回归

这里讲前面列出的监督学习中的回归问题。
这里写图片描述这里写图片描述
n是特征(feture)数量。这里写图片描述参数矩阵。
寻找h(x)的过程就是寻找这里写图片描述的过程。
在机器学习里的东西似乎都是矩阵。
这里写图片描述
用以衡量h(x)对于给定数据集的拟合程度,越小拟合程度越高。
underfitting欠拟合、overfitting过拟合
找到h(x)完全拟合给定数据集(过拟合)不一定是最好的。
学习算法,以是否跟参数相关,可以分为2种,
parametric learning algorithm参数学习算法,参数的数量固定不变
non-parametric learning algorithms非参数学习算法,参数的数量随着样本变化

1.1、最小均方算法(Least Mean Squares,LMS)

由Widrow和Hoff提出。
这里写图片描述
这里写图片描述称步伐大小或者学习速率;
这里写图片描述是误差项,用于参数修正。
批梯度下降算法(Batch Gradient Descent)
这里写图片描述
水印不知道怎么去掉,上传图片就加了水印。
随机梯度下降算法/增量梯度下降算法(Stochastic Gradient Descent / Incremental Gradient Descent)
这里写图片描述

1.2、局部加权回归算法(Locally Weighted Linear Regression)

这是一种非参学习算法(non-parametric algorithm)。
在线性回归中,通常已知某一个x求h(x),即
这里写图片描述
加权回归是根据样本离x的远近乘以不同的权重
这里写图片描述
这里写图片描述
分母的那个符号表示权重变化的快慢,越大权重变化得越大,即离x很近的样本权重很大,而离x很远的样本很小。

1.3、正规方程组(The Normal Equations)

这里写图片描述

其实这些都是一个寻找局部最优的过程。
个人理解,线性回归最终统一到线性方程组中。

2、分类问题和二元回归(Classification and logistic regression )

分类问题是指所要预测的y是离散的
二元回归预测的结果只有两种结果,1或者0。
2.1、Logistic Regression逻辑回归/二元回归算法
这里写图片描述
这里写图片描述
2.2、The Perceptron Learning Algorithm感知器算法
这里写图片描述
这里写图片描述
这里写图片描述

未完,待续。

如果觉得此文章有用,点击这里,万分感谢。
这里写图片描述

猜你喜欢

转载自blog.csdn.net/qq_27607539/article/details/79317594
01.