关于机器学习的学习笔记

1　关于人工智能、机器学习等各类名词的关系

可以看到，深度学习是机器学习的一个子集（不过这篇笔记主要记录一些传统的机器学习方法）。而且需要明确的是：深度学习和监督学习、非监督学习、强化学习这些概念，并不是按照同一个分类标准分出来的不同机器学习方法。

2　监督学习中的分类与回归

监督学习：利用一组带标签的数据，学习从输入到输出的映射，然后将这种映射关系应用到未知数据，达到分类或者回归的目的。

2.0　标称型数据和数值型数据

标称型数据：标称型目标变量的结果只在有限目标集中取值，如真与假（标称型目标变量主要用于分类）。

数值型数据：数值型目标变量则可以从无限的数值集合中取值，如0.100，42.001等（数值型目标变量主要用于回归）。

2.1　分类

分类：当输出是离散的，学习任务为分类任务；即分类主要用于预测标称型数据。

常见的分类方法有：k-近邻（kNN），朴素贝叶斯（Naive Bayes），支持向量机（SVM）, 决策树（Decision Tree）。

有一个需要注意的方法是：Logistic回归，虽然名字里带“回归”，但它实际上是一种分类方法。

2.2　回归

回归：当输出是连续的，学习任务是回归任务；即回归主要用于预测数值型数据。

回归分析（Regression Analysis）是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

回归分析按照涉及的变量的多少，分为一元回归和多元回归分析；按照自变量的多少，可分为简单回归分析和多重回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且自变量之间存在线性相关，则称为多重线性回归分析。

多元和多重的区别：多重回归的英文是“multiple regerssion”，而多元回归是“multivariate regression”。两者是不同的概念，前者是一个因变量与多个自变量间的回归，后者是多个因变量与多个自变量间的回归。

3　线性回归

回归，最直接的办法是直接写出一个计算目标值的公式，假如你想要预测姐姐男友汽车的功率大小（Machine Learning in Action 这本书里这么举例子的），例如你自己琢磨出来可以这么计算：

$HorsePower = 0.0015 \times annualSalary - 0.99 \times hoursListeningToPublicRadio$

不管它是不是对的，总之我们有这么一个公式可以用来计算汽车的功率了。这就是一个回归方程（Regression Equation），而其中的 $0.0015$ 和 $-0.99$ 称作回归系数（Regression Weights）。当然，这两个回归系数是臆想出来的，我们可以去实际调查若干辆汽车，我们就会得到若干条关于 $HorsePower$、$annualSalary$ 和 $hoursListeningToPublicRadio$ 的数据，我们可以想出一些办法，用这些真实的数据，去求出更加可靠的回归系数，这样一个过程就是回归。