-“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。
-“机器学习是对能通过经验自动改进的计算机算法的研究”。
-“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”
-英文定义：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

二、机器学习和数据挖掘的关系

机器学习是数据挖掘的重要工具。
数据挖掘不仅仅要研究、拓展、应用一些机器学习方法，还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实际的问题。
机器学习的涉及面更宽，常用在数据挖掘上的方法通常只是“从数据学习”，然则机器学习不仅仅可以用在数据挖掘上，一些机器学习的子领域甚至与数据挖掘关系不大，例如增强学习与自动控制等等。
数据挖掘试图从海量数据中找出有用的知识。
大体上看，数据挖掘可以视为机器学习和数据库的交叉，它主要利用机器学习界提供的技术来分析海量数据，利用数据库界提供的技术来管理海量数据。

三、机器学习和统计学习

机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习和统计推断学联系尤为密切，也被称为统计学习理论。

Glossary（Robert Tibshiriani）
Machine learning	Statistics
network, graphs	model
weights	parameters
learning	fitting
generalization	test set performance
supervised learning	regression/classiﬁcation
unsupervised learning	density estimation, clustering
large grant = $1,000,000	large grant = $50,000
nice place to have a meeting: Snowbird, Utah, French Alps	nice place to have a meeting: Las Vegas in August

•研究方法差异

• 统计学研究形式化和推导

• 机器学习更容忍一些新方法

• 维度差异

• 统计学强调低维空间问题的统计推导（ confidence intervals, hypothesis tests, optimal estimators ）

• 机器学习强调高维预测问题

• 统计学和机器学习各自更关心的领域：

• 统计学 : survival analysis, spatial analysis, multiple testing, minimax theory, deconvolution , semiparametric inference, bootstrapping, time series.

• 机器学习 : online learning, semisupervised learning, manifold learning, active learning, boosting.

机器学习和统计学习名词
统计学机器学习
———————————–————–
Estimation(估计) Learning(学习)
Classifier(分类器) Hypothesis(假设)
Data point(数据点) Example/Instance(示例/实例)
Regression(回归) Supervised Learning(监督学习)
Classification(分类) Supervised Learning(监督学习)
Covariate(协变量) Featur(特征)
Response(响应) Label(标注)

四、统计学习

• 统计学习的方法

• 分类：

• Supervised learning

• Unsupervised learning

• Semi-supervised learning

• Reinforcement learning

• 监督学习：

• 训练数据 training data

• 模型 model ------- 假设空间 hypothesis

• 评价准则 evaluation criterion -------- 策略 strategy

• 算法 algorithm

• 统计学习的研究：

• 统计学习方法

• 统计学习理论（统计学习方法的有效性和效率和基本理论）

• 统计学习应用

1、监督学习

• Instance ， feature vector ， feature space

• 输入实例 x 的特征向量：

• x ( i ) 与 x i 不同 , 后者表示多个输入变量中的第 i 个

• 训练集：

• 输入变量和输出变量：

分类问题、回归问题、标注问题

•联合概率分布

• 假设输入与输出的随机变量 X 和 Y 遵循联合概率分布 P(X,Y)

• P(X,Y) 为分布函数或分布密度函数

• 对于学习系统来说，联合概率分布是未知的，

• 训练数据和测试数据被看作是依联合概率分布 P(X,Y) 独立同分布产生的。

• 假设空间

• 监督学习目的是 学习一个由输入到输出的映射 ，称为模型

• 模式的集合就是假设空间（ hypothesis space ）

• 概率模型 : 条件概率分布 P(Y|X), 决策函数： Y=f(X)

•问题的形式化

2、无监督学习

• 训练集：

• 模型函数：

• 条件概率分布：

3、强化学习

• 状态转移概率函数：

• 奖励函数：

• 策略 π：给定状态下动作的函数

或者条件概率分布

• 状态价值函数：

• 动作价值函数：

强化学习方法：

• 无模型（ model-free ）

• 基于策略（ policy-based ）：求解最优策略 π *

• 基于价值（ value-based ）：求解最优价值函数

• 有模型（ model-based ）

• 通过学习马尔可夫决策过程的模型，包括转移概率函数和奖励函数

• 通过模型对环境的反馈进行预测

• 求解价值函数最大的策略 π *

4、半监督学习

• 少量标注数据，大量未标注数据

• 利用未标注数据的信息，辅助标注数据，进行监督学习

• 较低成本

5、主动学习

机器主动给出实例，教师进行标注
利用标注数据学习预测模型

五、统计学习方法

1、按算法分类

在线学习（online learning）
批量学习（batch learning）

2、按技巧分类

• 贝叶斯学习（ Bayesian learning ）

• 核方法（ Kernel method ）

• 使用核函数表示和学习非线性模型，将线性模型学习方法扩展到非线性模型的学习

• 不显式地定义输入空间到特征空间的映射，而是直接定义核函数，即映射之后在特征空间的内积

•

• 假设 x 1 ， x 2 是输入空间的任意两个实例，内积为 < x 1 , x 2 > ，输入空间到特征空间的映射为 φ ，

核方法在输入空间中定义核函数 K(x1, x2)，使其满足 K(x1, x2) = < φ(x1), φ(x2)>

3、统计学习三要素

方法=模型+策略+算法

• 算法：

• 如果最优化问题有显式的解析式，算法比较简单

• 但通常解析式不存在，就需要数值计算的方法

4、模型评估与模型选择

5、正则化与交叉验证

• 正则化一般形式：

• 回归问题中：

• 交叉验证：

• 训练集 training set ：用于训练模型

• 验证集 validation set ：用于模型选择

• 测试集 test set ：用于最终对学习方法的评估

•

• 简单交叉验证

• S 折交叉验证

• 留一交叉验证

6、泛化能力 generalization ability

• 泛化误差 generalization error

• 泛化误差上界

• 比较学习方法的泛化能力 ------ 比较泛化误差上界

• 性质：样本容量增加，泛化误差趋于 0 ，假设空间容量越大，泛化误差越大

•

• 二分类问题

• 期望风险和经验风险

•经验风险最小化函数：

•泛化能力

•定理：泛化误差上界，二分类问题，

当假设空间是有限个函数的结合，

对任意一个函数f，至少以概率1-δ，以下不等式成立：

7、生成模型与判别模型

• 监督学习的目的就是学习一个模型：

• 决策函数：

• 条件概率分布：

• 生成方法 Generative approach 对应生成模型： generative model ，

• 朴素贝叶斯法和隐马尔科夫模型

• 判别方法由数据直接学习决策函数 f(X) 或条件概率分布 P(Y|X) 作为预测的模型，即判别模型

• Discriminative approach 对应 discriminative model

• K 近邻法、感知机、决策树、 logistic 回归模型、最大熵模型、支持向量机、提升方法和条件随机场。

• 各自优缺点：

• 生成方法：可还原出联合概率分布 P(X,Y), 而判别方法不能。生成方法的收敛速度更快，当样本容量增加的时候，学到的模型可以更快地收敛于真实模型；当存在隐变量时，仍可以使用生成方法，而判别方法则不能用。

•判别方法：直接学习到条件概率或决策函数，直接进行预测，往往学习的准确率更高；由于直接学习Y=f(X)或P(Y|X),可对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习过程。

8、分类问题

9、标注问题

• 例子：

• 标记表示名词短语的“开始”、“结束”或“其他”（分别以 B, E, O 表示 )

• 输入： At Microsoft Research, we have an insatiable curiosity and the desire to create new technology that will help define the computing experience.

• 输出： At/O Microsoft/B Research/E, we/O have/O an/O insatiable/6 curiosity/E and/O the/O desire/BE to/O create/O new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.

10、回归问题

• 回归模型是表示从输入变量到输出变量之间映射的函数 . 回归问题的学习等价于函数拟合。

• 学习和预测两个阶段

• 训练集：

• 回归学习最常用的损失函数是平方损失函数，在此情况下，回归问题可以由著名的最小二乘法 (least squares) 求解。

《统计学习方法》第一章机器学习和统计学习

机器学习和统计学习

一、机器学习定义

二、机器学习和数据挖掘的关系

三、机器学习和统计学习