机器学习和统计学习
目录
机器学习和统计学习
一、机器学习定义
二、机器学习和数据挖掘的关系
三、机器学习和统计学习
四、统计学习
1、监督学习
2、无监督学习
3、强化学习
4、半监督学习
扫描二维码关注公众号,回复:
12799443 查看本文章
5、主动学习
五、统计学习方法
1、按算法分类
2、按技巧分类
3、统计学习三要素
4、模型评估与模型选择
5、正则化与交叉验证
6、泛化能力 generalization ability
7、生成模型与判别模型
8、分类问题
9、标注问题
10、回归问题
一、机器学习定义
-“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。
-“机器学习是对能通过经验自动改进的计算机算法的研究”。
-“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”
-英文定义:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
二、机器学习和数据挖掘的关系
机器学习是数据挖掘的重要工具。
数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实际的问题。
机器学习的涉及面更宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等等。
数据挖掘试图从海量数据中找出有用的知识。
大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。
三、机器学习和统计学习
机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习和统计推断学联系尤为密切,也被称为统计学习理论。
Glossary(Robert Tibshiriani) |
Machine learning |
Statistics |
network, graphs |
model |
weights |
parameters |
learning |
fitting |
generalization |
test set performance |
supervised learning |
regression/classification |
unsupervised learning |
density estimation, clustering |
large grant = $1,000,000 |
large grant = $50,000 |
nice place to have a meeting: Snowbird, Utah, French Alps |
nice place to have a meeting: Las Vegas in August |
•研究方法差异
•
统计学研究形式化和推导
•
机器学习更容忍一些新方法
•
维度差异
•
统计学强调低维空间问题的统计推导(
confidence intervals, hypothesis tests, optimal estimators
)
•
机器学习强调高维预测问题
•
统计学和机器学习各自更关心的领域:
•
统计学
: survival analysis, spatial analysis, multiple testing,
minimax
theory,
deconvolution
,
semiparametric
inference, bootstrapping, time series.
•
机器学习
: online learning,
semisupervised
learning, manifold learning, active learning, boosting.
机器学习和统计学习名词
统计学 机器学习
———————————–————–
Estimation(估计) Learning(学习)
Classifier(分类器) Hypothesis(假设)
Data point(数据点) Example/Instance(示例/实例)
Regression(回归) Supervised Learning(监督学习)
Classification(分类) Supervised Learning(监督学习)
Covariate(协变量) Featur(特征)
Response(响应) Label(标注)
四、统计学习
•
统计学习的方法
•
分类:
•
Supervised learning
•
Unsupervised learning
•
Semi-supervised learning
•
Reinforcement learning
•
监督学习:
•
训练数据
training data
•
模型
model -------
假设空间
hypothesis
•
评价准则
evaluation criterion --------
策略
strategy
•
算法
algorithm
•
统计学习的研究:
•
统计学习方法
•
统计学习理论(统计学习方法的有效性和效率和基本理论)
•
统计学习应用
1、监督学习
•
Instance
,
feature vector
,
feature space
•
输入实例
x
的特征向量:
•
x
(
i
)
与
x
i
不同
,
后者表示多个输入变量中的第
i
个
•
训练集:
•
输入变量和输出变量:
分类问题、回归问题、标注问题
•联合概率分布
•
假设输入与输出的随机变量
X
和
Y
遵循联合概率分布
P(X,Y)
•
P(X,Y)
为
分布函数或分布密度函数
•
对于学习系统来说,联合概率分布是未知的,
•
训练数据和测试数据被看作是依联合概率分布
P(X,Y)
独立同分布产生的。
•
假设空间
•
监督学习目的是
学习一个由输入到输出的映射
,称为
模型
•
模式的集合
就是假设空间(
hypothesis space
)
•
概率模型
:
条件概率分布
P(Y|X),
决策函数:
Y=f(X)
•问题的形式化
2、无监督学习
•
训练集:
•
模型函数
:
•
条件概率分布
:
3、强化学习
•
状态转移概率函数:
•
奖励函数
:
•
策略
π:给定状态下动作的函数
或者条件概率分布
•
状态价值函数
:
•
动作价值函数
:
强化学习方法:
•
无模型
(
model-free
)
•
基于策略
(
policy-based
):
求解最优策略
π
*
•
基于价值
(
value-based
):
求解最优价值函数
•
有模型
(
model-based
)
•
通过学习马尔可夫决策过程的模型
,
包括
转移概率函数
和
奖励函数
•
通过模型对环境的反馈进行预测
•
求解价值函数最大的策略
π
*
4、半监督学习
•
少量
标注数据
,
大量未标注数据
•
利用未标注数据的信息
,
辅助标注数据
,
进行监督学习
•
较低成本
5、主动学习
- 机器主动给出实例,教师进行标注
- 利用标注数据学习预测模型
五、统计学习方法
1、按算法分类
- 在线学习(online learning)
- 批量学习(batch learning)
2、按技巧分类
•
贝叶斯学习
(
Bayesian
learning
)
•
核方法
(
Kernel
method
)
•
使用核函数表示和学习非线性模型
,
将线性模型学习方法扩展到非线性模型的学习
•
不显式地定义输入空间到特征空间的映射
,
而是直接定义核函数
,
即映射之后在特征空间的
内积
•
•
假设
x
1
,
x
2
是输入空间的任意两个实例
,
内积为
<
x
1
, x
2
>
,
输入空间到特征空间的映射为
φ
,
核方法在输入空间中定义核函数 K(x1, x2),使其满足 K(x1, x2) = < φ(x1), φ(x2)>
3、统计学习三要素
方法=模型+策略+算法
•
算法
:
•
如果最优化问题有显式的解析式,算法比较简单
•
但通常解析式不存在,就需要数值计算的方法
5、正则化与交叉验证
•
交叉验证:
•
训练集
training set
:
用于训练模型
•
验证集
validation set
:
用于模型选择
•
测试集
test set
:
用于最终对学习方法的评估
•
•
简单交叉验证
•
S
折交叉验证
•
留一交叉验证
6、泛化能力 generalization ability
•
泛化误差
generalization error
•
泛化误差上界
•
比较学习方法的泛化能力
------
比较泛化误差上界
•
性质:样本容量增加,泛化误差趋于
0
,假设空间容量越大, 泛化误差越大
•
•
二分类问题
•
期望风险和经验风险
•经验风险最小化函数:
•泛化能力
•定理:泛化误差上界,二分类问题,
当假设空间是有限个函数的结合 ,
对任意一个函数f, 至少以概率1-δ,以下不等式成立:
7、生成模型与判别模型
•
监督学习的目的就是学习一个模型:
•
决策函数:
•
条件概率分布:
•
生成方法
Generative approach
对应生成模型:
generative model
,
•
朴素贝叶斯法和隐马尔科夫模型
•
判别方法由数据直接学习决策函数
f(X)
或条件概率分布
P(Y|X)
作为预测的模型,即判别模型
•
Discriminative approach
对应
discriminative model
•
K
近邻法、感知机、决策树、
logistic
回归模型、最大熵模型、支持向量机、提升方法和条件随机场。
•
各自优缺点:
•
生成方法:可还原出联合概率分布
P(X,Y),
而判别方法不能。生成方法的收敛速度更快,当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以使用生成方法,而判别方法则不能用。
•判别方法:直接学习到条件概率或决策函数,直接进行预测,往往学习的准确率更高;由于直接学习Y=f(X)或P(Y|X),可对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习过程。
8、分类问题
9、标注问题
•
例子:
•
标记表示名词短语的“开始”、“结束”或“其他”(分别以
B, E, O
表示
)
•
输入:
At Microsoft Research, we have an insatiable curiosity and the desire to create new technology that will help define the computing experience.
•
输出:
At/O Microsoft/B Research/E, we/O have/O an/O insatiable/6 curiosity/E and/O the/O desire/BE to/O create/O new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.
10、回归问题
•
回归模型是表示从输入变量到输出变量之间映射的函数
.
回归问题的学习等价于函数拟合。
•
学习和预测两个阶段
•
训练集:
•
回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由 著名的最小二乘法
(least squares)
求解。