《统计学习方法》第一章 机器学习和统计学习

机器学习和统计学习

目录

机器学习和统计学习

 

一、机器学习定义

二、机器学习和数据挖掘的关系

三、机器学习和统计学习

四、统计学习

1、监督学习

2、无监督学习

3、强化学习

4、半监督学习

扫描二维码关注公众号,回复: 12799443 查看本文章

5、主动学习

 

五、统计学习方法

1、按算法分类                                                                             

2、按技巧分类

3、统计学习三要素

 

4、模型评估与模型选择

5、正则化与交叉验证

6、泛化能力 generalization ability

 

7、生成模型与判别模型

8、分类问题

 

9、标注问题

10、回归问题


一、机器学习定义


-“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。
-“机器学习是对能通过经验自动改进的计算机算法的研究”。 
-“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 
-英文定义:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

二、机器学习和数据挖掘的关系

机器学习是数据挖掘的重要工具。
数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实际的问题。
机器学习的涉及面更宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等等。
数据挖掘试图从海量数据中找出有用的知识。
大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。

三、机器学习和统计学习

机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习和统计推断学联系尤为密切也被称为统计学习理论

GlossaryRobert Tibshiriani

Machine learning

Statistics

network, graphs

model

weights

parameters

learning

fitting

generalization

test set performance

supervised learning

regression/classification

unsupervised learning

density estimation, clustering

large grant = $1,000,000

large grant = $50,000

nice place to have a meeting:
Snowbird, Utah, French Alps

nice place to have a meeting:
Las Vegas in August

研究方法差异
           • 统计学研究形式化和推导
           • 机器学习更容忍一些新方法
维度差异
          • 统计学强调低维空间问题的统计推导( confidence intervals, hypothesis tests, optimal estimators
          • 机器学习强调高维预测问题
统计学和机器学习各自更关心的领域:
          • 统计学 : survival analysis, spatial analysis, multiple testing, minimax theory, deconvolution semiparametric inference, bootstrapping, time series.
          • 机器学习 : online learning, semisupervised learning, manifold learning, active learning, boosting.
 
机器学习和统计学习名词
统计学                       机器学习
———————————–————–
Estimation(估计)       Learning(学习)
Classifier(分类器)      Hypothesis(假设) 
Data point(数据点)    Example/Instance(示例/实例) 
Regression(回归)      Supervised Learning(监督学习) 
Classification(分类)   Supervised Learning(监督学习) 
Covariate(协变量)     Featur(特征) 
Response(响应)        Label(标注) 
 
 

四、统计学习

统计学习的方法
分类:
Supervised learning
Unsupervised learning
Semi-supervised learning
Reinforcement learning
监督学习:
训练数据 training data
模型 model   -------  假设空间 hypothesis
评价准则 evaluation  criterion -------- 策略 strategy
算法 algorithm
统计学习的研究
         • 统计学习方法
                • 统计学习理论(统计学习方法的有效性和效率和基本理论)
                • 统计学习应用
                           

1、监督学习

Instance feature vector feature space
输入实例 x 的特征向量:
 
                            
 
x ( i ) x i 不同 , 后者表示多个输入变量中的第 i
 
                              
 
训练集:
 
                            
 
输入变量和输出变量:
                 分类问题、回归问题、标注问题
•联合概率分布
假设输入与输出的随机变量 X Y 遵循联合概率分布 P(X,Y)
P(X,Y) 分布函数或分布密度函数
对于学习系统来说,联合概率分布是未知的,
训练数据和测试数据被看作是依联合概率分布 P(X,Y) 独立同分布产生的。
假设空间
监督学习目的是 学习一个由输入到输出的映射 ,称为 模型
模式的集合 就是假设空间( hypothesis space
概率模型 : 条件概率分布 P(Y|X), 决策函数: Y=f(X)

问题的形式化

                                                                      

2、无监督学习

训练集:
 
 
                                  
 
 
模型函数
 
                                   
 
条件概率分布
 
                         
                                                       

3、强化学习

状态转移概率函数:
 
                                      
 
奖励函数
 
                       
 
策略 π:给定状态下动作的函数       或者条件概率分布  
状态价值函数
                           
 
动作价值函数
                               
 
 
强化学习方法:
无模型 model-free
基于策略 policy-based ): 求解最优策略 π *
基于价值 value-based ): 求解最优价值函数
 
有模型 model-based
通过学习马尔可夫决策过程的模型 包括 转移概率函数 奖励函数
通过模型对环境的反馈进行预测
求解价值函数最大的策略 π *

4、半监督学习

少量 标注数据 大量未标注数据
利用未标注数据的信息 辅助标注数据 进行监督学习
较低成本

5、主动学习

  • 机器主动给出实例,教师进行标注
  • 利用标注数据学习预测模型

五、统计学习方法

1、按算法分类                                                                             

  • 在线学习(online learning)                       
  • 批量学习(batch learning)

                                                                           

2、按技巧分类

贝叶斯学习 Bayesian learning
   
 
 
 
 
核方法 Kernel method
使用核函数表示和学习非线性模型 将线性模型学习方法扩展到非线性模型的学习

 

不显式地定义输入空间到特征空间的映射 而是直接定义核函数 即映射之后在特征空间的 内积
假设 x 1 x 2 是输入空间的任意两个实例 内积为 < x 1 , x 2 > 输入空间到特征空间的映射为 φ

核方法在输入空间中定义核函数 K(x1, x2)使其满足 K(x1, x2) = < φ(x1), φ(x2)>

3、统计学习三要素

方法=模型+策略+算法

 

                              
 
 
算法
如果最优化问题有显式的解析式,算法比较简单
但通常解析式不存在,就需要数值计算的方法

 

4、模型评估与模型选择

 

                                                 
                                         
 
   
 

5、正则化与交叉验证

正则化一般形式:
 
                             
 
回归问题中:
 
                                  
                                   
交叉验证:
训练集 training set   用于训练模型 
验证集 validation set   用于模型选择
测试集  test  set :    用于最终对学习方法的评估
简单交叉验证
S 折交叉验证
留一交叉验证
 
 
 

6、泛化能力 generalization ability

泛化误差 generalization  error
 

                                                           

 

泛化误差上界
比较学习方法的泛化能力 ------ 比较泛化误差上界
性质:样本容量增加,泛化误差趋于 0 ,假设空间容量越大, 泛化误差越大
二分类问题
 
                       
 
期望风险和经验风险
 
                                                  

•经验风险最小化函数:

                                         

•泛化能力

                                        

定理:泛化误差上界,二分类问题,

  当假设空间是有限个函数的结合                         

  对任意一个函数f, 至少以概率1-δ,以下不等式成立:

                     
 

 

7、生成模型与判别模型

监督学习的目的就是学习一个模型:
决策函数:
                                       
条件概率分布:
                                       
 
生成方法 Generative approach 对应生成模型: generative model
 
                                    
 
朴素贝叶斯法和隐马尔科夫模型
判别方法由数据直接学习决策函数 f(X) 或条件概率分布 P(Y|X) 作为预测的模型,即判别模型
Discriminative approach 对应 discriminative model
 
                  
                  
 
K 近邻法、感知机、决策树、 logistic 回归模型、最大熵模型、支持向量机、提升方法和条件随机场。
各自优缺点:
生成方法:可还原出联合概率分布 P(X,Y), 而判别方法不能。生成方法的收敛速度更快,当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以使用生成方法,而判别方法则不能用。

                 •判别方法:直接学习到条件概率或决策函数,直接进行预测,往往学习的准确率更高;由于直接学习Y=f(X)P(Y|X),可对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习过程。

8、分类问题

                   

 

9、标注问题

例子:
标记表示名词短语的“开始”、“结束”或“其他”(分别以 B, E, O 表示 )
输入: At Microsoft Research, we have an insatiable curiosity and the desire to create new technology that will help define the computing experience.
 
输出: At/O Microsoft/B Research/E, we/O have/O an/O insatiable/6 curiosity/E and/O the/O desire/BE to/O create/O new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.
 

10、回归问题

回归模型是表示从输入变量到输出变量之间映射的函数 . 回归问题的学习等价于函数拟合。
学习和预测两个阶段
训练集:
                                                                         
                                                                                                                                                 
 
 
回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由 著名的最小二乘法 (least squares) 求解。
                                                                                                                                                                
 
 
 

 

 

                                            

               
                                                                                                
               
 
 
 
 

猜你喜欢

转载自blog.csdn.net/weixin_44763047/article/details/112386959