MLb-001 42《机器学习》周志华 第一章:绪论

第一章 绪论

此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…


1.1 引言

  • 机器学习研究:通过计算手段,利用经验来改善自身的性能
  • 模型:在本书中泛指从数据中学得的结果

1.2 基本术语

含义 符号
X \mathcal{X} 样本空间
D \mathcal{D} 概率分布
D D 数据样本(数据集)
H \mathcal{H} 假设集
L \mathfrak{L} 学习算法
p {‖\cdot‖}_{p} L p {L}_{p} 范数, p p 缺省时为 L 2 {L}_{2} 范数
E D [ f ( ) ] \mathbb{E}_{\cdot \sim \mathcal{D}}[f(\cdot)] 函数 f ( ) f(\cdot) \cdot 在分布 D \mathcal{D} 下的数学期望
sup ( ) \text{sup}(\cdot) 上确界
I ( ) \mathbb{I}(\cdot) 指示函数

1.3 假设空间

  • 归纳与演绎
    归纳:特殊到一般——泛化过程(归纳学习)
    演绎:一般到特殊——特化过程(公理到定理的推导)
  • 假设空间
    将学习过程看做一个在所有假设组成的空间中进行搜索的过程
    搜索目标:找到与训练集匹配(fit)的假设

1.4 归纳偏好

  • 定义
    在学习过程中对某种类型假设的偏好
    特征选择:尽量特殊(适用情形少);尽量一般(适用情形多)

    误差: E o t e ( L a X , f ) = h x X X P ( x ) I ( h ( x ) E_{ote}(\mathfrak{L}_a|X,f)=\sum_{h}\sum_{\textbf{x}\in \mathcal{X} -X}P(\textbf{x})\mathbb{I}(h(\textbf{x}) f ( x ) ) P ( h X , L a ) f(\textbf{x}))P(h|X,\mathfrak{L}_a)

  • 一些原则
    1)奥卡姆剃刀原则:若有多个假设与观察一直,则选择最简单的那个

    简单的表达稳定性较高,不易产生振荡现象

    2)NFL定理(No Free Lunch Theorem):期望(总误差)与算法无关
    f E o t e ( L a X , f ) = f E o t e ( L b X , f ) \sum_f E_{ote}(\mathfrak{L}_a|X,f)=\sum_f E{ote}(\mathfrak{L}_b|X,f)

    前提:真实目标函数 f f 均匀分布(问题平均出现,同等重要)
    启示:学习算法自身的归纳偏好需与问题匹配

1.5 发展历程

  • 50年代初:开始机器学习研究(跳棋程序)
  • 50年代中后:基于神经网络的连接主义(感知机)
  • 60-70年代:基于逻辑表示的符号主义
  • 60-70年代:基于决策理论的学习、强化学习
  • 80年代:符号主义学习(从样例中学习:归纳学习)
  • 90年代:统计学习(支持向量机、核方法)
  • 21世纪初:深度学习

1.6 应用现状

猜你喜欢

转载自blog.csdn.net/Tinky2013/article/details/88679501