PS:所写内容为本人读书笔记,如需看更详细内容请购买正版书籍。
第1章:统计学习及监督学习概论
1.1 统计学习概述
统计学习:是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的学科。也称为统计机器学习。
“学习”的概念:如果一个系统能够通过执行某个过程改变它的性能,这就是学习。——赫尔伯特.西蒙
统计学习的对象:数据。且数据具有一定的统计规律性,不能是完全随机分布的。这样才能去提取数据特征,进行数据分析预测。
统计学习的主要方法:监督学习、无监督学习、强化学习等
统计学习方法总结:
从给定的有限的训练数据(training data)集合出发,假设数据是独立同分布产生的,并假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间选择一个最优模型,使他对已知的训练数据及未知的测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现。
统计学习三要素:模型(model)、策略(strategy)、算法(algorithm)
统计学习步骤:
得到一个有限的训练数据集合--确定包含所有可能的模型假设空间,即学习模型的集合--确定模型选择的准则,即学习的策略--实现求解最优模型的算法,即学习的算法--通过学习方法选择最优模型--利用学习的最优模型对新数据进行预测分析
1.2 统计学习分类
1.2.1 基本分类
1. 监督学习(supervised learning)
监督学习是指输入和输出有明确对应关系,预测模型对给定的输入产生相应的输出,监督学习的本质是学习输入到输出的映射的统计规律。
根据输入和输出变量的不同类型,对预测任务给予不同的名称:输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量和输出变量均为变量序列的预测问题称为标注问题。
2. 无监督学习(unsupervised learning)
无监督学习是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据。无监督学习的本质是学习数据中的统计规律或者潜在结构。
3. 强化学习(reinforcement learning)
强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔科夫决策过程,智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。
智能系统与环境的互动如图所示,在每一步t,智能系统从环境中观测到一个状态(state)s_t与一个奖励(reward)r_t,采取一个动作(action)a_t。环境根据智能系统选择的动作,决定下一步t+1的状态s_{t+1}与奖励r_{t+1}。智能系统的目的不是短期的奖励最大化,而是长期累积奖励的最大化。系统不断试错,已达到学习最优策略的目的。
4. 半监督学习和主动学习
半监督学习(semi-supervised learning)是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据,大量未标注数据。半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。
主动学习(active learning)是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。通常的监督学习使用给定的标注数据,往往是随机得到的,可以看做是“被动学习”,主动学习的目标时找出对学习最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。
1.2.2 按模型分类
1.2.3 按算法分类
在线学习(online learning):每次接收一个样本,进行预测,之后学习模型,并不断重复该操作的机器学习。有些场景要求学习必须是在线的,比如,数据依次达到无法存储,系统需要及时作出处理。
批量学习(batch learning):一次接收所以数据,学习模型,之后进行预测。
1.3 统计学习方法三要素
1.3.1 模型
模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的模型。本书中称右决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型。
1.3.2 策略
1. 损失函数和风险函数
在监督学习中,对于给定的输入X,由f(X)给出相应的输出Y,这个输出的预测值f(X)与真实值Y可能一致也可能不一致,用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。损失函数是f(X)与Y的非负实值函数,记作L(Y,f(X))。
常用损失函数:
(1)0-1损失函数
(2)平方损失函数
(3)绝对损失函数
(4)对数损失函数或对数似然损失函数
损失函数值越小,模型越好。由于模型输入输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望就是:
这是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。
但是联合分布P(X,Y)是未知的,R_{exp}(f)不能直接计算。
给定一个训练数据集:
模型f(X)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作R_{emp}:
期望风险R_{exp}是模型关于联合分布的期望损失,经验风险R_{emp}是模型关于训练样本集的平均损失。根据大数定理,当N趋近于无穷大时,经验风险趋近于期望风险。可以用经验风险最小化去训练模型。
但是单纯用经验风险容易过拟合,由此提出了结构风险R_{srm},它是在经验风险的基础上加了一个正则化项或者惩罚项J。定义是:
其中J(f)为模型的复杂度,是定义在假设空间F上的泛函。模型越复杂,J(f)越大。\lambda >= 0 是系数,用于权衡经验风险和模型复杂度。
1.3.3 算法
算法是指学习模型的具体计算方法。