监督学习
-
任务:学习一个模型,使模型能够对任意给的输入,对其相应的输出做出一个好的预测(指某个系统的输入与输出,与学习的输入与输出不同)
-
基本概念:
-
输入空间(input space)与输出空间(out space):输入与输出所有可能取值的集合
- 特点:可以是有限元素的集合,也可以是整个欧式空间;可以是相同空间或不同空间;通常输出空间远远小于输入空间
- 输入、输出变量分别用大写字母 和 表示,输入、输出变量取值分别用小写字母 和 表示。变量可以是标量或向量,都用相同类型字母表示。
-
实例(instance):每个具体的输入,通常有特征向量表示(feature vector),记作:
表示 的第 个特征。注意 与 不同, 表示多个输入变量中的第i个,即
-
特征空间(feature space):所有特征向量存在的空间
- 特点:特征空间的每一维对应于一个特征;有时假设输入空间与特征空间为相同空间;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。
-
训练数据:由输入(或特征向量)与输出组成,训练集通常表示为
-
测试数据:也由相应的的输入或输出对组成,又称为为样本(sample)
-
预测任务:根据输入、输出变量的不同类型,有不同的名称
- 回归问题:输入变量与输出变量均为连续变量的预测问题
- 分类问题:输出变量为有限个离散变量的预测问题
- 标注问题:输入变量与输出变量均为变量序列的预测问题
-
-
联合概率分布
- 监督学习假设输入与输出的随机变量 和 遵循联合概率分布 . 表示分布函数或分布密度函数。
- 在学习过程中,假定这一联合概率分布是存在的,但是对学习系统来说,联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布 独立同分布产生的。
- 统计学习假设数据存在一定的统计规律, 和 具有联合概率分布的假设就是监督性学习关于数据的基本假设。
-
假设空间(hypothesis space)
- 背景:监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到这样的最好的模型。
- 定义:模型属于由输入空间到输出空间的映射集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定
-
监督学习模型可以是概率模型或非概率模型,由条件概率分布 或决策函数(decision function) 表示,随具体学习方法而定。对具体的输入进行相应的输出预测时,写作 或 。
-
实现过程:
(1)给定一个训练数据集
其中
,称为样本或样本点,
是输入的观测值,也称为输入或 实例,
是输出的观测值,也称为输出。
(2)监督学习中,假设训练数据与测试数据是依联合概率分布P(X,Y)独立同分布产生的。
(3)在学习过程中,学习系统利用给定的训练数据集,通过学习(或训练)得到一个模型,表示为条件概率分布 或决策函数 .条件概率分布 或决策函数 描述输入 与输出随机变量之间的映射关系
(4)在预测过程,预测系统对于给定的测试样本集中的输入 ,由模型 或 给出相应的输出 .
(5)对输入 ,一个具体的模型 可以产生一个输出 ,而训练数据集中对应的输出是 ,如果这个模型有好的预测能力,训练样本输出 和模型输出 之间的差就应该足够小。
(6)学习系统会不断尝试,选取最好的模型,以便对训练数据集有足够好的预测,同时对未知的测试数据集的预测有尽可能好的推广。