《统计学习方法》第1章 统计学习方法概论 1.2 监督学习

1.2 监督学习

监督学习的任务就是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

1.2.1 基本概念

1.输入空间、特征空间与输出空间

(1)输入空间和输出空间:输入与输出所有可能取值的集合分别成为输入空间(input space)输出空间(output space)。输入和输出空间可以是有限元素的集合,也可以是整个欧式空间。可以是同一空间,也可以是不同空间;通常,输出空间小于输入空间。
注释:欧式空间:
在这里插入图片描述
(2) 特征空间: 所有特征向量存在的空间称为特征空间(feature space)。特征向量(feature vector)是每个具体输入(也叫做实例(instance))的表示。特征空间的每一个维度对应一个特征。输入空间和特征空间可以相同, 也可以不同,如果不同,则将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上。
(3)表示:
a.在监督学习中,将输入与输出看作是定义在输入(特征)空间与输出空间上的随机变量的取值。输入、输出变量用大写字母表示:输入为X,输出为Y;输入、输出变量所取的值用小写字母表示:输入变量的取值为x,输出变量的取值为y。(比那辆可以是标量也可以是向量,表示不变)。输入实例x的特征向量记作:
Alt
x(i)表示x的第i个特征。xi表示多个输入变量中的第i个。即:在这里插入图片描述
b.监督学习从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。
训练数据由输入(或特征向量)与输出对组成。训练集的表示为:
在这里插入图片描述测试数据的表示同上。输入与输出对又称为样本(sample)或样本点
(4)预测任务:
a.回归问题:输入输出变量均为连续变量的预测问题;
b.分类问题:输出变量为有限个离散变量的预测问题;
c.标注问题:输入变量与输出变量均为变量序列的预测问题。

2.联合概率分布

监督学习关于数据的基本假设:X和Y具有联合概率分布P(X,Y)。P(X,Y)表示分布函数,或分布密度函数。对学习系统来说,联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布独立同分布产生的。统计学习假设数据存在一定的统计规律。
联合概率分布

3.假设空间

监督学习的目的在于找到一个从输入到输出的映射,用模型表示。模型属于输入空间到输出空间的映射的集合,整个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习范围的确定。
模型可以是概率模型非概率模型,由条件概率分布 P(Y|X)或决策函数(decision function)Y=f(X)表示。对具体的输入进行相应的输出与测试,写作P(y|x)或y=f(x)。

1.2.2 问题的形式化

在这里插入图片描述学习系统通过训练数据集中的样本带来的信息学习模型。

猜你喜欢

转载自blog.csdn.net/m0_37180911/article/details/86098504