机器学习之基础概念

1.2.1基本概念
1.输入空间，特征空间与输出空间

在监督学习中，将输入与输出所有可能取值的集合分别称为输入空间（input space）与输出空间（output space）。

每个具体的输入是一个实例（instance），通常由特征向量（feature vector）表示,这时，所有特征向量存在的空间称为特征空间（feature space）。特征空间的每一维对应于一个特征。有时假设输入空间与特征空间为相同的空间，对它们不予区分；有时假设输入空间与特征空间为不同的空间，将实例从输入空间映射到特征空间。

模 型 实 际 上 都 是 定 义 在 特 征 空 间 上 的 。

$模型实际上都是定义在特征空间上的。$

在监督学习过程中，将输入与输出看作是定义在输入（特征）空间与输出空间上的 随机变量的取值。输入、输出变量用大写字母表示，习惯上 输入变量写作X, 输出变量写作Y。输入与输出变量所取的 值写作x和y.变量可以是标量或向量，都用相同类型字母表示，除特别声明外，

本书中向量均为列向量，输入实例x的特征向量记作

x = (x^{(1)}, x^{(2)}, . . . . . x^{(n)})^{T}

$x = (x^{(1)}, x^{(2)},.....x^{(n)})^T$

$x^{(i)}$ 表示x的第i个特征。注意 $x^{(i)}$ 与 $x_i$ 不同，本书通常用 $x_i$ 表示多个输入变量中的第i个，即

x = (x_{i}^{(1)}, x_{i}^{(2)}, . . . . . x_{i}^{(n)})^{T}

$x = (x_i^{(1)}, x_i^{(2)},.....x_i^{(n)})^T$

监督学习从训练数据（training data）集中学习模型，对测试数据（test data）进行预测。训练数据由输入（或特征向量）与输出对组成，训练集通常表示为：

T = {(x_{1}, y_{1}), (x_{2}, y_{2} 0), . . . . . . . . . (x_{N}, y_{N})}

$T = \{(x_1, y_1), (x_2, y_20),.........(x_N, y_N)\}$
测试数据也由相应的输入与输出对组成。输入与输出对又称为样本（sample）或样本点。

2.联合概率分布
联合概率分布简称联合分布，对随机向量的概率分布，称为随机变量的联合概率分布。根据随机变量的不同，联合概率分布的表示形式也不同。对于离散型随机变量，联合概率分布可以以列表的形式表示，也可以以函数的形式表示；对于连续型随机变量，联合概率分布通过非负函数的积分表示

统计学习假设数据存在一定的统计规律，X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。

3.假设空间
监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。换句话说，学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间（hypothesis space）。假设空间的确定意味着学习范围的确定。

在确立学习的任务之后，一般会假设结果可能的模型，而这些模型的集合就是假设空间。学习算法的目的就在于给定了损失函数之后在这些模型之中找到最优的模型。

1.2.2 问题的形成

也称为输入或实例， $y_i{\epsilon }Y$ 是输出的观测值，也称为输出

条件概率分布P(Y|X)或决策函数Y= f(X)描述输入与输出随机变量之间的映射关系

机器学习之基础概念

猜你喜欢