监督学习基础概念及实现过程（联合概率分布+假设空间）|15mins入门|《统计学习方法》学习笔记（二）

监督学习

任务：学习一个模型，使模型能够对任意给的输入，对其相应的输出做出一个好的预测（指某个系统的输入与输出，与学习的输入与输出不同）
基本概念：
- 输入空间（input space）与输出空间（out space）：输入与输出所有可能取值的集合
  - 特点：可以是有限元素的集合，也可以是整个欧式空间；可以是相同空间或不同空间；通常输出空间远远小于输入空间
  - 输入、输出变量分别用大写字母 $X$ 和 $Y$ 表示，输入、输出变量取值分别用小写字母 $x$ 和 $y$ 表示。变量可以是标量或向量，都用相同类型字母表示。
- 实例（instance）：每个具体的输入，通常有特征向量表示（feature vector），记作:
  $x=(x^{(1)},x^{(2)},...,x^{(i)},..,x^{(n)})^T$
  $x^{(1)}$ 表示 $x$ 的第 $i$ 个特征。注意 $x^{(i)}$ 与 $x_i$ 不同， $x_i$ 表示多个输入变量中的第i个，即
  $x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T$
- 特征空间（feature space）：所有特征向量存在的空间
  - 特点：特征空间的每一维对应于一个特征；有时假设输入空间与特征空间为相同空间；有时假设输入空间与特征空间为不同的空间，将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。
- 训练数据：由输入（或特征向量）与输出组成，训练集通常表示为
  $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
- 测试数据：也由相应的的输入或输出对组成，又称为为样本(sample)
- 预测任务：根据输入、输出变量的不同类型，有不同的名称
  - 回归问题：输入变量与输出变量均为连续变量的预测问题
  - 分类问题：输出变量为有限个离散变量的预测问题
  - 标注问题：输入变量与输出变量均为变量序列的预测问题
联合概率分布
- 监督学习假设输入与输出的随机变量 $X$ 和 $Y$ 遵循联合概率分布 $P(X,Y)$ . $P(X,Y)$ 表示分布函数或分布密度函数。
- 在学习过程中，假定这一联合概率分布是存在的，但是对学习系统来说，联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布 $P(X,Y)$ 独立同分布产生的。
- 统计学习假设数据存在一定的统计规律， $X$ 和 $Y$ 具有联合概率分布的假设就是监督性学习关于数据的基本假设。
假设空间（hypothesis space）
- 背景：监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。换句话说，学习的目的就在于找到这样的最好的模型。
- 定义：模型属于由输入空间到输出空间的映射集合，这个集合就是假设空间。假设空间的确定意味着学习范围的确定
监督学习模型可以是概率模型或非概率模型，由条件概率分布 $P(Y|X)$ 或决策函数(decision function) $Y=f(X)$ 表示，随具体学习方法而定。对具体的输入进行相应的输出预测时，写作 $P(y|x)$ 或 $y=f(x)$ 。
实现过程：

（1）给定一个训练数据集
$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
其中 $(x_i,y_i),i=1,2,...,N$ ，称为样本或样本点， $x_i\in \chi \subseteq R^n$ 是输入的观测值，也称为输入或实例， $y_i\in \gamma$ 是输出的观测值，也称为输出。

（2）监督学习中，假设训练数据与测试数据是依联合概率分布P(X,Y)独立同分布产生的。

（3）在学习过程中，学习系统利用给定的训练数据集，通过学习（或训练）得到一个模型，表示为条件概率分布 $\hat P(Y|X)$ 或决策函数 $Y=\hat f(X)$ .条件概率分布 $\hat P(Y|X)$ 或决策函数 $Y=\hat f(X)$ 描述输入与输出随机变量之间的映射关系

（4）在预测过程，预测系统对于给定的测试样本集中的输入 $x_{N+1}$ ,由模型 $y_{N+1}=arg\space max_{y_N+1}\hat P(y_{N+1}|x_{N+1})$ 或 $y_{N+1}=\hat f(x_{N+1})$ 给出相应的输出 $y_{n+1}$ .

（5）对输入 $x_i$ ，一个具体的模型 $y=f(x)$ 可以产生一个输出 $f(x_i)$ ，而训练数据集中对应的输出是 $y_i$ ，如果这个模型有好的预测能力，训练样本输出 $y_i$ 和模型输出 $f(x_i)$ 之间的差就应该足够小。

（6）学习系统会不断尝试，选取最好的模型，以便对训练数据集有足够好的预测，同时对未知的测试数据集的预测有尽可能好的推广。

Sany 何灿

发布了37 篇原创文章 · 获赞 0 · 访问量 814

私信关注

监督学习基础概念及实现过程（联合概率分布+假设空间）|15mins入门|《统计学习方法》学习笔记（二）

监督学习

猜你喜欢