监督学习基础概念及实现过程(联合概率分布+假设空间)|15mins入门|《统计学习方法》学习笔记(二)

监督学习

  • 任务:学习一个模型,使模型能够对任意给的输入,对其相应的输出做出一个好的预测(指某个系统的输入与输出,与学习的输入与输出不同)

  • 基本概念:

    • 输入空间(input space)与输出空间(out space):输入与输出所有可能取值的集合

      • 特点:可以是有限元素的集合,也可以是整个欧式空间;可以是相同空间或不同空间;通常输出空间远远小于输入空间
      • 输入、输出变量分别用大写字母 X X Y Y 表示,输入、输出变量取值分别用小写字母 x x y y 表示。变量可以是标量或向量,都用相同类型字母表示。
    • 实例(instance):每个具体的输入,通常有特征向量表示(feature vector),记作:
      x = ( x ( 1 ) , x ( 2 ) , . . . , x ( i ) , . . , x ( n ) ) T x=(x^{(1)},x^{(2)},...,x^{(i)},..,x^{(n)})^T
      x ( 1 ) x^{(1)} 表示 x x 的第 i i 个特征。注意 x ( i ) x^{(i)} x i x_i 不同, x i x_i 表示多个输入变量中的第i个,即
      x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) T x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T

    • 特征空间(feature space):所有特征向量存在的空间

      • 特点:特征空间的每一维对应于一个特征;有时假设输入空间与特征空间为相同空间;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。
    • 训练数据:由输入(或特征向量)与输出组成,训练集通常表示为
      T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}

    • 测试数据:也由相应的的输入或输出对组成,又称为为样本(sample)

    • 预测任务:根据输入、输出变量的不同类型,有不同的名称

      • 回归问题:输入变量与输出变量均为连续变量的预测问题
      • 分类问题:输出变量为有限个离散变量的预测问题
      • 标注问题:输入变量与输出变量均为变量序列的预测问题
  • 联合概率分布

    • 监督学习假设输入与输出的随机变量 X X Y Y 遵循联合概率分布 P ( X , Y ) P(X,Y) . P ( X , Y ) P(X,Y) 表示分布函数或分布密度函数。
    • 在学习过程中,假定这一联合概率分布是存在的,但是对学习系统来说,联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布 P ( X , Y ) P(X,Y) 独立同分布产生的。
    • 统计学习假设数据存在一定的统计规律, X X Y Y 具有联合概率分布的假设就是监督性学习关于数据的基本假设。
  • 假设空间(hypothesis space)

    • 背景:监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到这样的最好的模型。
    • 定义:模型属于由输入空间到输出空间的映射集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定
  • 监督学习模型可以是概率模型或非概率模型,由条件概率分布 P ( Y X ) P(Y|X) 或决策函数(decision function) Y = f ( X ) Y=f(X) 表示,随具体学习方法而定。对具体的输入进行相应的输出预测时,写作 P ( y x ) P(y|x) y = f ( x ) y=f(x)

  • 实现过程:
    在这里插入图片描述

(1)给定一个训练数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}
其中 ( x i , y i ) , i = 1 , 2 , . . . , N (x_i,y_i),i=1,2,...,N ,称为样本或样本点, x i χ R n x_i\in \chi \subseteq R^n 是输入的观测值,也称为输入或 实例, y i γ y_i\in \gamma 是输出的观测值,也称为输出。

(2)监督学习中,假设训练数据与测试数据是依联合概率分布P(X,Y)独立同分布产生的。

(3)在学习过程中,学习系统利用给定的训练数据集,通过学习(或训练)得到一个模型,表示为条件概率分布 P ^ ( Y X ) \hat P(Y|X) 或决策函数 Y = f ^ ( X ) Y=\hat f(X) .条件概率分布 P ^ ( Y X ) \hat P(Y|X) 或决策函数 Y = f ^ ( X ) Y=\hat f(X) 描述输入 与输出随机变量之间的映射关系

(4)在预测过程,预测系统对于给定的测试样本集中的输入 x N + 1 x_{N+1} ,由模型 y N + 1 = a r g   m a x y N + 1 P ^ ( y N + 1 x N + 1 ) y_{N+1}=arg\space max_{y_N+1}\hat P(y_{N+1}|x_{N+1}) y N + 1 = f ^ ( x N + 1 ) y_{N+1}=\hat f(x_{N+1}) 给出相应的输出 y n + 1 y_{n+1} .

(5)对输入 x i x_i ,一个具体的模型 y = f ( x ) y=f(x) 可以产生一个输出 f ( x i ) f(x_i) ,而训练数据集中对应的输出是 y i y_i ,如果这个模型有好的预测能力,训练样本输出 y i y_i 和模型输出 f ( x i ) f(x_i) 之间的差就应该足够小。

(6)学习系统会不断尝试,选取最好的模型,以便对训练数据集有足够好的预测,同时对未知的测试数据集的预测有尽可能好的推广。

发布了37 篇原创文章 · 获赞 0 · 访问量 814

猜你喜欢

转载自blog.csdn.net/SanyHo/article/details/105157416