机器学习模型的分类

生成式模型@机器学习


转载请标明出处,本篇文章允许转载,禁止抄袭

机器学习模型

机器学习模型分为 生成式模型和判别式模型

以下述任务为例:
示例图片
任务:通过学习上述图片中的数据,生成模型,当有新的小球出现时,能尽可能正确预测小球颜色(蓝色或黑色)

生成式模型与判别式模型

生成式模型

通过上述数据

  • 直接学习一个决策函数f(x)
  • 或者学习数据的联合概率密度分布P(X,Y),生成 条件概率分布P(Y|X),进行预测未来数据。
  • 简而言之,生成式模型在学习过程中,能够学习到数据的分布,从而生成输出函数F(x)
    - 在次任务中,模型学习总体数据,获得了黑球和篮球的分布,再给出一个待判定的小球时,来计算属于黑球的概率和属于篮球的概率,进行判定。

判别式模型

通过上述数据

  • 直接学习一个决策函数f(x)
  • 或者直接学习到条件概率分布P(Y|X),进行预测未来数据。
    - 在次任务中,模型将黑球和篮球通过直线或者超平面划分开,再给出一个待判定的小球时,计算属于黑球的概率和属于篮球的概率,进行判定。

注:

  • x:是一条数据样本的特征,形式为(特征1,特征2,……,特征n),即,x=(x1,x2,……,xn)

  • y:是一条样本的标签/标记(英文为label,翻译过来为标记等),形式为一个值,一个类型等
    如本任务中,一个y可能是黑色,即,y=黑色

  • 在监督学习过程中,一条完整训练数据应该包括x和y,即,data=(x,y)

  • 学习目的:即通过学习训练集上的数据,获得一个函数表达式(模型),能够根据此模型将未来的、在次训练过程中没有见到过的x进行预测(运算),预测值( y_hat = F(x))尽可能的接近真实值(y)。

  • 决策函数f(x): 对于data=(x),输入x,根据模型计算出一个y_hat,根据y_hat和此前设置的一个阈值(一个数值,相当于一个界限,将此界限的上下两部分分开)比较,根据比较的结果判定此条数据的类别,然后进行输出。    
    比如在此任务中,阈值为10,y_hat小于10 为黑色,大于10为蓝色;输入x=(3,2),f(x)= 9,则此数据属于黑色。

  • 条件概率分布P(Y|X): 对于data=(x),输入一个x,通过比较它属于所有类的概率,然后预测时应用最大后验概率法(MAP),即比较条件概率最大的类为x对应的类别。    
    比如在此任务中,输入x,计算出P(类别1 | x)= 0.38,P(类别2 | x)= 0.62,则此x属于类别2,即为蓝色。

生成式和判别式的异同

生成式 判别式
模型 监督学习 监督学习
联合概率密度P(x,y) 在学习过程中进行学习 未学习
侧重点 同类间的相似度 异类间的差异
划分方式 分布函数 直线或超平面
缺点 对异常值敏感;数据集需求大;计算量大 容易过拟合
优点 过拟合概率小 小数据集表现良好;计算量小

转载请标明出处,本篇文章允许转载,禁止抄袭

猜你喜欢

转载自blog.csdn.net/G_Shengn/article/details/127321140