机器学习之生成模型和判别模型,统计三要素和各种空间概念

1.生成模型和判别模型

生成模型:

生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型。典型的生成模型有朴素贝叶斯和隐马尔可夫模型

生成方法的特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法不能,生成方法收敛速度更快,当样本容量增加时,学到的模型可以更快的收敛于真实模型,当存在隐变量时,仍可以用生成方法学习,此时判别方法不能用。

判别模型:
判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型,典型的判别模型包括k近邻法、感知机、决策树、逻辑回归、最大熵模型、支持向量机、提升方法、条件随机场等等。
判别方法直接学习条件概率或决策函数,直接面对预测,往往准确率更高,由于直接学习条件概率或决策函数,可以对数据进行各种程度的抽象,定义特征并使用特征,因此可以简化学习问题。

2. 统计三要素

统计学习方法由模型、策略和算法构成:
方法 = 模型 + 策略 + 算法

模型
统计学习首要考虑的问题是学习什么样的模型,在监督学习过程中,模型就是所要学习的条件概率分布或者决策函数。
模型可以简单理解,就是我们想学到的是一个二次模型,还是线性模型,或者其他模型。
模型的假设空间包含所有可能的条件概率分布或决策函数

策略
有了模型的假设空间,统计学习接下来需要考虑的是按照什么样的准则学习或选择最优的模型。
比如是经验风险最小化还是结构风险最小化,这里经验风险指的是训练数据集的平均损失。

算法
算法指学习模型的具体计算方法,比如决策树、K近邻或者是SVM。

3. 输入空间、特征空间和输出空间和假设空间

在监督学习中,将输入与输出所有可能取值的集合分被称为输入空间和输出空间

每个具体的输入是一个实例,通常由特征向量表示,这时,所有特征向量存在的空间被称为特征空间。特征空间每一维对应一个特征,有时假设输入空间和特征空间是相同的空间,但有时又是不同的空间,比如降维操作时将实例从输入空间映射到特征空间。而模型时定义在特征空间上的。

监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示,模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间



 

猜你喜欢

转载自blog.csdn.net/weixin_39873397/article/details/88640680