一、 隐马尔可夫模型
- 隐马尔可夫模型是一个关于时序的概率模型,描述由隐马尔科夫链随机生成观测序列的过程,属于生成模型。
- 隐马尔科夫模型在语音识别、自然语言处理、生物信息等领域有着广泛的应用。
马尔可夫模型的两个假设
- 齐次马尔可夫假设:假设隐藏的马尔科夫链在任意时刻t的状态只依赖于前一时刻的状态,与其它时刻的状态及观测无关,也与时刻t无关。
- 观测独立性假设:假设任意时刻的观测只依赖于该时刻的马尔科夫链的状态,与其他观测及状态无关。
隐马尔可夫模型 λ = (A, B, Π) ,状态转移概率矩阵A,初始状态概率向量Π,确定了隐藏的马尔科夫链,生成不可观测的状态序列。观测概率矩阵B确定了如何从状态生成观测,与状态序列综合确定了如何产生观测序列。
隐马尔可夫模型的三个基本问题
- 概率计算问题:给定模型 λ = (A, B, Π) 和观测序列O = (o1, o2,…,oT),计算在模型 λ 下观测序列 O 出现的概率 P = (O|λ);
- 学习问题:已知观测序列O = (o1, o2,…,oT),估计模型参数 λ = (A, B, Π) ,使得在该模型下观测序列概率 P = (O|λ) P = (O|λ)最大;
- 预测问题:已知模型 λ = (A, B, Π) 和观测序列O = (o1, o2,…,oT),求对给定观测序列条件概率 P = (I|O)最大的状态序列。即给定观测序列,求最有可能的对应的状态序列。
应用:词性标注、中文分词、天气预测等。
二、CRF条件随机场
- CRF条件随机场是一个序列标注模型,其优点在于为一个位置标注的过程中可以利用丰富的内部及上下文特征信息。
- 应用场景:分词(标注字的词位信息,由字构词)、词性标注(标注分词的词性,例如名词动词助词等)、命名实体识别(识别人名、地名、机构名等实体名词)。
三、LDA主题模型
LDA主题模型是一种文档主题生成模型,是一种非监督机器学习技术。通过模拟文档生成过程,可以用来识别大规模文档集或语料库中潜藏的主题信息。
生成模型 V.s. 判别模型
监督学习方法可以分为两大类,即生成方法和判别方法,对应的模型称为生成模型和判别模型。
生成方法的特点
- 从统计的角度表述数据的分布情况,能够反映同类数据本身的相似度;
- 生成方法还原出联合概率分布,而判别方法不能;
- 生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快的收敛于真实模型;
- 当存在隐变量时,仍然可以用生成方法学习,此时判别方法不能用。
判别方法的特点:
- 判别方法寻找不同类别之间的最优分类面,反应异类数据之间的差异;
- 判别方法利用了训练数据的类别标识信息,直接学习的是条件概率 P(Y|X) 或者决策函数 f(x) ,直接面对预测,往往学习的准确率更高;
- 由于直接学习条件概率 P(Y|X) 或者决策函数 f(x) ,可以对数据进行各种程度上的抽象,定义特征并使用特征,因此可以简化学习问题;
- 缺点是不能反映训练数据本身的特性。