词法分析与机器学习方法区别

词法分析运用了由预标记词汇组成的字典，使用词法分析器将输入文本转换为单词序列。

将每一个新的单词与字典中的词汇进行匹配。如果有一个积极的匹配，分数加到输入文本的分数总池中。

例如，如果"戏剧性"在字典中是一个积极的匹配，那么文本的总分会递增。相反，如果有一个消极的匹配，输入文本的总分会减少。

虽然这项技术感觉有些业余，但已被证明是有价值的。

文本的分类取决于文本的总得分。目前有大量的工作致力于度量词法信息的有效性。

对单个短语，通过手动标记词汇(仅包含形容词)的方式，大概能达到8 5 % 的准确率，这是由评价文本的主观性所决定的。

有研究者将同样的方法用于电影评论，准确率仅为62% 。

也有研究者通过简单地从消极词汇集合中去除积极词汇来评价语义差距，得到了82% 的准确度。

词法分析也存在一个不足: 其性能( 时间复杂度和准确率)会随着字典大小(词汇的数量)的增加而迅速下降。

扫描二维码关注公众号，回复： 10453003 查看本文章

机器学习技术由于其具有高的适应性和准确性受到了越来越多的关注。

在情感分析中，主要使用的是监督学习方法。它可以分为三个阶段: 数据收集、预处理、训练分类。
在训练过程中，需要提供一个标记语料库作为训练数据。分类器使用一系列特征向量对目标数据进行分类。

在机器学习技术中，决定分类器准确率的关键是合适的特征选择。

通常来说， unigram ( 单个短语) 、bigrams ( 两个连续的短语)、trigrams ( 三个连续的短语)都可以被选为特征向量。

当然还有其他的一些特征，如积极词汇的数量、消极词汇的数量、文档的长度、支持向量机( SVM ) 、朴素贝叶斯(NB ) 算法和卷积神经网络(CNN)等。

具体取决于所选择的各种特征的组合，精度范围可以从63 0/0 至80% 。
机器学习技术面临很多挑战: 分类器的设计、训练数据的获取、对一些未见过的短语的正确解释。

相比词法分析方法，它在字典大小呈指数增长的时候依然工作得很好。

情感分析研究的进步吸引大量研究者开始探讨将两种方法进行组合的可能性，既可以利用机器学习方法的高准确性，又可以利用词法分析快速的特点。

有研究者利用由两个词组成的词汇和一个未标记的数据，将这些由两个词组成的词汇划分为积极的类和消极的类。

利用被选择的词汇集合中的所有单词产生一些伪文件。然后计算伪文件与未标记文件之间的余弦相似度。

根据相似度将该文件划分为积极的或消极的情感。之后这些训练数据集被送入朴素贝叶斯分类器进行训练。

使用背景词法信息作为单词类关联，提出了一种统一的框架，设计了一个Polling 多项式分类器( PMC ，又称多项式朴素贝叶斯) ，在训练中融入了手动标记数据。
他们声称利用词法知识后性能得到了提高。