Python机器学习 -- NLP情感分析

一、情感分析的简介

情感分析（Sentiment analysis）是自然语言处理（NLP）方法中常见的应用，尤其是以提炼文本情绪内容为目的的分类。它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程，其中情感分析还可以细分为：情感极性（倾向）分析，情感程度分析，主客观分析等。

情感极性分析的目的是对文本进行褒义、贬义、中性的判断。在大多应用场景下，只分为两类。例如对于“喜爱”和“厌恶”这两个词，就属于不同的情感倾向。

情感程度分析主要是对同一情感极性中再进行划分或者细分，以描述该极性的强度。例如“喜爱”和“敬爱”都是褒义词，但是“敬爱”相对来说褒义的程度更加强烈一些。

主客观分析主要目的是却别文本中哪些部分是客观称述而不带情感色彩，哪些是带有情感的主管描述。在对于微博，或者商品评论时，这个分析步骤一般都忽略，因为微博和商品评论本身就一定存在强烈的情感色彩，而且客观描述的情感值理论上是为零，不影响最终的情感分析结果。

二、情感分析的主要方法

现阶段主要的情感分析方法主要有两类：

基于词典的方法

基于机器学习的方法

1、基于词典的方法

基于词典的方法主要通过制定一系列的情感词典和规则，对文本进行段落拆借、句法分析，计算情感值，最后通过情感值来作为文本的情感倾向依据。

情感分析对象的粒度最小是词汇，但是表达一个情感的最基本的单位则是句子，词汇虽然能描述情感的基本信息，但是单一的词汇缺少对象，缺少关联程度，并且不同的词汇组合在一起所得到的情感程度不同甚至情感倾向都相反。所以以句子为最基本的情感分析粒度是较为合理的。篇章或者段落的情感可以通过句子的情感来计算。

基于词典的情感分析大致步骤如下：

1）分解文章段落

2）分解段落中的句子

3）分解句子中的词汇

4）搜索情感词并标注和计数

5）搜索情感词前的程度词，根据程度大小，赋予不同权值

6）搜索情感词前的否定词，赋予反转权值（-1）

7）计算句子的情感得分

8）计算段落的情感得分

9）计算文章的情感得分

考虑到语句中的褒贬并非稳定分布，以上步骤对于积极和消极的情感词分开执行，最终的到两个分值，分别表示文本的正向情感值和负向情感值。

算法设计（伪代码）：

fetch all text

for each text:

for each para in text:

for each sent in para:

for each word in sents:

if word in sentiment_dicts:

if adverb before sentword

score = adverb*score

if inverse before sentword

score = -1 * score

进过以上的步骤，每篇文章的每个段落的每个句子都会有相应的情感分值，之后针对需求，可以针对句子的分值作统计计算，也可以针对段落的分值作统计计算，得到最后的文本的正向情感值和负向情感值。

2、基于机器学习的方法

基于机器学习的方法大多将这个问题转化为一个分类问题来看待，对于情感极性的判断，将目标情感分类2类：正、负。对训练文本进行人工标标注，然后进行有监督的机器学习过程。例如想在较为常见的基于大规模语料库的机器学习等。

1）文本结构化

文本结构化是机器学习中重要的一步，由于文本的特殊性，计算机不能直接理解文本中的语义。需要将文本转结构化以此作为分类器的输入。

最小语义粒度

在中文中，最小语义粒度为字，但是一个单字所表示的语义信息太少，一般的，大多都以词作为最基本的语素，因为这在实际的交流中也正是如此。但是用词作为最小的语义粒度也有一个问题，就是词和词之间的关系随着分词而丢失了，其实这部分信息非常重要。

为了减小这种隐性的语义损失，有人提出了N-gram模型。N-gram模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关。简单来说，unigram模型对应的最小语素就是单字，bigram模型是二字串，举例说明：“我爱北京天安门”的bigram表示形式就是“我爱爱北北京京天天安安门”，以此类推。由于N-gram存在致命的缺陷——产生的结果过于稀疏，假设正常分词的词表中有1000个词，如果是bigram那么可能的N-gram就有1000000个，如果是trigram，那么可能的N-gram就有1000000000个，其维度增长是指数级的。一般在使用中只使用二字串或三字串作为最小的语义粒度，并且需要其他处理来缩减维度，减少计算资源的消耗。

文本向量化

文本向量化是文本结构化的最重要的一步，如果说确定最小语义粒度是告诉计算机最小的语义信息单位的话，那么向量化则是告诉计算机该用什么结构来理解文本。比较主流的表示方式有：词袋模型和向量空间模型。这两个模型其实较为类似，两者都将词汇（或者N-gram中的最小语素）作为切分的最小粒度，拆分一句话，得到“我” “爱” “北京” “天安门”，根据每个词出现的次数设置词的权重，转化为[1, 1, 1, 1]形式的向量。而向量空间模型则是在词袋模型的基础上，将多个文本的词袋模型整合在一起，组成一个单词-文档的二维矩阵。其中词又称为维度或者特征，一般的，基于词典情感分析都基于前者，而后者是应用在大规模语料库上。

词条权值

在词袋或者词频矩阵中，如果出现这个词，则标志为1，没有出现则标志为0，这被称为布尔权值。人们发现有些词在文章中出现次数很多，理应有更加重要的地位，所以布尔权重升级为词频权值，用该词在文章中出现的频数作为权值。再后来人们又发现，有些词在所有文章中都有很高的词频，例如“的”。这些词反而对文章来说没有有价值的信息，需要剔除，以节省性能开支。所以人们通过逆文档频率idf来将这些分布较为平均的词剔除掉,词频和逆文档频率的乘积就是现在较为常用的tf-idf权值。

注：这里用权值是为了和区分之后会提到的特征选择时提到的权重，这两者的区别在之后会介绍。

特征提取

特征提取是文本向量化的最后一步，其重要性更多的体现在于防止模型过拟合以及在不损失精度的前提下减少运算开支。面对海量数据的时候，其重要性不亚于之前的任何一步。

特征提取主要分两种方式：特征选择和特征抽取。

特征选择就是在一堆特征中挑选出对目标类别贡献较高的特征维度，通过计算特征的权重，并依据权重重新排序挑选出较高的一部分特征维度作为模型训练的输入特征。这里的权重和之前讲到的词（也就是特征）权值是不同的。特征权重描述的是特征和目标类别之间的关系，而词权值是词在文章中的重要性的描述，这两者非常容易混淆。特征抽取则是将所有特征作为输入，通过某种方式或者算法，输出一批新的特征，这个特征的维度数量大大小于原始特征长度。此过程中的信息损失比特征选择少很多。深度学习和神经网络是主要的算法。

2）分类算法选择

文本结构化之后就可以进行训练了。当然之前还需要挑选一个合适的分类器。在各大文献中，较为推荐的文本分类算法大多为SVM。因为其较为出色的泛化能力（不容易过拟合），SVM也受到了工业界的青睐，被用于许多分类场合。当然，分类器有许许多多种，朴素贝叶斯、神经网络、KNN都有着各自的有点。

本文主要从SVM入手，情感分析场景下的文本分类作一些说明。

支持向量机（Support Vector Machine）是一种有监督的学习算法。其分类的判别标准为最大分类边界，处于分类边界上的向量（特征）即为支持向量。

所以其直接参与分类运算的向量其实小于原始输入向量。这也是为什么虽然在训练的时候比较费时，但是在预测时期性能较好的原因。

这里需要提到一个SVM中特有的概念，分类超平面。由于现实中的数据非常复杂，尤其是文本数据，在向量化之后并不能简单的用线性分割的方式将其区分，所以有牛人想到利用高维来解决低维中线性不可分的问题，以下是一个简答的例子，在二维中，无法用一条直线将这两组点分开。将其映射到三维场景时，就可以用一个线性平面将其分割。当然现实中的数据也不会那么简单，所以低维向高维映射之后的复杂程度也远远超过想想。不过依然有牛人通过数学证明的方式，证明了低维不可分问题在高维中，至少某一个高维中能够线性可分。

不过支持向量机中的数学推导较为复杂，在我的另一篇文章详细讲解。但是有几个比较重要的概念不得不提：核函数，松弛变量。

核函数：核函数是一类能够简化低维到高维运算的函数，通过他能够将低维的数据映射到高维中。之前提到了低维向高维映射的过程，但是在实际操作中会发现，这之间的一个映射关系通常是非常难解甚至是不可解的。依旧是牛人，通过一组符mercy定律的函数，找到了低维和高维之间关系的方法。这些符合mercy定律的函数就称为核函数。

松弛变量：在分类问题中，往往会遇到因为遇到噪声而导致分类器对于训练集效果较好，但是对于其他测试集则效果较差的问题，在传统统计算法中，这个现象被称为过拟合。为了避免这些噪声的干扰，需要对SVM的决策边境进行“软化”，让其适当地允许“错误”产生，引入松弛变量。

3）训练模型和评价

参数选择

在文本分类场景中，选择线性核函数或者高斯核函数较为平常，前者计算效率较高，后者效果较好。在本文场景下选择高斯核函数。松弛变量的选择依据主要为实际的模型拟合和在预测集上的表现来决定。

模型评价

因为在文本分类中类别不平衡经常出现（某一类非常多其他类非常少），如果以所有类别的准确率来作为分类器的评判指标的话，就会出现一个问题，假如二类样本中，1类占到了90%，2类只有10%，那么大多数分类器只需要将所有样本都判为1类就有90%的准确率。但是我们可能更关注那10%的类别，这样的分类器对我们来说相当于没有效果的分类器，是不可接受的。所以在评价分类器效果时，引入了信息检索中的混淆矩阵：

传统的准确率计算公式就是图中的Accuracy，考量了分类器对于两个类别的总体的分类效果，由于其在不平衡样本中效果不好，所以提出了精度和召回率这两个指标。

精度：反映了被分类器判定的正例中真正的正例样本的比重。

召回率：也成为True Postive Rate，反映了被正确判定的正例占总的正例的比重。

这两个指标都100%的分类器几乎不存在（就连人都很难做到），并且经过实验发现，这两个指标在同一场景中具有互斥的性质。当精度较高的时候往往召回率较低。往往需要我们在面对具体问题时具体分析，例如在本文所描述的情感分析中，我们更加关注10%的2类，希望判定2类的准确度越高越好，那么这时候2类的召回率会比较低（可能不到50%），但是精度会相对来说较高（可能在70%-80%左右）；若如果我们认为希望2类的文章多一些，则在挑选分类器的时候更看重哪些召回率较高的。不过也有牛人为了帮助哪些“选择困难症患者”帮助挑选分类器，提出了F-measure检验，以此同时考虑两者的结果。

以上是经常被用的到F1指标，其扩展形式为：

可以看到，F1即为β取1时的特殊情形。

三、进行情感分析

种子词库

在真正开始前，首先想想人看到一句话是如何思考的。
比如：今天天气不错。对于今天和天气来说，只是具体的对话对象，表明讨论的是今天的天气；而真正起作用的是‘不错’，表明今天的天气令人很舒畅，或者心情变好。因为才会得出‘今天天气不错’是正面的评价。
这里我们不关心具体的评价对象，但是可以很清楚看出某些词对于情感倾向识别是起关键作用的。那么我们是否可以建立一个标准情感词库作为情感分析的种子词库呢？答案是肯定的。
情感倾向的种子词库建立是通过分析语料库，首先对语料库去除停用词，然后对与其中的词进行分类，分别为：正面、负面、中性。比如：

正面：不错、很好、很棒、伟大
负面：不好、很坏、讨厌、无用
中性：手机、地球、一般、还行

文档频率和文档共现频率

文档频率是指某一个词在文档中出现的次数，用 $p(w)$ 表示。
文档共现频率是指在同一个文档中共同出现的词的出现次数，用 $p(w_{}1,w_2)$ 表示。
假设我们有很多商品评价或者微博比如下面的形式：

1.xxxxxxxx
2.xxxxxxx
3.xxxx
4.xxxxxx

那么如何统计 $p(w)$ 和 $p(w_{}1,w_2)$ 的呢？
$p(w)$ 通过（词出现的文档数）/（总文档数）计算得到。
$p(w_{}1,w_2)$ 通过（ $\large w_{1}$ ， $\large w_{2}$ 共同出现的文档数）/（总文档数）计算得到。

PMI互信息

PMI（Pointwise Mutual Information）,中文称为互信息，描述的是两个事件在概率分布上的近似度量。计算公式如下：

$\large pmi(w_1,w_2)=log(\frac{p(w_1,w_2)}{p(w_1)*p(w_2)})$
如果 $\large w_{1}$ 和 $\large w_{2}$ 分布是相互独立的，那么 $\large p(w_1,w_2)=p(w_1)*p(w_2)$ ， $\large pmi(w_1,w_2)=log1=0$ 。
相反，如果 $\large w_{1}$ 和 $\large w_{2}$ 2的分布不是相互独立的，那么 $\large p(w_1,w_2)>p(w_1)*p(w_2)$ ，并且相关性越强 $\large pmi$ 的值越大，说明 $\large w_{1}$ 和 $\large w_{2}$ 共现携带的讯息越多。这个也很好理解，比如美国和川普是经常一起出现的，因为美国的总统是川普。相反，川普和我的名字大概率是不会共现的，因为我两根本没啥关系。

情感分析得分

给每一个句子都给出一个情感得分score，得分是通过 $\sum（$ （待测短语的正面情感词的 $\large pmi$ ）− $\sum$ （待测短语的负面情感词 $\large pmi$ ）得到。
对于情感得分socre：

score>0表示正面情感

score=0表示中性情感

socre<0表示负面情感

编码

有了上文的准备工作就可以进行编码了，代码逻辑为：

1、统计和保存 $p(w)$ 和 $p(w_{}1,w_2)$ ；

2、统计和保存 $\large pmi(w_1,w_2)$ 矩阵;

3、分别计算待测短语中词与正面情感词库所有词的 $\large pmi$ ，将得到的 $\large pmi$ 相加得到 $\large \sum pmi(w_{i},w_{p})$ ；

4、分别计算待测短语中词与负面情感词库所有词的 $\large pmi$ ，将得到的 $\large pmi$ 相加得到 $\large \sum pmi(w_{i},w_{n})$ ；

5、计算情感倾向总得分 $\large score=\sum pmi(w_i,w_p)-\sum pmi(w_i,w_n)$ ；