【Paper Note】基于情感分析和关系网络的影视产品评论数据文本挖掘研究

中国知网链接

摘要

[目的]为了挖掘观众对影视产品的主观感受，建立合适的模型评估影视产品的质量。 [方法]本文通过对web影视作品评论数据建立评估模型，通过LDA和关系网络进行分析研究，并将结果与影视作品的网站评分做比较，从而得到较为准确的分析结果。[结果]对影视作品的评论数据进行文本挖掘分析，能够得到观众的主观情感评分，更加客观地反映影视作品的质量高低。[结论] 模型对于主观性强的评论数据具有较为可信的评估效果，研究方法也可应用于电商评论分析、舆情数据情感分析等方面。
关键词: LDA；关系网络；情感分析；影视评估；文本挖掘

Abstract

[Objective] In order to dig the audience’s subjective sentiment on the film and television products, and establish a suitable model to evaluate them. [Methods] This paper establishes the evaluation model to film review data through LDA and relational network. Compared the results with the scores of film website, we obtain more accurate analysis results. [Results] We can get the audience’s subjective sentiment scores from analyzing the film review data with more quality. [Conclusions] There is a believable result about strong-subjective review data, also, the method is applied to the e-commerce and sentiment analysis of public opinion data.
Keywords：LDA；Relational Network；Sentiment Analysis；Film Evaluation；Text Mining

1 引言

在电影和电视剧市场，如何评估与定制影视剧一直是影视制作的焦点问题，影视产品的质量高低，直接影响其市场价值、收视率以及社会影响力。在全球数据飞速增长的当下，应用大数据的挖掘方法和分析工具来对电视剧市场进行分析与预测，可以得到电视剧题材与制作团队的最佳组合，从而辅助制片人降低投资风险，提高剧本质量，增加收视率，以求获得最大收益，在此过程中，制作团队的最佳组合，导演、演员与影视题材的合理性搭配，会对上文中提到的评估因素造成影响。
目前，对文本挖掘展开的研究主要在中文文本分词[1][2]、情感倾向性分析[3]、构建情感词典[4]等方面[5]-[8]，樊娜等人对中文文本情感主题句进行研究[9]，采用条件随机场模型，选取情感倾向和转移词两类特征，提取情感主题句，偏重文本中语义概括和归纳能力，对语句中各个特征词的情感倾向计算较少；彭浩等人基于比较句对网络用户评论句进行情感分析[10]，可视化分析特征差异，从而识别用户情感倾向，但其特征抽取的准确性和比较句的识别率有待提高；吴江等人基于语义规则对web金融数据进行情感分析[11]，提出了基于Apriori的金融文本属性提取算法，突出计算情感强度，其算法在金融数据的处理方面精度较高，但未给出针对其他评论数据特征的解决方案。
基于以上分析，本文针对web影视作品评论数据展开情感挖掘，分析影视产品评论数据特点，给出影视产品评估模型，结合LDA和关系网络进行分析，并将输出结果与影视作品网站评分做比较，模型得到很好的验证。

2 影视产品评估模型及算法

2.1模型设计

影视产品评论数据与电商评论数据类似，但又存在不同，电商产品的购买者经常会受到卖家的影响，如好评返现等活动，使得电商的评论数据中夹杂着不能反映评论者真实感受的语句，而影视产品评论均为观众观看之后根据自身感受进行的自发评论，主观性较强。根据这一数据特点，建立如图1的影视产品评估模型。
模型从数据的获取到情感计算输出给出了具体介绍：首先，基于Python和八爪鱼采集器进行数据获取，其次，对影视作品评论数据进行中文分词、文本去重等数据预处理，再次，建立LDA主题模型和关系网络进行情感分析，最后对比影视作品评分得出结论。模型具有如下特点：首先，模型充分考虑大数据的4V特征，结合影视评论数据匿名、公开、主观性等特征，以数据内容导向；其次，模型应用数据挖掘的方法及原理，通过对电视剧评论数据进行情感关系挖掘，从而得出各个影视产品的评分及其关系网络，本文的训练数据为2014年内地影视产品信息，通过收集2016年上半年内地影视产品字信息作为测试集，最终证明模型具有相当的准确性，对于分析影视评论数据中的情感关系具有一定的可靠性；最后，影视评论特征与电商评价特征类似，具有主观性和公开性，因此，此模型不仅可以对影视产品进行评估，也可将其应用到电商评论数据的情感分析中，模型具有普适性。

2.2数据来源及预处理

2.2.1数据爬取

该模型中的数据来源于互联网，大型网站具有反爬虫机制，实验中的数据通过八爪鱼采集器采集、Python爬虫两种方式收集，如图2、3所示。
文本评论数据中存在着大量的低价值条目，如果将这些条目直接进行情感分析，将会影响模型的精度，因此，需要通过文本去重、机械压缩去词、中文文本分词等步骤，将评论数据规范化，提高其价值密度。

2.2.2文本去重与机械压缩去词

以影视作品的每个评论文本为单位进行处理研究，由于用户在评论中会反复提到相同的词，表达意义相同，如：“非常好非常好非常好非常好”、“喜欢喜欢喜欢喜欢喜欢喜欢”这类评价语句，如果直接作为输入进入模型中，会对模型判断语句极性判断造成影响，因此，需要在预处理时对评论文本进行去重和去词处理，去重的规则较为简单，找到重复文本的同时比对与其相关的主谓宾语，从而确定重复文字是否描述同一事物，如图4所示，在本文研究中，只考虑评论数据的情感倾向，每条评论数据的权重相同。

2.2.3中文文本分词

在中文中，只有字、句和段落通过标点符号区分，而词与词之间的界定比较模糊，而在模型分析过程中，尤其是进行情感评分时，合理进行中文文本分词显得尤为重要。分词算法可分为：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法三类。

2.3算法设计

根据以上模型，应用LDA主题分析和关系网络两种方法进行建模分析。

2.3.1基于LDA模型的主题分析

文本情感分析又称意见挖掘，通过对自然语言的情感语义进行处理，对文本的住客观性、观点、情绪、极性的挖掘和分析，从中抽取情感词并通过情感程度进行评分。LDA模型在文本聚类、相似度计算等领域均有广泛应用，是一种无监督的学习，引入狄利克雷先验知识，提高模型的泛化能力，有效防止过拟合；此外，LDA模型可以解决多指代问题，在对影视作品评论数据进行分析时更具有优势。
LDA模型采用BOW将评论数据信息转化为数字信息，以便于进行数学建模，其基本原理如下：
每篇影视作品评论数据由主题Z按比例随机混合，并服从多项分布：

Z | θ = m u l t i n o m a i l (θ)

$Z|\theta = multinomail(\theta)$ 每个主题Z由词汇表中的词语按比例随机混合，也服从多项分布：

W | Z, ϕ = m u l t i n o m a i l (ϕ)

$W|Z\ ,\ \phi = multinomail(\phi)$ 在评论

d_{j}

$d_j$ 条件下生成词

w_{i}

$w_i$ 的概率为：

P (w_{i} | d_{j}) = \sum_{s = 1}^{K} P (w_{i} | z = s) P (z = s | d_{j})

$P(w_i|d_j)=\sum_{s=1}^{K}{P(w_i|z=s)P(z=s|d_j)}$
其中

P (w_{i} | z = s)

$P(w_i|z=s)$ 为词

w_{i}

$w_i$ 属于主题s的概率；

P (z = s | d_{j})

$P(z=s|d_j)$ 为主题s在

d_{j}

$d_j$ 中的概率。LDA模型示意图如图5所示：

其中， $\phi$ 为词分布， $\theta$ 为主题分布， $\alpha$ 为主题分布 $\theta$ 的先验分布， $\beta$ 为词分布 $\phi$ 的先验分布，N表示文档中单词的总数，M表示文档的总数，w为可观察变量。

2.3.2基于关系网络的评论分析

对于影视观众对影视作品的评价而言，作品与演员、作品与观众、演员与观众之间的关系网络具有很高的复杂性，具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点，形成有向图，评论数据的各个关键字为有向图的节点，关键字间的关系成为有向图的边，通过点与点之间的分析，得到观众对于影视作品的主观评价。
在关系网络中，将网络中散布密集的部分成为丛，这些丛的独立性与相关性直接体现关系网络中节点间的关系，从影视作品评论数据中提取的关键子具有从属关系，把握住这方面的从属关系，可以对观众的情感侧重方向进行分析研究，对于进行情感分析具有重要作用。

3 实例分析

3.1数据采集及预处理

以电视剧《何以笙箫默》为例，从视频网站上面爬取《何以笙箫默》的评论信息，包括电影评分和评论文本，进行数据预处理。
首先通过对评论数据进行去重、去词处理，使用ROSTCM6分词软件处理数据，得到评论数据的关键词如图6所示，处理得到的数据可用于进行情感分析和关系网络的研究。处理以后的文本中仍会存在如“每个”、“一部”等无关词汇，进行人工去除，有利于提高文本挖掘的准确度。

3.2模型结果分析

基于LDA主题模型进行情感分析，将评论语句进行主题划分，通过对文本中情感词的提取与计算得到评论语句的情感极性，引入狄利克雷先验知识，将评论文本中表达情感的词进行极性的主题划分，从而对此进行评论数据的情感分析研究；关系网络通过对提取的关键字建立有向关系，以关键字为节点，关键字的出现顺序形成节点间的有向关系，由此挖掘出观众对于该影视作品的评论侧重点，即观众关注的点，这些侧重点对于影视产品制作人的选题、演员等搭配具有重要的参考依据，并且，关系网络能够弥补LDA主题模型的不足，充分考虑关键词之间的从属关系，给出了评论关键词的网络关系。
将处理好的评论数据作为输入，通过模型得出评论语句的情感分析结果，如图7所示，给出了整句文本的情感计算结果，此外，模型对评论文本中的情感词进行统计评分，通过文本语义的分析来确定情绪的类别（积极情绪、中性情绪、消极情绪），得到用户对影视作品的主观评价和感受，这对于综合评价电视剧好坏尤为重要。
对电视剧《何以笙箫默》进行情感分析得到的观众评价数据的情绪类别结果如下：

从上表中可看出，观众对于《何以笙箫默》这部电视剧的主观评价很高，积极情绪占81.54%，由于评论数据为每一个观看过电视剧的观众的个人主观感受，将这些数据汇集在一起进行分析，得到的即为大多数观众对于这部电视剧的整体主观感受，反映出这部电视剧的好坏，如此，可统计出观众对每一部电视剧的主观态度，从而得到每部电视剧的指数排名。
与此同时，绘制评论文本关键词的关系网络，通过样本间关系及其先后顺序做出有向图，复杂网络清楚的展现出样本间的关系，如图8所示，是对电视剧《何以笙箫默》评论数据的关系网络图，从图中可以观察到评论内容的热点以及其他非热点评论与热点评论之间的关系。也可以更加清晰地反映影视作品的亮点与不足，从观众的评论数据中可以提取出有向关系，如“钟汉良——青春”等体现出演员特点和作品题材、“剧情——还原”等体现出影视作品的优点、“言情——配乐”体现出观众评价作品好坏的方面。通过关系网络的分析挖掘，可以得到观众对于影视作品的评价态度、作品特色、剧情发展、演员评价等信息。
通过LDA主题模型，我们可以得到评论语句的整体情感极性，但文本内部的情感词却没有进行判别，如评论语句“剧情很拖，重复剧情骗时常，演员设定挺好，演技也不错，配乐很好听”中既有对剧情的负面评价，又有对演员、配乐的正面评价，LDA模型输出结果为积极情感，再通过关系网络模型，可以得到“剧情——骗时常”、“演员——演技好”、“配乐——好听”等有向关系，由此可了解观众对于这部作品的侧重点在剧情、演员和配乐上，综合以上分析，给出情感评分更具现实意义。
在数据爬取的过程中，获得的数据包括影视作品评分及评论文本，通过模型输出的结果与各个视频网站的影视作品评分进行比对：对于评分高的影视作品，其情感分析结果相对较高，这种相似性表明，通过对评论数据的文本挖掘，其结果可以很好的反应观众对于影视作品的主观感受。

4 结束语

本文通过对影视产品评论数据的分析，给出了影视产品评估模型，在此基础上应用情感分析与关系网络对模型的实用性与准确性进行评价，基于LDA主题模型进行情感分析可以对评论文本的关键词极性进行划分，关系网络弥补LDA模型的不足，可以充分考虑关键词间的从属关系，实例分析过程中，通过对2014年电视剧信息进行数据挖掘，给出评估结果，并与影视作品评分进行比对，证明模型的实用性，同样，由于电商评价数据与影视评论数据都具有主观性、公开性和匿名等特征，因此，模型也可应用到电商评论数据的情感分析中。模型给出了对主观性较强的评论数据的评估方法，通过实例证明其准确度较高，但未对评论数据中重复词语的情感强度进行分析研究，这将是下一步的研究内容。

参考文献：

[1]湛燕,陈昊,袁方,王熙照. 基于中文文本分类的分词方法研究[J]. 计算机工程与应用，2003(23)：87-91
[2]周宏宇,张政. 中文分词技术综述[J]. 安阳师范学院学报,2010(2)：54-56
[3]马晓玲,金碧漪,范并思. 中文文本情感倾向分析研究[J]. 情报资料工作，2013(1):52-56
[4]周咏梅,杨佳能,阳爱民. 面向文本情感分析的中文情感词典构建方法[J]. 山东大学学报(工学版)，2013,43(6):27-33
[5]周立柱,贺宇凯,王建勇. 情感分析研究综述[J]. 计算机应用，2008,28(11):2725-2728
[6]杨立公,朱俭,汤世平. 文本情感分析综述[J]. 计算机应用，2013,33(6): 1574-1578,1607
[7]赵妍妍,秦兵,刘挺. 文本情感分析[J]. 软件学报，2010,21(8): 1834−1848
[8]张紫琼,叶强,李一军. 互联网商品评论情感分析研究综述[J]. 管理学学报，2010,13(6):84-96
[9]樊娜,蔡皖东,赵煜,李慧贤. 中文文本情感主题句分析与提取研究[J]. 计算机应用，2009(4):1171-1176
[10]彭浩,徐健,肖卓. 基于比较句的网络用户评论情感分析[J]. 现代图书情报技术，2015，265(12):48-56
[11]吴江,唐常杰,李太勇,崔亮. 基于语义规则的Web金融文本情感分析[J]. 计算机应用，2014，34(2) : 481-485,495