基于词典和弱标注信息的电影评论情感分析系统

   声明:
             本博客中的VIP系列博客内容严禁转载,未经允许不得以任何形式进行传播,违者追究侵权责任!   
 

 

              基于词典和弱标注信息的电影评论情感分析系统

                                                                                                                                   ——沂水寒城

            情感分析的方法包括基于情感词典的方法,有监督的机器学习方法和无监督的机器学习方法。基于情感词典的情感分析方法就是通过构建一个包含各类情绪的情感词典,制定评价规则,对文本进行拆句、分析及匹配词典,通过分析文本中的正向情感词和负向情感词数目来计算情感值,从而得到每部电影正向、负向和中立情绪的比例,最后以情感值来作为文本评论数据情感倾向判断的依据。机器学习的方法需要的是大量人工标注的语料作为训练集,运用机器学习或算法等方式训练模型,得出模型后再用来分类判断新本文的情感倾向。

 

本文研究工作的线路规划:
1、构建Python爬虫来爬取豆瓣的影评数据,经过数据分词和词性标注,其中的词性标注要是弱标注。

2、以HowNet和NTDSP为基础,PMI为技术来制作电影领域的情感词典,根据情感词典来找到情感词并标注它的位置,再向前查找否定词和程度副词,在计算情感值。

3、通

猜你喜欢

转载自blog.csdn.net/Together_CZ/article/details/99081498