情感分析语料

因为项目要求,主要先收集英文的语料库来进行模型的训练。

一、英文

1.(可下载) 康奈尔大学(Cornell)提供的影评数据集 - http://www.cs.cornell.edu/people/pabo/movie-review-data/

由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应用于各种粒度的,如词语、句子和篇章级情感分析研究中.

2. 伊利诺伊大学芝加哥分校(UIC)的Hu 和Liu 提供的产品领域的评论语料:主要包括从亚马逊和Cnet 下
载的五种电子产品的网络评论(包括两个品牌的数码相机,手机,MP3 和DVD 播放器).其中他们将这些语料按句
子为单元详细标注了评价对象,情感句的极性及强度等信息.因此,该语料适合于评价对象抽取和句子级主客观

识别,以及情感分类方法的研究.此外,Liu 还贡献了比较句研究[74]方面的语料.

3. (可下载)Janyce Wiebe 等人所开发的MPQA(Multiple-Perspective QA)库:包含535 篇不同视角的新闻评论,它是一个进行了深度标注的语料库.其中标注者为每个子句手工标注出一些情感信息,如观点持有者,评价对象,主观表达式以及其极性与强度.文献[75]描述了整个的标注流程.MPQA 语料适合于新闻评论领域任务的研究.

4. 麻省理工学院(MIT)的Barzilay 等人构建的多角度餐馆评论语料:共4,488 篇,每篇语料分别按照五个角
度(饭菜,环境,服务,价钱,整体体验)分别标注上1~5 个等级.这组语料为单文档的基于产品属性的情感文摘提供

了研究平台.

5. Hownet - http://www.keenage.com/html/e_index.html

6. 多域情感数据集包含从亚马逊网站获得的来自4种产品类型(域)的产品评论:厨房,书籍,DVD和电子产品。每个域名都有几千条评论,但确切数量因域而异 - http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html

二、中文:

1. 酒店评论语料

http://www.datatang.com/data/11936 

谭松波整理的一个较大规模的酒店评论语料。

语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。

2. 豆瓣网影评情感测试语料

http://www.datatang.com/data/13539 

来自豆瓣网对电影《ICE AGE3》的评论,评分标准均按照5 stars评分在网页中有标注。语料至527页。每页20条短评。共计11323条评论。

3. 酒店、电脑与书籍的评论语料

http://www.datatang.com/data/11937

数据量不太大,也有一些重复的数据。

4. 评论网页数据集

http://www.datatang.com/data/12044

数据量不小,包括的电影和评论都不少

猜你喜欢

转载自blog.csdn.net/sinat_36972314/article/details/79646778