推荐系统研究相关的数据集

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/haolexiao/article/details/76214754

因为最近要做一些关于推荐系统相关的研究,所以查阅了一些资料,总结一下市面上能用到推荐系统研究方面的常用公开数据集。

作者:张昭 haolexiao

Jester在线笑话评分数据集

这个数据集是Jester这个伯克利专门用来收集数据集的在线笑话网站http://eigentaste.berkeley.edu/,类似于外文的糗事百科,不过更侧重于冷笑话。然后每个笑话展示后用户可以依据好笑程度打分。然后伯克利把这个数据集公开了。数据集地址:

http://eigentaste.berkeley.edu/dataset/

数据集中包含笑话文本本身,用户给不同笑话的打分情况。数据集由少到多分为:

  1. item Dataset 1: Over 4.1 million continuous ratings (-10.00 to +10.00) of 100 jokes from 73,421 users: collected between April 1999 - May 2003.
  2. item Dataset 2: Over 1.7 million continuous ratings (-10.00 to +10.00) of 150 jokes from 59,132 users: collected between November 2006 - May 2009.
  3. item Dataset 2+: An updated version of Dataset 2 with over 500,000 new ratings from 79,681 total users: data collected from November 2006 - Nov 2012
    都可以在网站上下载到

MovieLens电影评分数据集

这个也是一个非常经典的数据集,数据集地址:

https://grouplens.org/datasets/movielens/

有用户对电影的评分,tag数据量也蛮大的,有24,000,000 ratings and 670,000 tag applications applied to 40,000 movies by 260,000 users

Last.fm音乐推荐数据集

这个是数据集还是蛮丰富的,有用户信息,用户听艺术家信息歌曲的信息,还有用户对艺术家打标签的侵袭,更有用户之间好友信息,数据量1892 users,17632 artists
数据集地址:

https://grouplens.org/datasets/hetrec-2011/
(其实这个数据集地址跟上面那个都是在一块的)

这个数据集拿来做推荐的话,可以把艺术家播放次数作为用户的评分

Book-Crossing图书评分数据

这个数据集包含110万个用户的110万本书的110万册评价。评级范围从1到10,还包括隐性评级。
数据集地址:

http://www2.informatik.uni-freiburg.de/~cziegler/BX/

不过这个数据集太稀疏了【听说是现有出名的数据集中最稀疏的】

Netf电影评分数据集

这个是曾经Netflix的一个比赛中提供的数据集,有480,000 用户对超过17,000部电影,总共超过1亿条打分数据,600多M还是非常良心的。
数据集地址:

http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a

libimseti约会数据集

类似于一个世纪佳缘网站的约会网站,用户对其他用户的简历的打分数据。总共168,791份简历,135,359的用户去打分,总共有17,359,346份评分
数据集地址:

http://www.occamslab.com/petricek/data/

Amazon Fine Food Reviews数据集

这个是kaggle提供的一个数据集,亚马逊用户对食物的评分数据,总共有568,454条评价,还包含评分,还有其他用户觉得是否评价是否有用。

数据集地址:
https://www.kaggle.com/snap/amazon-fine-food-reviews

其他人总结的一些数据集

找数据集的时候,找到一些人总结的git,可以供参考:

https://gist.github.com/entaroadun/1653794

https://github.com/hackreduce/Hackathon/wiki/Datasets

http://www.kdnuggets.com/2016/02/nine-datasets-investigating-recommender-systems.html

猜你喜欢

转载自blog.csdn.net/haolexiao/article/details/76214754
今日推荐