在这篇博客中主要会罗列一下推荐系统中需要中研究和开发可能会用到的数据集,这个博客日常更新所用到或者接触到的数据集,每个数据集的内容主要包括两个部分:
- 数据集的简单介绍
- 涉及到的使用了这个数据集的可复现简单实验
如果有CSDNer有好的数据集推荐或者新出的数据集可以在下方留言,欢迎讨论。
1 MovieLens
1.1 数据集介绍
MovieLens数据集主要提供了四个可供利用的数据集:
-
recommended for new research
MovieLens 25M 数据集是一个稳定的基准数据集,这个数据集中包含了13.8万用户对2.7万个电影的2000万的评分数据和46.5万的标签评分数据。此外这个数据集中还包含了在1129个标签之间150万的标签基因数据。 -
recommended for education and development
-
synthetic datasets
-
older datasets