movielens数据集读取、转换 - 代码天地

movielens数据集读取、转换

其他 2018-07-26 22:09:52 阅读次数: 0

【1】从https://grouplens.org/datasets/movielens/上下载数据集，包含6000用户，4000多电影的100万条数据

【读数据】

import pandas as pd
import numpy as np
users_Name=['user_id','gender','age','work','zip']
ratings_Name=['user_id','movies_id','ratings','timeStamp']
movie_Name=['movie_id','title','calss']
users=pd.read_table('ml-1m/users.dat',sep='::',header=None,names=users_Name)
ratings=pd.read_table('ml-1m/ratings.dat',sep='::',header=None,names=ratings_Name)
movies=pd.read_table('ml-1m/movies.dat',sep='::',header=None,names=movie_Name)
print('用户表记录数:',len(users),'评分表记录数：',len(ratings),'电影表记录数：',len(movies))
print('**********用户表前五条记录**********')
print(users.head(5))
print('**********评分表前五条记录**********')
print(ratings.head(5))
print('********电影表前五条记录************')
print(movies.head(5))

【只需要ratings数据，dataFrame转换成字典，字典的值为产品列表】

#先转成array

d1=np.array(ratings[['user_id','movies_id']])
#再转成列表
listdata=d1.tolist()
data={}
for i in range(len(listdata)):
    #获取列表中的第一个元素 用户Id
    userid=listdata[i][0]
    movieid=listdata[i][1]
    #判断用户id是否存在
    if userid not in data.keys():
        #设置字典值为列表，允许有重复
        # 如果没重复，可以写为data.setdefault(userid,{})[movieid]=1
        # data.setdefault(userid,[]).append(movieid)
        data.setdefault(userid, []).append(movieid)
    else:
        data[userid].append(movieid)
# for user,movie in data.items():
#     print('用户ID：',user,'       产品列表：',movie,'\n')
# with open('data.txt', 'wb') as f:
#    pickle.dump(data,f)
print('done'）

【划分训练集和测试集】

两种方法见：http://mp.csdn.net/postedit/79582513

猜你喜欢

转载自blog.csdn.net/brave_jcc/article/details/79575105

movielens数据集读取、转换

如何把Netflix数据集转换成Movielens格式？

机器学习(6) MovieLens数据集

MovieLens 1M 数据集

MovieLens 1M数据集

【工具】Movielens数据集详细介绍

推荐系统数据集之MovieLens

UserCF算法在MovieLens数据集的运用

ItemCF算法在MovieLens数据集的运用

数据分析实例-MovieLens 1M 数据集

ch02-MovieLens-1M数据集

推荐系统笔记（二）：常用数据集Movielens学习

《利用python进行数据分析》————MovieLens 1M数据集

在MovieLens数据集上用SVD进行评分预测【修正后】

利用movielens数据集实现基于物品的协同过滤推荐

Spark Hive实现基于协同过滤的电影推荐(MovieLens数据集)

pytorch读取数据集

pandas 读取数据集

图片数据集读取

Pytorch数据集读取

利用python进行数据分析——第二章引言（1）：利用pandas对MovieLens数据集简单处理

crnn转换数据集

转换数据集格式

常用数据集转换

Python读取IRIS数据集并转换为PaddlePaddle中使用的reader

Movielens/IMDB电影数据分析(三)

Movielens/IMDB电影数据分析(二)

Movielens/IMDB电影数据分析(一)

读取数据集代码注释

Python读取MNIST数据集

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)