数据分析电影

其他 2019-03-13 18:39:05 阅读次数: 0

import pandas as pd
import threading
from pandas import Series
import time

start = time.perf_counter()
unames = [‘user_id’, ‘gender’, ‘age’, ‘occupation’, ‘zip’]
users = pd.read_table(‘users.dat’, sep=’::’, header=None, names=unames, engine=‘python’)
rnames = [‘user_id’, ‘movie_id’, ‘rating’, ‘timestamp’]
ratings = pd.read_table(‘ratings.dat’, sep=’::’, header=None, names=rnames, engine=‘python’)
mnames = [‘movie_id’, ‘title’, ‘geners’]
movies = pd.read_table(‘movies.dat’, sep="::", header=None, names=mnames, engine=‘python’)

通过切片查看是否正常工作

print(users[:5])

print(ratings[:5])

print(movies[:5])

将数据合并到一起

data = pd.merge(pd.merge(ratings, users, on=‘user_id’), movies, on=‘movie_id’)

print(data[:2])

计算每部电影评分得分

mean_ratings = data.pivot_table(‘rating’, index=‘title’, columns=‘gender’, aggfunc=‘mean’)

print(mean_ratings[:5])

对电影分组

ratings_by_tittle = data.groupby(‘title’).size()

print(ratings_by_tittle[:3])

过滤不够250条的电影数据

active_titles = ratings_by_tittle.index[ratings_by_tittle >= 250]
mean_ratings = mean_ratings.loc[active_titles]
top_female_ratings = mean_ratings.sort_values(by=‘F’, ascending=False)

计算评分分歧

mean_ratings[‘diff’] = mean_ratings[‘M’] - mean_ratings[‘F’]
sorted_by_diff = mean_ratings.sort_values(by=‘diff’)

根据电影名称分组的得分数据的标准差

ratings_by_tittle = data.groupby(‘title’)[‘rating’].std()

根据active_titles进行过滤

ratings_by_tittle = ratings_by_tittle.loc[active_titles]

根据值对series进行降序排列

ratings_by_tittle.sort_values(ascending=False)[:10]
elapsed = (time.perf_counter() - start)
print(elapsed)

猜你喜欢

转载自blog.csdn.net/qq_38501057/article/details/88427233

数据分析电影

电影数据分析

豆瓣电影数据分析

初学数据分析-电影分析2

数据分析案例 4 电影数据分析统计

Rotten Tomatoes 电影数据分析

初识sparklyr—电影数据分析

数据分析案例之电影推荐

Movielens/IMDB电影数据分析(一)

Movielens/IMDB电影数据分析(三)

Movielens/IMDB电影数据分析(二)

豆瓣电影(二)：数据分析

jupyter notebook 电影数据分析

电影Top25数据分析

基于hadoop豆瓣电影数据分析

【数据分析实战】数据分析及可视化实战：豆瓣电影数据分析

数据分析案例-电影数据可视化分析

数据分析（一）豆瓣华语电影分析

数据分析实战——电影《少年的你》影评分析

《利用Python进行数据分析》电影数据

猫眼电影之哪吒数据爬取、数据分析

【python数据分析实战】电影票房数据分析(一)数据采集

Kaggle——TMDB 5000 Movie Dataset电影数据分析

数据分析之解析电影中如下问题

Python数据分析豆瓣电影Top250

【Python】爬虫之豆瓣电影大数据分析

数据分析案例：统计电影分类的情况

基于Hadoop豆瓣电影数据分析（综合实验）

pyecharts实现电影数据分析可视化

数据分析案例：统计电影分类情况

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)