2023年第二届全国大学生数据统计与分析竞赛题目B:电影评分的大数据分析

竞赛信息

在大数据时代背景下,统计学作为大数据分析领域的基础显得尤为重要。为了帮助学生更好的学习和应用数据统计与分析的知识,促进统计、计算机、数学等相关专业的发展,培养具有数据分析与应用型人才,经研究决定,中国国际经济技术合作促进会教育发展工作委员会决定主办“第二届全国大学生数据统计与分析竞赛”(以下简称“竞赛”),为我国数据统计与分析行业提供人才支持,夯实人才队伍基础。欢迎各高等院校按照竞赛章程及有关规定组织同学报名参赛。

问题一:请分析附件 1 中最受欢迎的电影类型是什么?排名前 250 名电影中 出现次数最多的导演前 10 名是谁?出现次数最多的国家前 5 名是哪

读取附件1数据

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.sans-serif'] = 'SimHei' # 设置中文显示
plt.rcParams['axes.unicode_minus'] = False

encodings = [*****]

for encoding in encodings:
 *******
        break
    except UnicodeDecodeError as e:
        print(f"{encoding} 编码解析失败")
#详细代码+企鹅2869955900
data.info()

输出

 最受欢迎的电影类型是什么

# 提取电影类型列
movie_genres = data['电影类型']

# 初始化一个字典用于存储每种类型的出现次数
genre_count = {}

# 遍历每部电影的类型
for genres in movie_genres:
    ****
    
    # 遍历拆分后的类型列表,统计每种类型的出现次数
    for genre in genre_list:
        if genre not in genre_count:
            *****
        else:
            *****

# 输出统计结果
print(genre_count)

 输出

import seaborn as sns

a = **********

# 创建一个图形和轴对象
******

# 使用Seaborn绘制条形图
*********

# 设置标题和坐标轴标签
ax.set_title('电影类型数量分布', fontsize=16)
ax.set_xlabel('电影类型', fontsize=14)
ax.set_ylabel('数量', fontsize=14)

# 旋转x轴刻度标签,以便更好地显示
plt.xticks(rotation=45)
plt.savefig('电影类型数量分布.png',bbox_inches = 'tight')
# 显示图形
plt.show()

 输出

排名前 250 名电影中出现次数最多的导演前 10 名是谁?

data['导演']**********

# 导演数据
directors = ***
# 提取数据
names = list(directors.keys())
values = list(directors.values())

# 设置图表样式
plt.style.use('ggplot')

# 创建柱状图
*****

# 设置标题和坐标轴标签
ax.set_title('Top 10 Directors')
ax.set_xlabel('Director Names')
ax.set_ylabel('Number of Movies')

# 自动调整x轴标签角度以避免重叠
plt.xticks(rotation=45)
plt.savefig('排名前 250 名电影中出现次数最多的导演前 10 名是谁.png',bbox_inches = 'tight')
# 显示图表
plt.show()

 

出现次数最多的国家前 5 名是哪些国家

data['国家']************

# 数据准备
countries = ['美国', '日本', '中国香港'*****]
counts = *****

# 创建柱状图
plt.figure(figsize=(10, 6))
ax = sns.barplot(x=countries, y=counts)

# 添加数据标签
for i in range(len(countries)):
    *********

# 设置标题和坐标轴标签
plt.title('Top250电影出现次数最多的国家前5名', fontsize=20)
plt.xlabel('国家', fontsize=15)
plt.ylabel('出现次数', fontsize=15)
plt.savefig('出现次数最多的国家前 5 名是哪些国家.png',bbox_inches = 'tight')
# 显示图表
plt.show()
详细代码+企鹅2869955900

猜你喜欢

转载自blog.csdn.net/FUYUJIAN1/article/details/131136242