2023全国大学生数据统计与分析竞赛选题建议及思路

大家好呀,今早10点比赛开赛,在这里给大家带来初步的选题建议及思路。

首先是主基调:

难度都不大,更推荐大家选择A题,内容会更充实一些,图表也会比较丰富。因此本次先做A题,B看大家需求情况再定。总体而言难度都不大,A除了统计分析主要就是时间序列模型,B则涉及到文本划分或者词云图绘制,以及相关性分析。预计今晚到明早更新A完整论文及讲解视频。

接下来详细讲讲初步思路吧,图文版讲解可能不够详细,大家可以移步视频版讲解:

2023全国大学生数据统计与分析竞赛选题建议及思路_哔哩哔哩_bilibili

A题世界人口的预测与分析

问题一:请绘制全球 1950~2021 年总人口随时间变化的趋势折线图,分析整 体人口的变化趋势,然后分别统计所有国家 2011~2021 的人口增长率和增长人数。 给出人口增长率最大的前 10 个国家和最小的后 10 个国家名单,人口增长数最多的前 10 个国家和最少的后 10 个国家名单。

题目给出的是每一个国家每一年的人口数:

所以首先是要计算每一年的总人口数。计算之后,绘制趋势图

之后单独调出来2011和2021年的数据,计算增长人数和增长率。

最后统计一下排名就行了。

问题二:请比较 2021 年不同国家的总人口数,绘制不同国家总人口数的柱 状图,并给出总人口最多的前 10 个国家和最少的后 10 个国家名单。

很简单的统计可视化

问题三:请任选三个国家,分别绘制不同年龄段人口的直方图,对比分析年龄分布的异同点,并结合这三个国家的国情分析不同年龄段人口的分布原因。

统计分析后,可以做一下频数对比或者差异性分析,之后必须要搜集相关资料解释每个国家人口结构的内因。

问题四:请建立人口预测的数学模型,然后分别预测到 2100 年底中国、印 度和全球的总人口数,并分析人口的变化趋势。

时间序列分析即可,中国和印度的都有数据,总人口则是用第一问得出的汇总表格,然后无脑时间序列预测就行,预测到2100年,79个单位。

OK,A基本就这个思路,我目前正在写,预计今晚到明早更新完整论文。

B题:电影评分的大数据分析

问题一:请分析附件 1 中最受欢迎的电影类型是什么?排名前 250 名电影中 出现次数最多的导演前 10 名是谁?出现次数最多的国家前 5 名是哪些国家?

导演很好统计,

重点是类型和国家,这里面很多是多项的,由于多项交叉的原因,我们不能直接去进行汇总统计,如果这么做的话,那本质上是把两三个在一起的作为一种类型了。

所以要么是分词之后进行统计,要么就是绘制词云图。

问题二:请分析附件 1 中排名前 250 名电影的上映年份主要集中在哪几年? 排名前 250 名电影的评分与评论人数、国家、导演和电影类型是否有关系?

第一个很简单频数分析;第二个则涉及到相关性分析,绘制一下热力图看看相关性的大小

问题三:请你们收集相关数据,分析附件 2 中电影票房较高的电影主要是什 么类型的电影?并给出这些电影的上映时间、总票房(元)、平均票价和平均场次 的相关统计图表。

豆瓣搜一下每个电影类型;之后统计可视化即可

问题四:某导演拟定于 2024 年春节档推出一部电影,请从数据分析的角度 给导演一个提案,例如考虑:电影的类型、题材、上映时间、票价等方面。

总结全文给一个提案即可。

OK,总体而言,本次数据统计与分析竞赛难度不算大,推荐大家选择A,内容更充实更偏向数学建模一些,我预计今晚到明早更新完整论文哈,B的话看大家需求的情况再定做不做吧。

OK以上只是比较简略的图文版讲解,我目前正在写A题完整论文,视频版讲解及后续完整成品预约可以点击下方我的个人卡片查看哈↓:

猜你喜欢

转载自blog.csdn.net/smppbzyc/article/details/131144062