目录
概述
我通过爬虫爬取了豆瓣电影全站,一共有7w+电影数据,当然肯定有一定的遗漏,而且爬取到的很多电影数据都是0评价、0评论,这些都要清洗掉,下面开始对这个电影数据进行分析。
更详细的版本见豆瓣电影全站 数据分析
评分分布情况
豆瓣电影的平均评分分布
从图可以看出,豆瓣电影平均评分基本符合正太分布,6-8分左右的电影最多。
下面是具体的统计数据(这里只统计了有效数据):
count 31920.000000
mean 6.632892
std 1.355509
min 2.000000
25% 5.900000
50% 6.800000
75% 7.600000
max 9.800000
中国大陆的豆瓣电影的平均评分分布
从图可以看出,中国大陆拍摄的电影在豆瓣上的平均评分明显低于全部的电影的平均评分。
下面是具体的统计数据(这里只统计了有效数据):
count 3681.000000
mean 5.585982
std 1.731167
min 2.000000
25% 4.200000
50% 5.700000
75% 7.000000
max 9.600000
电影年份分析
1940-2018
下面我统计了从1940-2018年的电影数量:
2000-2018
下面放大看下2000年之后的电影数量:
这里需要注意的是2018年还没过完,所以这里只是到目前为止的电影总数。
电影评分和年份的关系
总有人说现在电影越拍越差,究竟这个说法有没有依据?
1940-2018
2000-2018
看来不是错觉,从统计结果来看,近年来电影平均评分直线下降!
电影时长分析
不同时长电影数目统计
首先先看下电影的时长分布情况。
这里可以看出,大部分电影时长在90分钟左右。
电影时长和年份关系
究竟是过去爱拍超长电影,还是现代更爱拍超长电影呢?
不出所料,过去比现在更爱拍长电影。
电影类型分析
由于一本电影可能有多种类型,这里统计的是每个类型出现的数目(一共有16w条类型数据)。
RangeIndex: 164240 entries, 0 to 164239
Data columns (total 3 columns):
genres 164240 non-null object
rating_average 164240 non-null float64
durations 164240 non-null int64
dtypes: float64(1), int64(1), object(1)
电影类型数目统计
这里可以看出,剧情片数目遥遥领先。
电影类型和评分的关系
电影类型跟评分有没有关系呢?
这个有点没想到,看来电影的类型对评分还是有不小的影响的,从统计结果来看,音乐、传记等相对小众的电影等受众比较少的类型评分相对比较高,而惊悚、恐怖电影评分比较相对差,大概是部分差评国产恐怖电影拉低了评分。
电影类型和时长的关系
电影类型跟时长有没有关系呢?
仔细一看,还是挺符合情理的,历史、传记之类的电影确实时间比较长!
电影出品国家分析
由于一本电影可能有多个国家,这里统计的是每个国家出现的数目(一共有9w条国家数据)。
RangeIndex: 90555 entries, 0 to 90554
Data columns (total 2 columns):
countries 90555 non-null object
rating_average 90555 non-null float64
dtypes: float64(1), object(1)
电影出品国家数目统计
美国遥遥领先,中国大陆电影在数目上也不占优势。
电影出品国家和评分的关系
苏联高居榜首,中国大陆垫底。
各项评分、评论等参数之间的相关性
下图显示的是两个变量间的皮尔逊相关系数(两个变量间协方差和标准差的商),越接近1代表正相关,越靠近-1代表越负相关,0就是代表这两个变量间增长没有任何关系,“rate”
表示评分(10分满分),“stars”
表示豆瓣星级(5星为满级),“1,2,3,4,5”
,分别代表“一星,二星,三星,四星,五星”占比情况,“wish”
表示这部电影想看的人数,“collect”
表示这部电影看过的人数,“comments”
,“ratings”
分别代表这部电影的写了短评的人数及评价了的人数(打了分就算评价,不用写评论)。
短评数量和看过人数之间的关系
短评数量和看过人数呈正相关。
二星评分和四星评分占比的相关性
二星评分和四星评分占比呈负相关。