二手车数据分析-爬取人人车二十余万条线上二手车数据

我国汽车保有量近年来持续高速增长,二手车交易也正蓬勃发展,涌现出瓜子、优信、人人车,等大量二手车交易网站。

这次就通过在线抓取人人车发布的线上二手车数据,对目前二手车的交易情况进行分析。

使用工具:

  • 数据抓取:Requests(发送请求)、Beautifulsoup(数据解析)
  • 数据清洗:Pandas
  • 分析展示:Excel、Tableau、Seaborn

抓取的数据信息如下:

  • 抓取时间:2019年3月初
  • 数据来源:人人车各城市网站展示可供交易二手车
  • 数据量:共抓取98万条数据,去除重复后共258597条数据
  • 抓取字段:

   

关于数据获取及清洗的过程这里就不做展示,详情请见:

接下来即是对二手车数据的分析过程。

一、二手车资源分布情况

1. 二手车数量分布情况

人人车的二手车资源主要分布在我国东南沿海地区各大城市及中部地区各大省会城市,其中尤以珠三角、长三角地区为突出。

如图1:

  

                          图1. 各地区二手车数量分布 

                    (图标大小代表车辆数量多少,图标颜色代表品牌数量多少)

推测人人车在全国范围内推广的策略为:

  • 北京-武汉-深圳,成都-武汉-上海 两条连线为重心,构成十字交叉线对周围区域进行辐射推广
  • 优先推广流动人员多、车辆需求量大、经济发达的东部沿海地区
  • 其余地区/省份不求数量规模,争取在省会城市进行品牌推广

如图2:

  

                图2. 十字交叉线

 

同时发现:

  • 东北地区辽宁省,只有大连拥有较少的线上二手车资源,面积广阔道路畅通且公共交通不算发达的省会城市沈阳完全没有线上二手车资源
  • 东南沿海地区,经济发达流动人口较大,但线上二手车资源较少,如福建省全省二手车才五千余辆,仅为北京地区一半的数量
  • 西南地区,气候优异旅游业发达,外来人口川流不息,而线上二手车资源着实稀少 

2. 二手车价格分布情况

在全国范围内,二手车价格平均值为10.3万元,中位数为7.0万元,极差为329.9万元,标准差为11.1万元,数据呈右偏趋势。

约 81.5% 的二手车价格在15万元以下,其中占比最多的为二到十五万元区间。

同时也不缺少高端车型,三十万元以上的二手车仍占有一定份额,约占比5%。

如图3:

    

              图3. 全国二手车价格分布直方图

3. 各城市二手车价格分布情况

各城市的二手车价格参差补齐,但多少都存在一些高价车辆,拉高车价均值。接下来使用车价的中位数进行展示。

如图4:

    

                      图4. 各城市二手车价格分布图

由此可见,人人车的战略确实着重于东南沿海城市,不论是二手车数量还是价格方面都比内陆城市更为优异。

其中西南地区虽然二手车数量/品牌稀少,但价格中位数明显高于其他地区。针对西南地区,应该是以质量取优,在当地做好品牌形象再逐渐扩充市场份额。

二、二手车属性

1. 二手车品牌信息

A. 各品牌在全国数量分布

全国范围内数量最多的自然是 大众 汽车,平均车价为9.9万元,占比约10%,市场表现的确符合其“大众”的品牌定位

福特/别克/现代 等一众常见汽车品牌,平均车价和数量占比均稍低于大众,共计约占比15%

奥迪/宝马/奔驰 三个豪华品牌合计占比约10%,其平均车价为二十至三十万元,由此可见 BBA 在豪华品牌入门级市场中的卓越号召力

其余品牌总市场占比约65%,但市场份额与平均车价普遍较低

如图5:

    

                      图5. 全国二手车品牌分布树形图

B. 数量前十的二手车型号

全国范围内,数量前十的二手车型号如图所示,总计32464辆二手车,占比12.55%。

主要为5-10万元的国民汽车,其中一半的车型为大众别克品牌。

宝马5系和奥迪A6L为数量排名第九第十的型号,在豪华品牌中其市场保有量突出。

如图6:

    

                        图6. 数量前十的二手车型号

2. 各年份二手车数量

二手车数量自2009年起迅速增加,至2015年达到顶峰,然后迅速减少。

约50%的二手车上牌日期在2013至2016年间,即车龄在3至6年之间。

车龄在3年内的二手车数量较少,只有3万辆,占比约11%。

如图7:

    

                    图7. 各年份车辆数量分布

3. 二手车里程分布

A. 总体里程分布

近五成的二手车里程数在6万公里以内,而超出十五万公里的二手车仅占比约6%。

可见市面上流通的二手车,普遍来说公里数都不太长,近八成车辆里程数在十万公里以内。

以一般家庭一年汽车里程数两万公里计算,即近八成二手车的车龄在五年内。这一点同上述各年份车辆数量分布的结果大致符合。

同时,超出十五万公里的二手车数量少,主要是09-12年间 大众、两田、别克 等品牌的二手车。

如图8:

    

                图8. 二手车里程分布直方图

B. 各地区二手车平均里程数

各地区平均里程数极差只有2.80万公里,约半数地区的平均里程数在6.5至7.3万公里间;

二手车平均里程数前三的地区为:湖州、盐城、绍兴,三者平均里程数均在8万公里以上;

最低里程数的地区为达州,平均里程数只有5.42万公里

如图9:

    

                      图9. 各地区二手车平均里程数 

C. 二手车车龄与里程数

总体来看,车辆里程数与车龄呈正相关关系,价格与车龄呈负相关关系;车辆的里程数随着车龄增长而增长,车辆价格随车龄增长而减少。

如图10:

    

               图10. 二手车车龄与里程数柱形图

三、二手车价格预测

利用这次抓取到的二手车数据建立线性回归模型,对二手车的售价进行预测。

使用数据如图11:

  

                        图11. 模型所使用的数据信息 

建立的多元线性模型拟合效果如图12,R方为0.8933,效果还不错。

图12:

  

              图12. 模型拟合效果

利用模型进行预测:

北京地区,2018年3月上牌(12个月)、里程数为3.7万公里的奥迪A8,二手车售价预测为51.37万元。

如图13:

  

                 图13. 模型预测

四、结论

1. 对于人人车的全国范围布局而言,东南沿海城市市场容量大,应当加强推广;西南地区线上资源少但单价较高,是重点推广地区

2. 对于东部沿海城市及四川重庆地区的用户,人人车网站的二手车数量庞大种类繁多,在线挑选二手车是一个不错的选择

3. 车龄在3至6年,也就是上牌日期在13至16年的车辆数量最多,价格也比较实惠

4. 大众/别克/雪佛兰 等品牌的汽车市场保有量最大,价格也很合适(10万元以内),车辆配套设施及服务齐全,用户可以优先考虑这些品牌的二手车

5. 豪华品牌阵营中,宝马5系和奥迪A6是用户基数最大的车型,价格大致在30万元以内,而且开一两年后再转手卖出折价很低,是非常实惠的选择

猜你喜欢

转载自www.cnblogs.com/xingyucn/p/10499237.html