交通事故致因分析

1、挖掘背景

       随着时代的发展,我们的出行变的越来越便利的同时,也带来的越发严重的交通安全事故。我国的经济高速发展,全国汽车保有量,交通道路,人口等都在不断的增加,同时道路交通安全事故也进入高发期。分析事故发生的原因,找到事故发生的内在规律,对交通部门进行道路交通的改进和提高民众的出行安全具有重大意义。

       本次提供了交通事故相关的多维度数据,通过对事故类型、事故人员、事故车辆、事故天气、驾照信息、驾驶人员犯罪记录数据以及其他和交通事故有关的数据进行深度挖掘,从中找到交通事故致因,分析事故发生的规律,形成交通事故成因分析的方案。

2、数据需求

       现有的数据包括:交通事故的数据,包含事故时间、事故地点、发生者车辆类型、颜色、驾校和出生日期等字段。交通违法数据,包含驾驶证号、违法编号、违法类型、违法内容等字段。天气数据,包含了5月1日至12月8日的天气情况,有日期、天气、气温、风力风向等字段。

       在现有的数据中,各个数据的形式不一,难以对其直接进行分析,故进行数据的合并。将事故数据、天气及违法数据整合为一个表,变成方便进行分析的数据格式。

3、数据探索及预处理

一、数据格式

        通过探索发现,事故的数据格式是包含两个事故发生者各自的信息,需要对其进行处理,数据只包含事故肇事者的信息类型,即剔除事故责任为不负责任的类型。

二、日期格式处理

       (1)事故数据的事故发生时间为日期和时间格式,而天气数据的时间格式为日期,故对事故的时间处理为,单独划分日期和事故发生时间点,即某个小时;

      (2)初次发证时间也为日期和时间格式,考虑到后续的分析,只需对其转成日期格式即可。数据中存在“-1”,“0001-01-01 00:00:00”这些无效数据,先将其修改为NA,然后计算驾龄。

       (3)年龄数据,现按最高驾龄为75岁计算,即保留75以下的数据,其余的赋值为NA,计算出年龄保存。

       (4)气温数据是“15℃ / 9℃ ”,“12℃ / 6℃”格式,现计算其均值作为后续分析的数据。

       (5)天气数据是“多云 /阴”,“多云 /阵雨”的格式,现将含有小雨中雨的字段定义为“中雨及以下”,含大雨暴雨阵雨字段定义为“大雨及以上”,含有冻雨和雪的字段定义为“下雪”,含有多云阴晴字段的定义为“晴”,方便后续的分析。

4、交通事故分析及可视化

一、肇事者性别分析

       对于交通事故,“女司机”、“马路杀手”、“所到之处寸草不生”等词语都是用来形容女性司机的。原因是人们一直认为女性司机最容易引发交通安全事故,然而事实是什么呢?通过下图,我们发现男性肇事者在交通事故中的比例远比女性要大,而且差距很大。但是这种差距是可以解释的,因为男性司机的比例是高于女性司机的。

二、男性女性事故类型分析  

       对事故发生的类型进行分析,可以发现,事故发生的类型主要是7和1,即未按规定让行和追尾,且男性和女性女性司机在事故类型上没有多大区别。所以,认为女性司机是“马路杀手”这个说法其实是不合理的。对于这种现象,应该提高民众的出行文明,遵守交通规则主动让行。

三、事故发生的年龄分析

        对肇事者的年龄分析,从成年开始,随着年龄的增大,出于对自己车技的肯定,越容易发生事故,40岁左右达到高峰,30至40岁之间是事故高发的年龄段,40岁之后因为比较成熟,事故发生的情况逐渐减少。

   

四、事故发生的驾龄分析

        从驾龄上分析,刚拿到驾驶执照的前面6年,事故发生的人数上升;经过3-6年的平缓期,10年以上驾龄的司机事故发生的概率又会上升;跟年龄相对应,20年以上的驾龄司机出事故的概率会减小,也就是我们常说的老司机。因为老司机的技术比较娴熟,开车经验丰富,可以避免许多事故。

五、事故发生的时间点分析

       通过对事故发生的时间点分析,可以看出,事故的发生主要集中在上下班高峰,即上午8点下午18点左右的时间点,8-18点由于是工作时间,相比其他时间的人流量车流量增多,也是事故多发的。我们还可以看到,1月份2月份的事故发生较少,因为1-2月是春节假期,司机驾驶更加谨慎或者由于城市车流量减少,事故的发生大大减少,这是符合事实的。

六、肇事车辆类型分析

       考虑车辆的类型。通过对肇事者车辆类型的频数统计及画词云,可以知道,长安、五菱这些货车类型发生交通事故的概率比较高,可能跟货车运货的情况或者这类车型存在比较大的安全隐患有关。

七、事故驾校分析

       然而,再好的司机也是从驾校出来的,我们假设驾校的好坏会影响驾驶者的驾驶水平。对肇事者的驾校进行分析,发现通过自培拿到驾照的司机发生事故的人数很多,所以,生命无价,选择正规的驾校培训很重要。当然,要规避十一培这种学生出事故较多的驾校。

八、事故天气分析

从天气的分析中,得到2个结论:

(1)、该城市经常下雨,日常下雨天气占60%左右;

(2)、该城市64%的交通事故发生在雨天。

5、肇事者特征提取

       我们希望通过对事故责任人的属性进行分析,总结出发生不同事故类型的特征人群。通过kmeans聚类的方法,对事故责任人的年龄、驾龄、违法次数进行聚类,初步分析导致事故发生的分类结果。

age

year

freq

1

-0.773427819

-0.672224362

-0.368067664

2

0.675471089

0.725751781

1.583014712

3

0.669054199

0.483409404

-0.574087967

       第1类,年龄较小,驾龄低,违法次数也少,定义为安全驾驶人群 ;第2类年龄稍大,驾龄也稍高,违法次数很多,定义为高危驾驶人群;第3类年龄大驾龄高违法次数较少,定义为潜在威胁驾驶人群

       但是我们发现效果并不是很好,故试着选取其他属性进行聚类分析。

思考:

       在这个数据中,运用聚类方法怎样识别碰瓷、骗保(违规次数,扣分、事故责任人次数,事故次数)。

文章未经博主同意,禁止转载!

猜你喜欢

转载自blog.csdn.net/qq_40304090/article/details/80985171