KDD CUP 2017 总结
@QQ:609659119
@https://blog.csdn.net/xiaopc3357/article/details/81062434
一. 任务:分为两个
任务1:估计从指定的十字路口到收费站的平均行驶时间,每20分钟(左闭右开)作为一个时间窗口,评估段为10月28日-24日,历史数据为7月19日到10月17日。
a.从交叉路口intersection A到收费站 tollgate 2 和收费站 tollgate 3 的路线;
b. 从交叉路口intersection B到收费站 tollgate 1 和收费站 tollgate 3 的路线;
c. 从交叉路口intersection C到收费站 tollgate 1 和收费站 tollgate 3 的路线。
提交文件格式:表1
任务2:预测每个收费站平均车流量,对于每20分钟的时间窗口,分别预测收费站tollgate 1 / 2 / 3 的车流量。其中收费站2只允许进入高速公路,而其他允许交通双向,因此任务为预测收费站1/3的进出和收费站2的进车量。评估段为10月28日-24日,历史数据为9月19日到10月17日
提交文件格式:表2
注意**
对于行驶时间预测,初始训练集包含从7月19日至10月17日收集的数据。 对于流量预测,初始训练集包含从9月19日到10月17日收集的数据。
二.评价指标
任务1:
任务2:
三.数据介绍
1. 目标区域网络拓扑图,图1
2. 道路连接属性,表3
3. 从十字路口到收费站的车辆路线,表4
4. 车辆沿着路线的轨迹,表5
5. 通过收费站的车流量历史数据,表6
6. 目标区域的天气数据(每3小时记录一次),表7
四.解题分析
用前两小时数据预测后两小时平均行驶时间和车流量,以20分钟做完一个窗口样本,上午6点-8点,预测8点到10点指定路线平均行驶时间和收费站车流量,下午15点-17点预测17点到19点指定路线平均行驶时间和收费站车流量。
1. 数据预处理
A.异常数据剔除,缺失数据如果较少采用平均值填充
由于训练集包括国庆7天车流量异常大,数据相对非节假日异常,故剔除;
针对任务1:训练数据为7月19日到9月17日,去除国庆7天;采用滑动窗构建训练集和验证集,其中7天为一个窗构建验证集;
A. 使用最后1-7天作为验证集,之前的作为训练集
B. 先前滑动一天,即2-8天作为验证集,之前的作为训练集
C. 以此类推,构建足够的验证集
针对任务2:训练数据为9月17-10月17,除开国庆一周共四周数据,采用4折交叉验证,每次取一周为验证集,其他是训练集。
2. 特征工程
A. 属性识别特征one-hot
道路ID,收费站ID,进出站ID,时间窗ID等等;
B.时间特征分为短期特征和长期特征,与统计特征连用
周几,是否为周末,时间点(小时、分钟),是否为高峰期等等;
C.天气特征离散化之后进行one-hot
风速,空气湿度,温度,风向,降水量,海水压力,天气是否异常等
D. 道路特征
道路长度,宽度,道路行车道数目,前后连接顺序,前后连接道路的宽度与长度
E.时间和车流量特征
预测时刻前2小时数据,20分钟窗内中平均行驶时间和车流量的统计特征,统计特征包括:最大值,最小值,平均值,中位数,标准差,偏度(三阶矩),峰度(四阶矩)等等,
F. 交叉特征
道路与车辆特征交叉,比如每条道路的车流量/道路容积;
窗统计量之间的交叉特征,比如不同窗特征的叠加,差分,比率,乘积等等加减乘数征;