目录
2.4 测试集数据20190801_testdata.txt:
1.项目简介
比赛链接:https://www.datafountain.cn/competitions/466
1.1赛制规则
赛道名:路况状态时空预测
背景:移动互联网时代的到来让所有移动设备的持有者都可以成为道路通行能力的描绘者, 滴滴平台收集了海量的高质量司乘轨迹数据, 可以对实时道路拥堵状况有良好的建模能力。 如果可以基于实时和历史的路况信息, 对未来的路况状态有较精准的预估, 无疑对出行决策, 缓解城市拥堵等场景有至关重要的作用。 然而, 未来的路况预估仍然是十分困难的, 未来路况会受到时间周期, 道路通行能力, 路网上下游拓扑, 导航流量以及道路突然状况等多种因素的影响。此次竞赛诚邀参赛者基于滴滴提供的实时与历史路况状态信息以及道路属性等信息, 精准预估未来某时间段内的路况状态, 助力城市规划与智能出行方案。
任务:根据滴滴提供的道路小段的实时和历史路况状态特征, 道路基本属性以及路网拓扑关系图, 预测未来一段时间内道路小段的路况状态(即畅通, 缓行和拥堵几类状态)。
出题单位:滴滴出行
1.2数据与测评
训练数据下载地址
https://outreach.didichuxing.com/app-vue/dataList
本次比赛提供滴滴平台2019年7月1日至2019年7月31日西安市的实时和历史路况信息, 以及道路属性和路网拓扑信息。
-
link: 对完整道路按照拓扑切分后得到的小段, 由唯一id标识. 出于数据安全考虑, 隐去了经纬度等真实地理信息。
-
路况状态: 根据道路的平均车速, 道路等级等信息对道路通行状态的描述, 分为畅通, 缓行, 拥堵三种状态, 分别对应滴滴地图展示的绿色, 黄色, 红色。
-
时间片: 对时间的离散化描述. 一般以2分钟为一个单位. 2分钟内认为道路的路况状态是统一的。
数据一: 历史与实时路况
字段名称 | 字段含义 | 备注 |
---|---|---|
car_count_list | 近n个时间片参与路况计算的车辆数 | |
history_speed_with_light_list | 历史同期路况速度 | |
history_speed_without_light_list | 历史同期eta速度 | |
history_status_list | 历史同期路况状态 | |
cur_slice_id | 当前时间片 | |
pred_slice_id | 待预测时间片 | |
speed_with_light_list | 近n个时间片路况速度 | |
speed_without_light_list | 近n个时间片eta速度 | |
status_list | 近n个时间片路况状态 | |
status_label | 对应的路况状态 | label |
数据二: 道路属性
字段名称 | 字段类型 | 字段含义 |
---|---|---|
speed_class | categoric | 限速等级 |
length | numeric | 长度 |
speed_limit | numeric | 限速 |
road_class | categoric | 道路等级 |
lane_num | lane_num | 车道数 |
width | numeric | 宽度 |
level | categoric | 功能等级 |
数据三: 路网拓扑
key | value |
---|---|
link id | 下游link id1, 下游link id2, 下游link id3, … |
由于路况包含畅通, 缓行, 拥堵三种状态, 因此采用加权 F1 Score 作为算法评价指标。其中畅通权重0.2, 缓行权重0.2, 拥堵权重0.6。
2.数据分析
原始数据中主要包括四部分:
2.1 原始道路特征attr.txt:
主要包括道路id,长度,宽度,方向等特征
link length direction path_class speed_class LaneNum speed_limit level width
0 19 1 5 7 1 4.166667 5 30
1 19 1 5 7 1 4.166667 5 30
2 16 1 5 7 1 4.166667 5 30
3 16 1 5 7 1 4.166667 5 30
2.2 道路拓扑特征topo.txt:
包括道路id和每个道路的下游道路
当前位置 上下游节点信息
611897 630844,611898,611691
611704 612102,611703
611656 611318,611657,611315
363433 363435,363434
363430 673357,363429
2.3 道路数据201907xx.txt:
包括现在的时间段、待预测的时间段、近5个时间片的平均车速、车流量、道路特征以及前四周的5个时间片的数据等。
对数据进行分析如下:
第一行数据如下:
353495 1 236 245;
232:29.80,32.40,1,4 233:31.60,32.20,1,2 234:20.00,21.90,2,2 235:22.20,25.90,2,5 236:21.30,26.30,2,4;
245:30.00,32.70,0,9 246:30.00,36.10,0,10 247:27.40,35.20,1,12 248:26.90,35.70,1,10 249:28.90,37.00,1,9;
245:36.10,37.30,1,7 246:29.30,38.50,1,7 247:27.70,39.70,1,6 248:28.60,40.20,1,3 249:29.60,38.70,1,4;
245:30.40,40.10,1,6 246:32.30,40.10,1,6 247:30.60,41.10,1,5 248:29.60,39.20,1,4 249:28.00,37.90,1,4;
245:28.30,38.40,1,7 246:28.20,39.40,1,6 247:28.80,35.10,1,3 248:30.00,35.60,1,4 249:29.40,37.20,1,5
其中第一等级以分号“;”进行划分为大数据类,分别为路段标签、recent_feature、history_feature_28,history_feature_21,history_feature_14,history_feature_7。每个大数据类的具体说明如下:
训练数据
路段片 标签 当前时间片 未来时间片
353495 1 236 245;
当前数据
时间片 速度 eta速度 标签状态 车辆数
232: 29.80, 32.40, 1, 4
232:29.80,32.40,1,4 233:31.60,32.20,1,2 234:20.00,21.90,2,2 235:22.20,25.90,2,5 236:21.30,26.30,2,4;
28天前数据
245:30.00,32.70,0,9 246:30.00,36.10,0,10 247:27.40,35.20,1,12 248:26.90,35.70,1,10 249:28.90,37.00,1,9;
21天前数据
245:36.10,37.30,1,7 246:29.30,38.50,1,7 247:27.70,39.70,1,6 248:28.60,40.20,1,3 249:29.60,38.70,1,4;
14天前数据
245:30.40,40.10,1,6 246:32.30,40.10,1,6 247:30.60,41.10,1,5 248:29.60,39.20,1,4 249:28.00,37.90,1,4;
7天前数据
245:28.30,38.40,1,7 246:28.20,39.40,1,6 247:28.80,35.10,1,3 248:30.00,35.60,1,4 249:29.40,37.20,1,5
2.4 测试集数据20190801_testdata.txt:
与道路数据格式相同,这里的标签都是-1,是需要预测的值。
路段片 标签 当前时间片 预测时间片
423051 -1 698 716;
当前道路信息
694:30.00,4.10,0,1 695:0,0,0,0 696:0,0,0,0 697:0,0,0,0 698:0,0,0,0;
历史数据
716:40.20,40.20,1,1 717:40.20,40.20,1,1 718:40.20,40.20,1,1 719:41.50,44.80,1,2 720:44.00,45.50,1,1;
716:0,0,0,0 717:0,0,0,0 718:0,0,0,0 719:0,0,0,0 720:0,0,0,0;
716:33.00,26.80,1,1 717:33.00,26.80,1,1 718:37.30,36.00,1,1 719:39.60,36.70,1,2 720:38.80,36.70,1,2;
716:0,0,0,0 717:0,0,0,0 718:0,0,0,0 719:0,0,0,0 720:0,0,0,0
3. 数据集下载
由于比赛已结束,通过个人收集终于把数据凑齐了。现分享下载地址如下,如需请自取:
链接:https://pan.baidu.com/s/1Zwd1JK3sf_szCGykEbZPCQ
提取码:xcul