2020CCF大数据与计算智能大赛-路况状态时空预测(1.数据分析及下载)

目录

1.项目简介

1.1赛制规则

1.2数据与测评

2.数据分析

2.1 原始道路特征attr.txt: 

2.2 道路拓扑特征topo.txt:

2.3 道路数据201907xx.txt:

2.4 测试集数据20190801_testdata.txt:

3. 数据集下载


1.项目简介

比赛链接:https://www.datafountain.cn/competitions/466

1.1赛制规则

赛道名:路况状态时空预测

背景:移动互联网时代的到来让所有移动设备的持有者都可以成为道路通行能力的描绘者, 滴滴平台收集了海量的高质量司乘轨迹数据, 可以对实时道路拥堵状况有良好的建模能力。 如果可以基于实时和历史的路况信息, 对未来的路况状态有较精准的预估, 无疑对出行决策, 缓解城市拥堵等场景有至关重要的作用。 然而, 未来的路况预估仍然是十分困难的, 未来路况会受到时间周期, 道路通行能力, 路网上下游拓扑, 导航流量以及道路突然状况等多种因素的影响。此次竞赛诚邀参赛者基于滴滴提供的实时与历史路况状态信息以及道路属性等信息, 精准预估未来某时间段内的路况状态, 助力城市规划与智能出行方案。

任务:根据滴滴提供的道路小段的实时和历史路况状态特征, 道路基本属性以及路网拓扑关系图, 预测未来一段时间内道路小段的路况状态(即畅通, 缓行和拥堵几类状态)。

出题单位:滴滴出行

1.2数据与测评

训练数据下载地址

https://outreach.didichuxing.com/app-vue/dataList

数据说明

本次比赛提供滴滴平台2019年7月1日至2019年7月31日西安市的实时和历史路况信息, 以及道路属性和路网拓扑信息。

术语解释

  • link: 对完整道路按照拓扑切分后得到的小段, 由唯一id标识. 出于数据安全考虑, 隐去了经纬度等真实地理信息。

  • 路况状态: 根据道路的平均车速, 道路等级等信息对道路通行状态的描述, 分为畅通, 缓行, 拥堵三种状态, 分别对应滴滴地图展示的绿色, 黄色, 红色。

  • 时间片: 对时间的离散化描述. 一般以2分钟为一个单位. 2分钟内认为道路的路况状态是统一的。

数据一: 历史与实时路况

字段名称 字段含义 备注
car_count_list 近n个时间片参与路况计算的车辆数
history_speed_with_light_list 历史同期路况速度
history_speed_without_light_list 历史同期eta速度
history_status_list 历史同期路况状态
cur_slice_id 当前时间片
pred_slice_id 待预测时间片
speed_with_light_list 近n个时间片路况速度
speed_without_light_list 近n个时间片eta速度
status_list 近n个时间片路况状态
status_label 对应的路况状态 label

数据二: 道路属性

字段名称 字段类型 字段含义
speed_class categoric 限速等级
length numeric 长度
speed_limit numeric 限速
road_class categoric 道路等级
lane_num lane_num 车道数
width numeric 宽度
level categoric 功能等级

数据三: 路网拓扑

key value
link id 下游link id1, 下游link id2, 下游link id3, …

评分标准

由于路况包含畅通, 缓行, 拥堵三种状态, 因此采用加权 F1 Score 作为算法评价指标。其中畅通权重0.2, 缓行权重0.2, 拥堵权重0.6。

2.数据分析

原始数据中主要包括四部分:

2.1 原始道路特征attr.txt: 

主要包括道路id,长度,宽度,方向等特征

link    length    direction    path_class    speed_class    LaneNum        speed_limit    level    width
0        19        1            5            7                1            4.166667        5        30
1        19        1            5            7                1            4.166667        5        30
2        16        1            5            7                1            4.166667        5        30
3        16        1            5            7                1            4.166667        5        30

2.2 道路拓扑特征topo.txt:

包括道路id和每个道路的下游道路

当前位置    上下游节点信息
611897	    630844,611898,611691
611704	    612102,611703
611656	    611318,611657,611315
363433	    363435,363434
363430	    673357,363429

2.3 道路数据201907xx.txt:

包括现在的时间段、待预测的时间段、近5个时间片的平均车速、车流量、道路特征以及前四周的5个时间片的数据等。

对数据进行分析如下:

第一行数据如下:
353495 1 236 245;
232:29.80,32.40,1,4 233:31.60,32.20,1,2 234:20.00,21.90,2,2 235:22.20,25.90,2,5 236:21.30,26.30,2,4;
245:30.00,32.70,0,9 246:30.00,36.10,0,10 247:27.40,35.20,1,12 248:26.90,35.70,1,10 249:28.90,37.00,1,9;
245:36.10,37.30,1,7 246:29.30,38.50,1,7 247:27.70,39.70,1,6 248:28.60,40.20,1,3 249:29.60,38.70,1,4;
245:30.40,40.10,1,6 246:32.30,40.10,1,6 247:30.60,41.10,1,5 248:29.60,39.20,1,4 249:28.00,37.90,1,4;
245:28.30,38.40,1,7 246:28.20,39.40,1,6 247:28.80,35.10,1,3 248:30.00,35.60,1,4 249:29.40,37.20,1,5

其中第一等级以分号“;”进行划分为大数据类,分别为路段标签、recent_feature、history_feature_28,history_feature_21,history_feature_14,history_feature_7。每个大数据类的具体说明如下:

训练数据
路段片 	标签	当前时间片		未来时间片
353495 	1 	    236 			245;

当前数据
时间片	速度	eta速度	    标签状态	    车辆数
232:	29.80,	32.40,	    1,			4
232:29.80,32.40,1,4 233:31.60,32.20,1,2 234:20.00,21.90,2,2 235:22.20,25.90,2,5 236:21.30,26.30,2,4;

28天前数据
245:30.00,32.70,0,9 246:30.00,36.10,0,10 247:27.40,35.20,1,12 248:26.90,35.70,1,10 249:28.90,37.00,1,9;
21天前数据
245:36.10,37.30,1,7 246:29.30,38.50,1,7 247:27.70,39.70,1,6 248:28.60,40.20,1,3 249:29.60,38.70,1,4;
14天前数据
245:30.40,40.10,1,6 246:32.30,40.10,1,6 247:30.60,41.10,1,5 248:29.60,39.20,1,4 249:28.00,37.90,1,4;
7天前数据
245:28.30,38.40,1,7 246:28.20,39.40,1,6 247:28.80,35.10,1,3 248:30.00,35.60,1,4 249:29.40,37.20,1,5

2.4 测试集数据20190801_testdata.txt:

与道路数据格式相同,这里的标签都是-1,是需要预测的值。

路段片     标签   当前时间片  预测时间片
423051    -1     698         716;
当前道路信息
694:30.00,4.10,0,1 695:0,0,0,0 696:0,0,0,0 697:0,0,0,0 698:0,0,0,0;
历史数据
716:40.20,40.20,1,1 717:40.20,40.20,1,1 718:40.20,40.20,1,1 719:41.50,44.80,1,2 720:44.00,45.50,1,1;
716:0,0,0,0 717:0,0,0,0 718:0,0,0,0 719:0,0,0,0 720:0,0,0,0;
716:33.00,26.80,1,1 717:33.00,26.80,1,1 718:37.30,36.00,1,1 719:39.60,36.70,1,2 720:38.80,36.70,1,2;
716:0,0,0,0 717:0,0,0,0 718:0,0,0,0 719:0,0,0,0 720:0,0,0,0

3. 数据集下载

由于比赛已结束,通过个人收集终于把数据凑齐了。现分享下载地址如下,如需请自取:

链接:https://pan.baidu.com/s/1Zwd1JK3sf_szCGykEbZPCQ 
提取码:xcul

猜你喜欢

转载自blog.csdn.net/tangxianyu/article/details/125143374
今日推荐