开源训练集

百度红绿灯检测

提供20,000帧图像数据,分为10,000帧训练集和10,000帧测试集

训练集

结构

trainsets/                  // 包含了训练数据顶层文件夹
├── images                  // 包含了训练数据中的图像文件,编号从0到9999
│ ├── 00000.jpg
│ ├──  :
│ └── 09999.jpg
├── labels                  // 包含了与图像对应的标注文件,编号从0到9999
│ ├── 00000.txt 
│ ├──  :
│ └── 09999.txt 
└── list                    // 图像和标注的列表文件

label格式

每个标注文件对应一帧图像,其中每行对应一个红绿灯框,列的定义如表格 label所示,其中坐标原点为图像左上顶点,列与列之间使用一个空格符做间隔。

label
红绿灯类别 灯框左侧坐标 灯框上方坐标 灯框右侧坐标

灯框下方坐标

           
           

list格式

每一行为一对图像与标注文件的相对路径, 两列的间隔为一个空格符,例如:

images/00000.jpg labels/00000.txt
:
images/09999.jpg labels/09999.txt

测试集

测试集格式与训练集一致,但没有labels文件夹,组织形式如下:

结构

testsets/                    // 包含了测试数据顶层文件夹
├── images                   // 包含了测试数据中的图像文件,编号从0到9999
│ ├── 00000.jpg
│ ├──  :
│ └── 09999.jpg
└── list                     // 图像的列表文件

list格式与训练集相同

百度障碍物检测分类

提供20,000帧图像数据,分为10,000帧训练集和10,000帧测试集。训练集、测试集中各抽取100帧作为样例图像。图像为1080P彩色图像。标注内容主要包括汽车、三轮车、二轮车、行人及道路上的静态障碍物

训练集

结构

    

trainsets/         // 训练数据顶层文件夹
├── images          // 训练数据中的图像文件,编号从0到9999
│ ├── 000000.jpg
│ ├──  :
│ └── 009999.jpg
├── labels          // 与图像对应的标注文件,编号从0到9999
│ ├── 000000.txt 
│ ├──  :
│ └── 009999.txt 
└── list.txt        // 图像和标注的列表文件

label格式

训练集中的每一帧图像在labels目录下有一个同名的标注文件,标注文件扩展名为.txt。标注文件的每一行对应一个障碍物,列的定义如label所示,其中坐标原点为图像左上顶点,列与列之间使用一个空格符做间隔。

列号 定义
1 障碍物类别
5-8 障碍物外接矩形(xmin、ymin、xmax、ymax)
2-4, 9-15 保留字段

另外障碍物还有分类这就不详细说明

list和测试集格式都与红绿灯一样

预测结果格式

用户需要按照训练集labels目录定义的标注格式保存检测结果,并增加一列表示每一行检测结果的置信度,数值越大表示置信度越高。评测程序会读取第1、5~8、16列结果进行评估。

评测指标

按大类评估检测结果,检测框与标注框的交并比(IoU)大于或等于0.5时,认为该检测框正确。如果有多个检测框与一个真值框的IoU大于0.5,则选择置信度最高的检测框作为正确结果,其余视为误检。通过分类别的准确率和召回率,以及平均准确率(AP)来评测算法,其中AP为准确率-召回率曲线下的面积。

KITTI 

KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中多达15辆车和30个行人,还有各种程度的遮挡。KITTI数据集中,目标检测包括了车辆检测、行人检测、自行车等三个单项,目标追踪包括车辆追踪、行人追踪等两个单项,道路分割包括urban unmarked、urban marked、urban multiple marked三个场景及前三个场景的平均值urban road等四个单项。

我们考虑的是Kitti的  2D object detection 、orientation estimation benchmark,、the 3D object detection benchmark and the bird's eye view benchmark。

Dataset分为 ’Road’, ’City’, ’Residential’, ’Campus’ 和’Person’五类,包括7481训练图片和7518个测试图片,包括80.625个物体

所有图片均为彩色的png图片

label格式

每一行对应一个物体,所有的的valules 通过一个空格隔开

è¿éåå¾çæè¿°

è¿éåå¾çæè¿°

另外KITTI 还提供开发工具,主要的是 matlab。Matlab文件夹中的工具包含读写标签,绘制2D/3D标注框,运行demo等工具。Readme.txt文件非常重要,详述介绍了某个子数据集的数据格式,benchmark介绍,结果评估方法等详细内容。

物体检测

 目标检测需要同时实现目标定位和目标识别两项任务。其中,通过比较预测边框和ground truth边框的重叠程度(Intersection over Union,IoU)和阈值(e.g. 0.5)的大小判定目标定位的正确性;通过置信度分数和阈值的比较确定目标识别的正确性。以上两步综合判定目标检测是否正确

 

猜你喜欢

转载自blog.csdn.net/qq_37702890/article/details/81637328