Google Open Images Dataset V4 图片数据集详解1-CSV与图片关系

今天我们来了解一下google 的Open Images Dataset V4,它的网址是这个: https://storage.googleapis.com/openimages/web/index.html

我推荐的 其它深度学习相关文章:

一、入口

首页很简洁,一个简单的说明和6个按钮,简短的介绍了其有600个类别的对象有15440132个方框标注,19,794个类别的30,113,078个图像级标签。其中我们比较关注Explore,Description和Download 三个功能。


二、Explore:快速浏览
打开以后大致长这样:

可以下拉框中选中一个类别,这时就可以快速看到一张张缩略图片和一些边界框了。粗略的浏览一下,可以发现有些类别图像很多,有些类别图像很少。


三、Description:数据集描述
我这边总结一下,主要讲了几点:
1)这个v4数据集主要有两种用途:
  • 对象检测及分类,意思是说可以用这个数据集训练出对象检测模型,用于识别图像中的对象类别及位置边框。
  • 视觉关系检测,比如你用这个v4数据集训练好一个模型,然后给模型一张图,模型会告诉你“女人在弹吉它”。

2)根据上面说的两个用途,google已经贴心的为你把这个数据集分成两份(共9,011,219张图,我感觉这两种数据集的图片不是互斥的,它们有相同的图片),每份又分成了训练集,验证集,测试集。

3)所有作用于对象检测及分类的图片主要特性是有边界框,一张图中可能有多个边界框,
 
训练集数量
验证集数量
测试集数量
对象类别
图片
1743042
41620
125436
 
边界框
14610229
204621
625282
600
平均每个图像有8.4个边界框。

4)所有作用于视觉关系的数据集,每张图都有若个标签
 
训练集数量
验证集数量
测试集数量
对象类别
图片
9011219
41620
125436
 
边界框
27,894,289 
551,390
1,667,399
7186
原文还讲了很多是机器标注的,然后人为确认的,可以通过描述信息的某些字段区分。




四、Download 下载这个数据集(包括源图片及其它相关信息)
打开下载的界面,自然也分成两块数据集下载,比如我们拿对象类别检测用的数据集来说:

我们一行一行看:
第一行是指源图片本身下载,就是一张张图,不包含边界框等信息,主要两个地方可下,CVDF是指通用视觉数据基金会。

第二行就是指边界框等信息。我们试着下载一个下来,是个csv文件,我们暂称它为边界框表,打开以后像这样:

其中各个字段如下所
ImageID:边界框id,可以理解成一个外键,具体的描述在另一个文件里。
Source:表示边界框是如何制作的:
  • freeform并且xclick是手动绘制的边界框。
  • activemil是使用该方法的增强版生成的边界框。在IoU> 0.7时,这些经过人为验证是准确的。
LabelName 此框属于的对象类的MID。
Confidence 虚拟值,始终为1。
XMin XMax YMin YMax 框的坐标,在标准化图像坐标。XMin在[0,1]中,其中0是最左边的像素,1是图像中最右边的像素。Y坐标从顶部像素(0)到底部像素(1)。

这些属性具有以下定义:
  • IsOccluded表示该对象被图像中的另一个对象遮挡。
  • IsTruncated表示对象超出图像的边界。
  • IsGroupOf表示边界框跨越一组对象(例如,花坛或一群人)。我们要求注释者使用这个标签来处理5个以上的实例,这些实例会严重遮挡对方,并且会触及身体。
  • IsDepiction指示对象是描述(例如,对象的卡通或图画,而不是真实的物理实例)。
  • IsInside表示从对象内部拍摄的照片(例如,汽车内部或建筑物内部)。

第三行就是标签类别,一幅图上有几个对象,就给你打几个标签,我们暂称它为分类标签表,可做图像分类用。

Source:表示注释的创建方式:

  • verification 是由Google内部注释人员验证的标签。
  • crowdsource-verification 是由Crowdsource应用程序验证的标签。
  • machine 是机器生成的标签。

Confidence:经人工验证出现在图像中的标签的置信度= 1(正标签)。经过人工验证的图像中缺失的标签的置信度= 0(负标签)。机器生成的标签具有部分置信度,通常> = 0.5。信心越高,标签成为假阳性的机会就越小。



第四行就是图像的相关信息它包含图片网址,OpenImages ID,轮换信息,标题,作者和许可证信息,我们暂称它为图片表,可以看得出来,几乎所有的图像都来自flickr网站。

每个图像都有一个唯一的64位ID分配。在CSV文件中,它们显示为零填充的十六进制整数,例如000060e3121c7305

数据与目标网站上显示的数据相同。

  • OriginalSize 是原始图像的下载大小。
  • OriginalMD5是base64编码二进制MD5,如所描述这里
  • Thumbnail300KURL是约300K像素(〜640x480)的缩略图的可选网址。它提供了为了方便下载数据而没有更方便的方式来获取图像。如果丢失,OriginalURL必须使用(如果需要,然后调整大小相同的大小)。这些缩略图会随时生成,其内容甚至解析度可能每天都会有所不同。
  • Rotation是,图像应逆时针转动,以匹配Flickr用户预期的方向(多少度090180270)。nan意味着这些信息不可用。查看此公告以获取有关此问题的更多信息。
  • 我们可以按照这个地址,自已一个一个去下,或者去第一行那边下完整的包都是可以的。

第五行就是元数据了,比较简单,就是分类实际名称,我们暂称它为标签表。

可以将MID格式的类名转换为简短描述,

请注意逗号和引号等字符的存在。该文件遵循标准的CSV转义规则。例如:

/m/02wvth,"Fiat 500 ""topolino"""
/m/03gtp5,Lamb's quarters
/m/03hgsf0,"Lemon, lime and bitters"



从上面四个表可以看出,它们形成了一个小小的数据库表关系:

非常简单的外键关系,图片表描述图片信息,最重要是下载地址,边界框表主要描述一张图有几个边框,它与图片表通过外键ImageID关联,同时每个边框具体属于哪个分类,又要通过LabelName外键和标签表关联。

我推荐的 其它深度学习相关文章:



猜你喜欢

转载自blog.csdn.net/wulala789/article/details/80646618