机器学习和计算机视觉的20大图像数据集

全文共1709字，预计学习时长5分钟

机器学习和计算机视觉的20大图像数据集

图源：unsplash

计算机视觉使得计算机能够理解图像和视频的内容，其目标是能够如同人体视觉系统一样，自动完成任务。计算机视觉任务包括图像采集、处理和分析。图像数据以不同的形式呈现，如视频序列、多机位成像，或是来自医学扫描仪的多维数据。本文就将介绍一些适用于机器学习训练的数据集。

Labelme：由麻省理工学院计算机科学和人工智能实验室（CSAIL）共同创建的大型数据集，包含187240张图像、62197张带注释的图像和658992个带标签的对象。

ImageNet：新算法的实际图像数据集，根据WordNet层次结构进行组织，层次结构中的每个节点都由成百上千的图像描述。

LSUN：场景理解，附带许多辅助任务（房间布局估计、显著性预测等）。

MS COCO：COCO是一个大规模的对象检测、分割和说明的数据集，包含200000张以上带标签的图像。可用于对象分割、上下文中的识别等等。

哥伦比亚大学图像库：COIL100数据集包含100个不同的对象，以360°全角度成像。

Visual Genome：是一个数据集兼知识库，旨在将结构化图像概念与语言联系起来。该数据集是包含108077张图像说明的详细视觉知识库。

Lego Bricks：包含大约12700张16种不同乐高积木的图片，按文件夹分类，用Blender进行计算机渲染。

谷歌开放图像：在知识共享（Creative Commons）的支持下，900万张图像的URL“已经用跨越6000多个类别的标签进行了注释”。

机器学习和计算机视觉的20大图像数据集

开放图像数据集中的带注释的图像。左：Kevin Krejci的“幽灵拱门”。右：J B.的一些银器。两张图像均在CC BY 2.0的许可下使用。

Youtube-8M：由数百万个YouTube视频ID组成的大规模标签数据集，包含超过3800个视觉实体的注释。

Labelled Faces in the Wild：包含13000张带标签的人脸图像，旨在开发人脸识别相关应用。

斯坦福犬类数据集：包含20580张图像和120个犬类品种，每个类别大概150张图像。

Places：以场景为主的数据库，包含205个场景类别和250万个带有类别标签的图像。

CelebFaces：拥有超过200000张名人图像的人脸数据集，每张都有40个属性注释。

机器学习和计算机视觉的20大图像数据集

CelebFaces数据集中的示例图像

Flowers：在英国常见的花卉图像数据集，由102个不同类别组成。每个花卉类别由40到258张不同姿态和光线变化的图像组成。

Plant Image Analysis：跨越100多万张植物图像的数据集的集合。可以从11种植物中选择。

Home Objects：包含家庭中随机对象的数据集，主要来自厨房、浴室和客厅，分为训练数据集和测试数据集。

CIFAR-10：由60000张32×32彩色图像组成的大型图像数据集，分为10类。数据集分为五个训练批次和一个测试批次，每个批次包含10000张图像。

CompCars：包含163款汽车品牌，共有1716种车型，每种车型都标有五个属性，包括最大速度、排量、车门数量、座椅数量和汽车类型。

室内场景识别数据集：这是一个非常独特的数据集。因为大多数场景识别模型在室外发挥更好，所以该数据集很有用。包含67个室内类别，共15620张图片。

VisualQA：VQA数据集包含265,016张图像的开放性问题。这些问题需要对视觉和语言的理解。对于每张图像，至少有3个问题，每个问题至少有10个答案。

机器学习和计算机视觉的20大图像数据集

一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

（添加小编微信：dxsxbb，加入读者圈，一起讨论最新鲜的人工智能科技哦～）