20种用于计算机视觉的开源图像数据集

什么是计算机视觉?

计算机视觉使计算机能够理解图像和视频的内容。 计算机视觉的目标是使人类视觉系统可以完成的任务自动化。计算机视觉任务包括图像采集,图像处理和图像分析。图像数据可以采用不同的形式,例如视频序列,从多个角度不同的摄像机查看的图像或来自医疗扫描仪的多维数据。

AI从入门到精通:20种用于计算机视觉的开源图像数据集

用于计算机视觉训练的图像数据集

  • Labelme:由MIT计算机科学和人工智能实验室(CSAIL)创建的大型数据集,包含187,240张图像,62,197条带注释的图像和658,992张带标签的对象。
  • Lego Bricks:通过文件夹和使用Blender渲染的计算机对16种不同乐高积木进行分类的大约12,700张图像。
  • ImageNet:用于新算法的实际图像数据集。根据WordNet层次结构进行组织,其中层次结构的每个节点都以成千上万的图像进行描绘。
  • LSUN:具有许多辅助任务的场景理解(房间布局估计,显着性预测等)
  • MS COCO:COCO是大规模的对象检测,分割和字幕数据集,包含超过200,000张带标签的图像。它可以用于对象分割,上下文识别以及许多其他用例。
  • Columbia University Image Library:COIL100是一个数据集,其中包含100个不同的对象,这些对象在360度旋转的每个角度均成像。
  • Visual Genome:它是一个数据集和知识库,旨在将结构化图像概念与语言联系起来。该数据库具有详细的视觉知识库,并带有108,077张图像的字幕。
  • Google’s Open Images:“Creative Commons”项目下有900万个URL的图像集合,这些图像已使用6,000多个类别的标签进行了注释。

AI从入门到精通:20种用于计算机视觉的开源图像数据集

  • Youtube-8M:带有标签的大规模数据集,由数百万个YouTube视频ID组成,带有超过3,800多个视觉实体的注释。
  • Labelled Faces in the Wild:13,000个带标签的人脸图像,用于开发涉及面部识别的应用。
  • 斯坦福犬数据集(Stanford Dogs Dataset):包含20,580张图像和120个不同的犬种类别,每个类别约有150张图像。
  • Places:以场景为中心的数据库,其中包含205个场景类别和250万个带有类别标签的图像。
  • CelebFaces:具有超过200,000张名人图像的人脸数据集,每个图像带有40个属性注释。

AI从入门到精通:20种用于计算机视觉的开源图像数据集

  • Flowers:在英国常见的花朵图像数据集,包含102个不同类别。每个花类包含40至258张图像,这些图像具有不同的姿势和光线变化。
  • 植物图像分析(Plant Image Analysis):涵盖超过一百万张植物图像的数据集,可以从11种植物中选择。
  • Home Objects:一个数据集,其中包含来自家庭的随机对象,主要是来自厨房,浴室和客厅的随机对象,分为训练和测试数据集。
  • CIFAR-10:包含60,000张32×32彩色图像的大型图像数据集,分为10类。数据集分为五个训练批次和一个测试批次,每个批次包含10,000张图像。
  • CompCars:包含163种汽车模型,包含1,716种汽车模型,每种汽车模型都标有五个属性,包括最大速度,排量,门数,座位数和汽车类型。
  • 室内场景识别(Indoor Scene Recognition):非常具体的数据集,非常有用,因为大多数场景识别模型在“外部”效果更好。包含67个室内类别,共15620张图像。
  • VisualQA:VQA是一个数据集,包含有关265,016张图像的开放式问题。这些问题需要对视觉和语言的理解。对于每个图像,至少有3个问题,每个问题10个答案。

人工智能将颠覆许多场景,甚至整个工作岗位。 我们对企业中启用视频内容分析的多种方式感到最兴奋。 与迄今为止深度学习模型蓬勃发展的图像相比,视频提供了更多有价值的信息。计算机视觉算法可以最大程度地提高视频产生的价值。

AI从入门到精通:20种用于计算机视觉的开源图像数据集

物体识别

机器学习算法消化了视频帧后,“对象识别”过程将识别其中的各个主题。人工智能的对象识别是相关任务的集合,而不是人类视觉感知的单个步骤。对象识别的关键元素包括图像分类,对象定位以及最终的对象检测。将对象识别与动作检测相结合,更可以实现智能分析与预测。

视频结构化

继图片之后,视频结构化也成为了深度学习领域又一个热点。相比图片,视频内容无疑具有更大的复杂性。视频结构化是一种视频内容信息提取的技术,它对视频内容按照语义关系,采用时空分割、特征提取、对象识别等处理手段,组织成可供计算机和人理解的文本信息的技术。从数据处理的流程看,视频结构化描述技术能够将监控视频转化为人和机器可理解的信息。

视频图像能否通过智能分析技术实现结构化处理,是视频大数据在安防领域落地的关键。

AI从入门到精通:20种用于计算机视觉的开源图像数据集

TSINGSEE青犀视频视频智能分析平台EasyCVR可对现场视频监控图像进行自动分析,例如目标检测、目标识别、目标跟踪、人脸识别、场景分割、人物和车辆属性分析等,基于AI智能分析、视频结构化等技术,对监控场景中的目标行为进行理解并描述。

TSINGSEE青犀视频还将融入更多基于AI算法、深度学习、大数据智能分析、边缘计算、5G等新兴技术,赋能更多应用场景,加快视频AI在更多行业领域落地。

猜你喜欢

转载自blog.csdn.net/TsingSee/article/details/115175280
今日推荐