9个计算机视觉项目的热门开源项目

计算机视觉是目前人工智能领域中发展最快的子领域之一。研究人员和公司正在使用计算机视觉机制来解决不同领域的各种问题，如制造、安全、医学成像分析和诊断、自动驾驶等等。

在这里，我们看看可用于计算机视觉项目的顶级开源数据集。

ImageNet

它是一个根据WordNet层次结构组织的图像数据集。在WordNet中，有超过100,000个synsets，其中大部分（超过80,000）是名词。ImageNet的目标是平均提供1000张图片来说明每个词组。在计算机视觉研究中，有两个重要的需求激励着它。这就是需要在计算机视觉中建立一个明确的北极星问题，以及迫切需要更多的数据来实现更多的通用机器学习方法。

IMDB-Wiki

这是一个最大的开源人脸图像数据集，其中有性别和年龄标签用于训练。这个数据集有523,051张脸部图像，其中460,723张脸部图像来自IMDB的20,284位名人，62,328张来自维基百科。

MS Coco

这是一个大规模的物体检测、分割和字幕数据集。它有33万张图片（>20万个标签），150万个物体实例，80个物体类别，91个东西类别，每张图片有5个标题和25万个人物关键点。

Flickr-30k

这是一个用于基于句子的图像描述和搜索的集合，由30,000张图片与五个不同的标题组成，这些标题对突出的实体和事件进行了清晰的描述。这些图片是从六个不同的Flickr群组中选择的，通常不包含任何知名人士或地点，而是由人工选择的。

Berkeley DeepDrive

这是一个用于异质多任务学习的驾驶数据集。它有10万个驾驶视频，收集自5万次以上的骑行。每个视频长度为40秒，帧数为30帧。它包含不同的场景类型，如城市街道、住宅区和高速公路，在一天中的不同天气条件下。它有助于车道检测、物体检测、语义分割、实例分割、多物体跟踪等。

LSUN

大规模场景理解（LSUN）分类数据集包含10个场景类别：卧室、厨房、户外教堂、餐厅等。每个类别都有大量的图像，从大约120,000到3,000,000。

验证数据包括300张图片，测试数据中每个类别有1000张图片。

MPII human-pose

该数据集包括大约25000张图像，其中包含超过40000个带有身体关节注释的人。它们是通过使用既定的人类日常活动的分类法收集的。总的来说，该数据集涵盖了410种人类活动，每张图像都有一个活动标签。每张图片都是从YouTube视频中提取出来的，并带有前面和后面的未标注的帧。

CIFAR-10&CIFAR-100

CIFAR-10数据集由60,000张32×32的彩色图像组成，分为10类，每类有6,000张图像。有50,000张训练图像和10,000张测试图像。CIFAR-100与CIFAR-10类似，但有100个类，每个类包含600张图像。

CIFAR-10数据集被分为五个训练批和一个测试批，每个批有10,000张图像。测试批恰好包含从每个类中随机选择的1000张图像。训练批包含其余的图像，顺序是随机的，但有些训练批可能包含一个类别的图像多于另一个。在它们之间，训练批次正好包含了每一类的5000张图像。

在CIFAR-100中，100个类被分成20个超级类。每张图像都有一个 "精细 "标签（它所属的类别）和一个 "粗略 "标签（它所属的超级类别）。

kinetics

这是一个大规模、高质量的数据集，包括多达65万个视频片段的URL链接，涵盖400/600/700个动作类别，取决于数据集的版本。视频包括人与物的互动，如演奏乐器和人与人之间的互动。每个片段都有人类注释的单一动作类别，持续时间约为10秒。

猜你喜欢

目录

热门文章