如果你遇到以下问题，很适合阅读本篇文章

数据集太小太零散，找不到合适数据？
数据集不知道从哪里获得，很容易得到的都是外国的
数据集不均匀训练的模型不准确、不收敛、很偏见
在犹豫优化模型还是继续找数据集
是否花钱购买数据
还在发愁找不到数据集训练你的模型？

如果用一个句子总结学习数据科学的本质，那就是：学习数据科学的最佳方法就是应用数据科学。如果你是一个初学者，你每完成一个新项目后自身能力都会有极大的提高，如果你是一个有经验的数据科学专家，你已经知道这里所蕴含的价值。

首先，在选择数据集时要记住几个重要标准：

数据集不能过于混乱，过于混乱的数据会导致模型难以收敛，加大了训练难度。
与训练目标相一致的数据集才能更高效的完成识别任务
数据集量级是否符合模型规模，复杂的深度网络需要更多的数据才能发挥能力。

数据至关重要

数据质量决定着模型的准确率，技巧模型比重很小。好的数据是成功的90%，数据采集，数据标注，数据清洗，数据预处理，有着至关重要的作用。如果你是学生，下面文章提供几个下载数据集的网站及标注工具，方便快速跑起来你的代码。把精力都用在模型学习和优化上而非枯燥的数据处理。如果你是从业者，更多的数据才是制胜的法宝，可以采用下面列出的工具例如Aidiscovery快速收集尽可能多的数据。利用Labelme图像分割标注

数据集划分

训练集、验证集、测试集，这三个集合不能有交集，常见的比例是8:1:1。

数据准备之数据采集标注软件

【Labelme】图像分割标注推荐

简单介绍：LabelMe的目标是提供一个在线注释工具，以建立用于计算机视觉研究的图像数据库。如果未完全标记图像，则用户可以使用鼠标在图像中绘制一个包含对象的多边形。LabelMe项目提供了一组工具，用于使用Matlab中的LabelMe数据集。

功能：

对图像进行多边形，矩形，圆形，多段线，线段，点形式的标注（可用于目标检测，图像分割，等任务）。

对图像进行进行 flag 形式的标注（可用于图像分类和清理任务）。

视频标注

生成 VOC 格式的数据集（for semantic / instance segmentation）

生成 COCO 格式的数据集（for instance segmentation）

地址：http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

点击下载

【Aidiscovery】数据采集自动分类推荐

简单介绍：无需登陆注册，即可免费下载。人脸数据自动收集，界面友好、操作简单、其中包含的数据采集是其他软件不具备的，包括数据增强自动分类，解决标注头疼问题。除此之外，对数据集的采集来源、数据采集量、数据分布等进行统计分析，以可视化图表的形式展现，辅助评判数据集可用性。

功能：

数据采集，从视频和屏幕采集数据，实时标注

数据增强，提供数据增强详细的参数选择及预览，有单一数据增强和组合数据增强

数据处理，对于采集结果进行自动处理，再对不正确的手动处理

统计分析，对于采集资源的优劣进行统计

地址：http://aidiscovery.wntime.com/

点击下载

常用数据集下载网站

一、【Kaggle】地址：https://www.kaggle.com/datasets

介绍：一个竞赛网站，上面有很多有价值的数据集和题目。每个比赛都是独立的。无需确定自己的项目范围并收集数据，可以腾出时间专注于其他技能。实践就是实践。

二、【ImageNet】地址：http://image-net.org/

介绍：ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象;在至少一百万个图像中，还提供了边界框。ImageNet包含2万多个类别

四、【MS COCO】地址：https://cocodataset.org/#download

介绍：COCO是大规模的对象检测，分割和字幕数据集。COCO具有以下功能：对象分割、上下文识别、超像素东西分割、330K图像（已标记> 200K）、150万个对象实例、80个对象类别、91个东西类别、每个图像5个字幕、有关键点的250,000人

五、【COIL100】地址：http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

介绍：100 个不同的物体在 360°旋转中以每个角度成像

六、【Visual Genome】地址：http://visualgenome.org/

介绍：非常详细的视觉知识库，配有约 100K 个图像的注释。

七、【Labelled Faces in the Wild】地址：http://vis-www.cs.umass.edu/lfw/

介绍：13000 张贴有标签的人脸图像，用于作为人脸识别测试集。

八、【Stanford Dogs Dataset】地址：http://vision.stanford.edu/aditya86/ImageNetDogs/

介绍：包含 20580 个图像和 120 个不同品种的狗类别。注释:类别标签，边界框

九、【Indoor Scene Recognition】地址：http://web.mit.edu/torralba/www/indoor.html

介绍：该数据库包含67个室内类别，共15620张图像。图像的数量因类别而异，但每个类别至少有100张图像。所有图像均为jpg格式。此处提供的图像仅用于研究目的。

十、【vggface】地址：http://www.shujujishi.com/dataset/f66a2818-dd92-4c6e-bb83-a32f59f86170.html

介绍：VGG-Face中的身份分布数据集可能无法代表全球人口。在训练或部署根据此数据训练的模型时，根据场景使用，避免学习结果有偏见

VGGFace2数据集具有9131个身份的新的大规模面部数据集。

VoxCeleb 1251个VGG Face身份的YouTube视频的URL和时间戳。

十一、【MS-Celeb-1M】地址：http://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97

介绍：用于识别人脸图像的相关数据集，一百万名人。知识库提供的丰富信息有助于进行消歧和提高识别精度，并有助于各种现实应用，如图像字幕和新闻视频分析。是世界上最大的公开数据集，在版本1中包含1000万幅图像。

十二、【PubFig: Public Figures Face Database】地址：https://www.cs.columbia.edu/CAVE/databases/pubfig/

介绍：PubFig数据库是一个大型的真实人脸数据集，58797张图像200人。与大多数其他现有的人脸数据集不同，这些图像是在完全不受控制的情况下拍摄的，对象不合作。因此，在姿势、照明、表情、场景、相机、成像条件和参数等方面有很大的变化。

十三、【megaface】地址：http://megaface.cs.washington.edu/dataset/download_training.html

介绍：megaface训练数据集是最大的(在身份数量上)可公开获得的面部识别数据集，具有470万张脸、672个身份和它们各自的边界框。

十四、【Yale Face Database 】http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

介绍：耶鲁人脸数据库包含28个人在9种姿势和64种光照条件下的16128幅图像

其他

Datahub – a community-managed home for open data sets
Data.gov – the U.S. Government's open data
data.world
GCMD – the Global Change Master Directory containing over 20,000 descriptions of Earth science and environmental science data sets and services
Humanitarian Data Exchange(HDX) – The Humanitarian Data Exchange (HDX) is an open humanitarian data sharing platform managed by the United Nations Office for the Coordination of Humanitarian Affairs.
NYC Open Data – free public data published by New York City agencies and other partners.
Relational data set repository
Research Pipeline – a wiki/website with links to data sets on many different topics
StatLib–JASA Data Archive
UCI – a machine learning repository
UK Government Public Data
World Bank Open Data – Free and open access to global development data by World Bank

最全图像识别数据集网站和工具

首先，在选择数据集时要记住几个重要标准：

数据至关重要

数据集划分

数据准备之数据采集标注软件

【Labelme】图像分割标注推荐

【Aidiscovery】数据采集自动分类推荐

常用数据集下载网站

一、【Kaggle】地址：https://www.kaggle.com/datasets

二、【ImageNet】地址：http://image-net.org/

四、【MS COCO】地址：https://cocodataset.org/#download

五、【COIL100】地址：http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

六、【Visual Genome】地址：http://visualgenome.org/

七、【Labelled Faces in the Wild】地址：http://vis-www.cs.umass.edu/lfw/

八、【Stanford Dogs Dataset】地址：http://vision.stanford.edu/aditya86/ImageNetDogs/

九、【Indoor Scene Recognition】地址：http://web.mit.edu/torralba/www/indoor.html

十、【vggface】地址：http://www.shujujishi.com/dataset/f66a2818-dd92-4c6e-bb83-a32f59f86170.html

十一、【MS-Celeb-1M】地址：http://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97

十二、【PubFig: Public Figures Face Database】地址：https://www.cs.columbia.edu/CAVE/databases/pubfig/

十三、【megaface】地址：http://megaface.cs.washington.edu/dataset/download_training.html

十四、【Yale Face Database 】http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

其他

猜你喜欢

VGGFace2数据集	具有9131个身份的新的大规模面部数据集。
VoxCeleb	1251个VGG Face身份的YouTube视频的URL和时间戳。

最全图像识别数据集网站和工具

首先，在选择数据集时要记住几个重要标准：

数据至关重要

数据集划分

数据准备之数据采集标注软件

【Labelme】 图像分割标注推荐

【Aidiscovery】数据采集自动分类推荐

常用数据集下载网站

一、【Kaggle】 地址：https://www.kaggle.com/datasets

二、【ImageNet】 地址：http://image-net.org/

四、【MS COCO】 地址 ：https://cocodataset.org/#download

五、【COIL100】 地址：http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

六、【Visual Genome】地址：http://visualgenome.org/

七、【Labelled Faces in the Wild】地址：http://vis-www.cs.umass.edu/lfw/

八、【Stanford Dogs Dataset】地址：http://vision.stanford.edu/aditya86/ImageNetDogs/

九、【Indoor Scene Recognition】地址：http://web.mit.edu/torralba/www/indoor.html

十、【vggface】地址：http://www.shujujishi.com/dataset/f66a2818-dd92-4c6e-bb83-a32f59f86170.html

十一、【MS-Celeb-1M】地址：http://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97

十二、【PubFig: Public Figures Face Database】地址：https://www.cs.columbia.edu/CAVE/databases/pubfig/

十三、【megaface】地址：http://megaface.cs.washington.edu/dataset/download_training.html

十四、【Yale Face Database 】http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

其他

猜你喜欢

【Labelme】图像分割标注推荐

一、【Kaggle】地址：https://www.kaggle.com/datasets

二、【ImageNet】地址：http://image-net.org/

四、【MS COCO】地址：https://cocodataset.org/#download

五、【COIL100】地址：http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php