【收藏】机器学习数据集列表:你需要收藏!

↑ 点击上方【计算机视觉联盟】关注我们



来源:Medium

编辑:三石

来自新智元

下面的ML大型数据集,总有一款适合你。


就目前来看,找到一个特定的数据集来解决各种机器学习问题,甚至进行实验还是比较困难的。


本文作者Will Badr便列举了八大机器学习数据集


不仅包含用于实验的大型数据集,还附带对数据集的描述以及使用示例。有的还包含用于解决与该数据集相关机器学习问题的算法代码。


话不多说,上数据集!


1、Kaggle数据集


640?wx_fmt=png

数据集地址:

https://www.kaggle.com/datasets


这是作者最喜欢的数据集之一。


每个数据集都是一个小型社区,用户可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。包含各式各样的真实数据集。


用户还可以看到与每个数据集相关的“内核”,许多数据科学家还提供了相关手册来分析数据集。


2、Amazon数据集


640?wx_fmt=png

数据集地址:

https://registry.opendata.aws/


该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。


网页中也有一个搜索框来帮助用户寻找想要的数据集,还有所有数据集的描述和使用示例,这些数据集信息丰富且易于使用!


数据集存储在Amazon Web Services (AWS)资源中,比如Amazon S3——云中的一个高度可伸缩的对象存储服务。


如果用户正在使用AWS进行机器学习实验和开发,这将非常方便,由于它是AWS网络的本地数据,因此数据集的传输将非常快。


3、 UCI机器学习资源库



640?wx_fmt=png

数据集地址:

https://archive.ics.uci.edu/ml/datasets.html


另一个来自加州大学信息与计算机科学学院的大型资源库,包含100多个数据集。


用户可以找到单变量和多变量时间序列数据集,分类、回归或推荐系统的数据集。


有些UCI的数据集已经是被清洗过的。


4、谷歌数据集搜索引擎


640?wx_fmt=png

数据集地址:

https://toolbox.google.com/datasetsearch


在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务——它是一个可以按名称搜索数据集的工具箱。


他们的目标是统一成千上万个不同的数据集存储库,使这些数据能够且易被发现。


5、微软数据集


640?wx_fmt=png

数据集地址:

https://msropendata.com/


2018年7月,微软与外部研究社区共同宣布推出“Microsoft Research Open Data”。


它在云中包含一个数据存储库,用于促进全球研究社区之间的协作。它提供了一系列用于已发表研究的、经过处理的数据集。


6、Awesome Public Datasets Collection


640?wx_fmt=png

数据集地址:

https://github.com/awesomedata/awesome-public-datasets


这是一个按“主题”组织的数据集,比如生物学、经济学、教育学等。


这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,用户需要检查一下许可要求。


7、政府数据集


政府相关数据集也很容易找到的。


许多国家为了提高透明度,向公众分享了各种数据集。以下是一些例子:


欧盟开放数据门户:欧洲政府数据集。

数据集地址:

https://data.europa.eu/euodp/data/dataset


美国政府数据:目前由于一些非政治性原因,暂时无法访问。

数据集地址:

https://www.data.gov/


新西兰政府数据集

数据集地址:

https://catalogue.data.govt.nz/dataset


印度政府数据集:

数据集地址:

https://data.gov.in/


8、计算机视觉数据集


640?wx_fmt=png

数据集地址:

https://www.visualdata.io/


Visual Data包含一些可以用来构建计算机视觉(CV)模型的大型数据集。


用户可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。


总结


从上述作者所观察到数据集情况来看,似乎是涵盖各个方向和领域。


这些新数据集的社区将继续发展,使数据更容易被获取,使众包和计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。


原文链接:

https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b

640?wx_fmt=gif

声明:本文来源于网络,【新智元

如有侵权,联系删除

热文荐读

2018年12月精选文章目录一览

亲身经历2019年校招8个大厂心得体会,纯干货分享(大疆、百度...)

重磅!图森王乃岩团队最新工作—TridentNet:处理目标检测中尺度变化新思路
GANs最新综述论文: 生成式对抗网络及其变种如何有用【附pdf下载】
算法岗百里挑一热爆了,全球AI大厂薪酬大起底
史上最全!计算机科学领域顶会最佳论文大合集:微软研究院最多,清华排24 MIT的周博磊博士如何解释深度学习模型(附PPT)
【资源下载】512页IBM沃森研究员Charu最新2018著作《神经网络与深度学习》(附下载链接)
人工智能相关领域的国际顶尖会议介绍

640?wx_fmt=gif


猜你喜欢

转载自blog.csdn.net/Sophia_11/article/details/86581243