机器学习常备资料汇总

Python 编程规范
简明 Python 编程规范
https://blog.csdn.net/gzlaiyonghao/article/details/2834883
Python语言规范
http://zh-google-styleguide.readthedocs.io/en/latest/google-python-styleguide/python_language_rules/
Python风格规范
http://zh-google-styleguide.readthedocs.io/en/latest/google-python-styleguide/python_style_rules/

2.机器学习所需-海量数据集
常用的搜索网站

|UCI Machine Learning Repository
http://archive.ics.uci.edu/ml/index.php
最著名的UCI数据集库，许多论文的数据均来源于此。
|AWS Public Datasets
https://aws.amazon.com/cn/datasets/
亚马逊云服务提供的数据集，涵盖天文、生物、化学、天气、经济等多领域。
|YAHOO Webscope datasets
https://webscope.sandbox.yahoo.com/
雅虎提供的数据集，包含图像、语言、排名分类等多领域数据。
|Kaggle datasets
https://www.kaggle.com/datasets
Kaggle竞赛平台提供的数据集库，能在里面发现很多来自工业界有趣的数据，
比如Uber、Netflix Prize、McDonald's等的数据。

计算机视觉
|ImageNet
http://www.image-net.org/
图像处理最著名的数据集，可以根据你的项目需求搜索任一种类的图像，⽤用来
做对象识别，定位，分类和屏幕解析等问题。有14197122个不同尺寸的图像，
总计140GB。
|MNIST
http://yann.lecun.com/exdb/mnist/
基本上是新提出的机器学习算法必跑的一个数据集。MNIST是一个手写数字数
据库，它有60000个训练样本集和10000个测试样本集，是NIST数据库的一个
子集。
|The CIFAR-10 dataset
https://www.cs.toronto.edu/~kriz/cifar.html
32x32 彩×××像。
|Google Open Images
https://github.com/ejlb/google-open-image-download
Google Open Images 是Google公司开放的大型图像标注数据集，包含 900万
张图像中 7800种类别内容的标注。

自然语言处理
|文本分类数据集
https://drive.google.com/drive/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M
由 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG的文本分类数据整合成
的一个大型数据集。样本大小从 120K 到 3.6M, 问题从 2 级到 14 级。
|WikiText
https://einstein.ai/research/the-wikitext-long-term-dependency-language-modeling-dataset
维基百科文章中的大型语言建模语料库。
|Billion Words
http://www.statmt.org/lm-benchmark/
常用来训练如word2vec或Glove的分布式词表征
|Stanford Sentiment Treebank
https://link.zhihu.com/?target=http%253A//nlp.stanford.edu/sentiment/code.html
用于情感分析的数据集

语音识别
|2000 HUB5 English
https://catalog.ldc.upenn.edu/LDC2002T43
英语的语音数据。
|CHIME
http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
包含噪声的语音识别数据集
|TED-LIUM
http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
TED演讲的语音数据集，有对应的全文本。

其它类
|UCR Time Series
http://www.cs.ucr.edu/~eamonn/time_series_data/
时间序列界的“Imagnet”,发文章必跑。
|Million Song Dataset
https://labrosa.ee.columbia.edu/millionsong/
做音乐推荐或分类的程序员可能会用到。
|Netflix 推荐系统数据
http://dataju.cn/Dataju/web/datasetInstanceDetail/32
电影评价数据集，该数据集中包含随机挑选的 48万 Netflix客户，对 1.7万部
电影，超过 1百万条评价，数据时间段为 1998.10 到 2005.11。评价以5分制
评分为基准，每部电影评价为1-5分，客户信息进行了脱敏处理。
|Udacity 自动驾驶数据集
https://github.com/udacity/self-driving-car/
Udacity 学城开放的自动驾驶课程中的自动驾驶汽车数据集，旨在打造一个开
源的自动驾驶项目。多个二进制压缩文件，总计100G左右

机器学习常备资料汇总

猜你喜欢