introduction
Dans l'application de l'apprentissage en profondeur, les données sont considérées comme l'un des facteurs les plus importants. Par conséquent, le choix d'un bon ensemble de données est crucial pour le succès de l'apprentissage en profondeur. Lors de la sélection d'un ensemble de données, non seulement la taille, la diversité et la qualité des données doivent être prises en compte, mais également si l'ensemble de données représente la situation réelle du problème de recherche. Cet article organise les ensembles de données publics actuels dans le domaine de l'apprentissage en profondeur pour que chacun puisse les choisir et les utiliser lors de la formation de modèles.
1 Ensemble de données complet
1.1 jeu de données kaggle
Kaggle est l'un des plus grands référentiels en ligne d'ensembles de données couvrant une gamme de sujets allant du sport à la médecine en passant par le gouvernement. Sa plate-forme est dirigée par la communauté, ce qui signifie que les utilisateurs peuvent télécharger leurs propres ensembles de données. Compte tenu de la variété des sources de données pour Kaggle, il est important de vérifier soigneusement la qualité des ensembles de données dont vous les extrayez. De plus, Kaggle propose des discussions sur des sujets d'apprentissage automatique ainsi que des didacticiels sur les processus clés.
Adresse : ensembles de données kaggle
1.2 Ensemble de données AI Studio
L'AI Studio lancé par Baidu est une plate-forme de développement à guichet unique : il comprend des didacticiels d'IA, un environnement de code, une puissance de calcul d'algorithmes, des ensembles de données et fournit un cloud computing en ligne gratuit. Il s'agit d'un environnement de programmation intégré.
Adresse : Ensemble de données AI Studio
1.3 Ensemble de données Tianchi
Tianchi Dataset est une plate-forme de données de recherche scientifique ouverte sur le monde extérieur du groupe Alibaba.Il est fourni conjointement par l'équipe commerciale du groupe Alibaba et des institutions de recherche externes, couvrant plus de dix domaines tels que le commerce électronique, le divertissement, la logistique, la santé médicale. , transport, industrie, sciences naturelles et industrie de l'énergie, couvrant l'exploration de données, l'apprentissage automatique, la vision par ordinateur, le traitement du langage naturel, l'intelligence décisionnelle et d'autres domaines technologiques classiques de l'intelligence artificielle.
Adresse : ensembles de données tianchi
1.4 Ensemble de données Graviti
Graviti est une plate-forme qui fournit des ensembles de données publics. Vous pouvez facilement rechercher les données que vous souhaitez et vous pouvez prévisualiser des exemples de données, des annotations et des étiquettes en ligne. Graviti a collecté plus de 400 ensembles de données CV de haute qualité, couvrant divers domaines d'application de l'IA tels que la conduite sans conducteur, la vente au détail intelligente et la robotique.
Adresse : ensembles de données graviti
1.7 papiers avec code
Il y a plus de quatre mille ensembles de données (et ça continue). Ces ensembles de données sont téléchargés par la communauté. Vous pouvez facilement filtrer ces ensembles de données par modalité, tâche et langue. La base de données contient également des liens vers d'autres bases de données qui fournissent également une variété d'ensembles de données.
Adresse: articles avec jeux de données de code
1.8 Data Flair
DataFlair est lié à plus de 70 ensembles de données d'apprentissage automatique et comprend également des informations utiles telles que le code source et des idées de projet. Par exemple, dans la liste des jeux de données contenant des chiffres manuscrits, DataFlair propose de créer un algorithme de classification d'images pour reconnaître les chiffres manuscrits sur papier. Utilisez le site pour inspirer de nouvelles idées.
Adresse : data flair
1.9 EliteDataScience
EliteDataScience comprend des ensembles de données gratuits et une liste organisée des agrégateurs les plus populaires. Ces ensembles de données sont organisés par cas d'utilisation et incluent des ensembles de données qui peuvent être utilisés pour l'apprentissage en profondeur, le traitement du langage naturel, le grattage Web, etc.
Adresse : science des données d'élite
1.10 Jeu de données UCI
UCI dispose de plus de 500 ensembles de données d'apprentissage automatique triables par type de fichier, tâche, domaine d'application et sujet. Bon nombre de ces ensembles de données contiennent des liens vers des articles universitaires qui peuvent être utilisés pour l'analyse comparative. L'une des plus anciennes sources d'ensembles de données et le premier arrêt pour trouver des ensembles de données intéressants. Bien que les ensembles de données soient fournis par les utilisateurs et présentent donc divers degrés de propreté, la grande majorité sont propres et peuvent être téléchargées directement depuis le référentiel d'apprentissage automatique de l'UCI sans inscription.
Adresse : ensemble de données uci
1.11 jeu de données public github
github public datasets fournit une collection open source d'ensembles de données publics. Là, vous pouvez consulter le catalogue et choisir un sujet, allant de l'agriculture au transport et plus encore. Github comprend également une collection de modèles généraux d'apprentissage automatique. La plupart des jeux de données liés sont gratuits.
Adresse : ensembles de données github
1.12 Ensembles de données Azure
Microsoft Azure dispose d'une base de données d'ensembles de données publics que les développeurs peuvent utiliser pour le prototypage et les tests. Les catégories de bases de données comprennent les données du gouvernement américain et des agences, d'autres données statistiques et scientifiques et les données de services en ligne. Vous pouvez également y lire de la documentation sur SQL et sur la manière de créer des applications mobiles et Web.
Adresse : ensembles de données azur
2 ensembles de données de vision par ordinateur
2.1 Ensemble de données ImageNet
L'ensemble de données ImageNet est l'un des ensembles de données les plus populaires dans le domaine des applications d'apprentissage en profondeur aujourd'hui, et il contient une grande quantité de données d'image et d'annotations. Les annotations du jeu de données ImageNet couvrent toutes les grandes catégories, les catégories moyennes et les petites catégories. Les grandes catégories sont plus générales et les petites catégories sont plus spécifiques. Cette fonctionnalité rend ce jeu de données adapté à la recherche sur les problèmes de classification d'images.
Adresse : jeu de données ImageNet
2.2 Ensemble de données COCO
Le nom complet est "Microsoft Common Objects in Context Dataset". Le jeu de données COCO est un jeu de données à grande échelle qui peut être utilisé pour la détection d'images, la segmentation sémantique et le sous-titrage d'images. Il contient plus de 330 000 images (dont 220 000 sont des images étiquetées), contenant 1,5 million de cibles, 80 catégories de cibles (catégories d'objets : piétons, voitures, éléphants, etc.), 91 catégories de matériaux (catégories de choses : herbe, mur, ciel, etc.), chaque image contient des descriptions de cinq phrases de l'image, et il y a 250 000 piétons annotés avec des points clés.
Adresse : jeu de données coco
2.3 Ensemble de données IMDB-Wiki
L'ensemble de données IMDB-Wiki fournit la plus grande collection d'images de visages, avec plus de 500 000 images. De nombreuses images proviennent de célébrités et de Wikipedia. Chaque image est étiquetée avec le sexe et l'âge.
Adresse : jeux de données imdb
2.4 Jeu de données LabelMe
Construit à l'aide de l'outil d'étiquetage LabelMe. Cet outil permet aux utilisateurs de décrire et d'étiqueter des objets. Cet ensemble de données peut être utilisé dans des projets de reconnaissance d'images.
Adresse : jeux de données labelme
Jeu de données de 2,5 chars74k
chars74k comprend 74 000 images. Les données incluent la reconnaissance de caractères dans des images naturelles (par exemple, des images d'enseignes de restaurant)
Adresse : ensembles de données chars74k
2.6 Ensemble de données Kinetics-700
Kinetics-700 contient une série de liens vers des vidéos YouTube principalement étiquetées comme comportement humain. Il y a plus de 650 000 clips vidéo couvrant 700 comportements humains.
Adresse : ensembles de données kinetics-700
2.7 Base de données Places2
La base de données Places2 est un ensemble de données publié par le MIT, contenant plus de 10 millions d'images couvrant plus de 400 scènes. Il est utile pour des projets tels que la classification de scènes et l'analyse de scènes.
Adresse : jeux de données places2
2.8 Ensemble de données de pose humaine MPII
L'ensemble de données MPII Human Pose comprend environ 25 000 images impliquant 410 poses humaines. Les images contiennent environ 40 000 personnes différentes, chacune avec des articulations humaines annotées. Ces images sont collectées à partir de vidéos YouTube.
Adresse : ensembles de données de pose humaine
2.9 Jeu de données Open Images
Open Images est un ensemble de données d'image open source publié par Google, et la dernière version V7 sera publiée en octobre 2022. Cette version de l'ensemble de données contient plus de 9 millions d'images, toutes étiquetées avec des catégories. Parmi elles, plus de 1,9 million de photos ont des annotations très fines. Les images ouvertes peuvent être utilisées dans de nombreuses applications différentes, notamment la classification d'images, la détection d'objets, la segmentation d'images et la génération d'images .
Adresse : jeu de données d'images ouvertes
2.10 Jeu de données sur les paysages urbains
Cityscapes est un ensemble de données pour la segmentation sémantique des vues de rues urbaines, contenant 3257 images haute résolution de 50 villes d'Allemagne. L'ensemble de données couvre les images Street View sous différentes conditions d'éclairage telles que le matin, le jour et la nuit. Chaque image a une résolution de 2048x1024 et est annotée par des professionnels pour plusieurs étiquettes, y compris les bâtiments, les routes et les piétons. L'ensemble de données fournit également des listes pour la formation, la validation et les tests, ainsi que des mesures de performances de référence. L'introduction de l'ensemble de données Cityscapes contribuera à promouvoir le développement de l'analyse des scènes urbaines et offrira plus de possibilités pour la recherche et l'application d'algorithmes d'apprentissage en profondeur.
Adresse : ensemble de données sur les paysages urbains
2.11 Jeu de données Sogou
La photothèque Internet est issue d'une partie des données indexées par sogou image search. Il a collecté 2 836 535 images dans des catégories telles que les personnes, les animaux, les bâtiments, les machines, les paysages et les sports. Pour chaque image, l'image d'origine, la vignette, la page Web où se trouve l'image et le texte pertinent de la page Web sont indiqués dans l'ensemble de données. Plus de 200G
Adresse : http://www.sogou.com/labs/dl/p.html
2.12 Jeu de données IMAGECLEF
IMAGECLEF s'engage à fournir une référence pour les domaines liés au bitmap (récupération, classification, étiquetage, etc.) Cross Language Evaluation Forum (CLEF). Le concours a lieu chaque année depuis 2003.
Adresse : http://www.imageclef.org/
3 ensembles de données de traitement du langage naturel
3.1 Corpus des blogueurs Google
Google Blogger Corpus comprend près de 700 000 articles de blog de blogger.com. Chaque article contient au moins 200 mots anglais. Dans l'ensemble, ces articles de blog contiennent de nombreux mots anglais courants.
Adresse : Ensembles de données BlogCorpus
3.2 Avis Yelp
L'ensemble de données Yelp Reviews couvre les classements et les avis des restaurants et contient de riches informations liées à ce sujet. Les avis de cet ensemble de données peuvent être utilisés dans des projets d'analyse des sentiments.
Adresse : yelp datsets
3.3 Corpus WikiQA
Le corpus WikiQA est un ensemble de données de réponses aux questions compilé à partir des données de recherche Bing. Il comprend plus de 3 000 questions et fournit 29 000 phrases de réponse, dont 1 500 sont étiquetées comme phrases de réponse.
地址: Corpus WikiQA
3.4 WordNet
WordNet est une base de données de mots anglais regroupés par sens. Il existe 117 000 synsets (mots appariés selon des synonymes), qui sont ensuite liés à des synsets apparentés. Peut être utilisé dans les projets de classification de texte.
Adresse : ensembles de données wordnet
3.5 Jeu de données OpinRank
L'ensemble de données OpinRank contient 300 000 avis d'Edmunds et de TripAdvisor. Ils sont classés par destination, hôtel et autres facteurs pertinents.
Adresse : ensembles de données OpinRank
3.6 Ensemble de données de sentiment multi-domaines
L'ensemble de données sur les sentiments multi-domaines comprend des avis sur les produits Amazon.com de quatre domaines : DVD, Livres, Cuisine et Électronique. Chaque domaine a des milliers d'avis avec des notes de 1 à 5 étoiles. Comme son nom l'indique, cet ensemble de données est utile pour les projets d'analyse des sentiments.
Adresse : ensembles de données mdredze
3.7 Ensemble de données d'analyse des sentiments Twitter
L'ensemble de données d'analyse des sentiments de Twitter comprend plus de 1,5 million de tweets classés. Chaque ligne de l'ensemble de données a un rang : 1 pour le sentiment positif et 0 pour le sentiment négatif.
Adresse : ensembles de données de sentiment Twitter
3.8 Ensemble de données des groupes de discussion
Les groupes de discussion contiennent 20 000 documents et, comme leur nom l'indique, proviennent de plus de 20 groupes de discussion différents. Il couvre de nombreux sujets, dont certains sont relativement similaires. L'ensemble de données se compose de trois versions : une version d'origine, une version dont les dates ont été supprimées et une version dont les doublons ont été supprimés.
Adresse : 20 ensembles de données de groupes de discussion
3.9 Ensemble de données HuggingFace
L'ensemble de données HuggingFace comprend 611 ensembles de données texte qui peuvent être téléchargés prêts à l'emploi dans une ligne de python ; couvre 467 langues, dont 99 contiennent au moins 10 ensembles de données ;
Adresse : jeux de données huggingface
4 jeux de données audio et vidéo
4.1 Ensemble de données vocales M-AI Labs
L'ensemble de données vocales de M-AI Labs comprend près de 1 000 heures d'audio et de transcriptions. Inclut des voix masculines et féminines dans plusieurs langues.
Adresse : ensembles de données des laboratoires MAI
4.2 LibriSpeech
LibriSpeech comprend environ 1000 heures de données vocales qui ont été segmentées et alignées. Ces données ont été compilées à partir de livres audio du projet LibriVox.
Adresse : Ensembles de données Librispeech
5 Recherche de jeu de données
5.1 Recherche d'ensembles de données Google
Google fournit un moteur de recherche d'ensembles de données dans lequel vous pouvez rechercher des ensembles de données par nom. Le moteur vous permet de trier les ensembles de données selon plusieurs fonctionnalités, telles que le type de fichier, le sujet, la dernière mise à jour et la pertinence. Il peut également extraire des ensembles de données de milliers de bases de données sur Internet, ce qui vous permet de vraiment rechercher parmi un large éventail d'options. Les téléchargeurs de l'ensemble de données comprennent de nombreuses organisations internationales telles que l'Université de Harvard et l'Organisation mondiale de la santé.
Adresse : recherche de jeu de données Google
5.2 récupération d'ensembles de données d'indices
Références de compréhension de la langue chinoise, y compris des ensembles de données représentatifs, des modèles de référence (pré-formés), des corpus et des classements. Nous sélectionnerons une série d'ensembles de données correspondant à certaines tâches représentatives comme ensembles de données de référence de test. Ces ensembles de données couvriront différentes tâches, le volume de données et la difficulté de la tâche.
Adresse : indices de référence
5.3 ensemble de données de données visuelles
Visualdata contient d'excellents ensembles de données pour créer des modèles de vision par ordinateur que les utilisateurs peuvent interroger par sujet de CV, tels que la segmentation sémantique, le sous-titrage d'images, la génération d'images, les voitures autonomes, etc.
Adresse : visualdata
6 Ensembles de données spécifiques
6.1 Ensembles de données d'images médicales
Base de données des nodules pulmonaires LIDC-IDRI : image du cancer
Base de données d'images mammaires DDSM MIAS : Base de données d'images mammaires
FAQ Image Médicale : medical-image-faq
Défi de segmentation du ventricule droit (2012) : images IRM
Concours de classification du cancer du poumon : http://data-science-bowl-2017
Segmentation des cancers du poumon (Kaggle) : trouver des poumons dans la tomodensitométrie
Base de données sur le cancer du poumon : image du cancer
Jeu de données d'imagerie médicale : medical-data
Analyse d'images médicales : grand défi
6.2 Ensemble de données de compétition Kaggle
- Ensemble de données de recommandations de livres (goodreads/dizaines de milliers de livres/millions de critiques) [Kaggle] https://www.kaggle.com/zygmunt/goodbooks-10k
- Ensemble de données sur les détails du jeu NFL avec points attendus et probabilité de victoire (2009-2016) [Kaggle] https://www.kaggle.com/maxhorowitz/nflplaybyplay2009to2016
- Ensemble de données HackerNews (environ 1/4 d'articles depuis 2006) [Kaggle] https://www.kaggle.com/hacker-news/hacker-news-corpus
- Ensemble de données sur les critiques d'hôtels [Kaggle] https://www.kaggle.com/datafiniti/hotel-reviews
- Ensemble de données sur le statut et les performances des joueurs de la NBA depuis 1950 [Kaggle] https://www.kaggle.com/drgilermo/nba-players-stats
- [Concours Kaggle] Données du concours d'étalonnage des points clés du visage : https://www.kaggle.com/c/facial-keypoints-detection
- 【Concurrence Kaggle】 Prédire les données de concurrence sur le sexe et l'âge des utilisateurs en fonction du comportement d'utilisation du logiciel d'application mobile : http://dataju.cn/Dataju/web/datasetInstanceDetail/332
- [Concours Kaggle] Données du concours de reconnaissance d'images satellite DSTL : https://www.kaggle.com/c/dstl-satellite-imagery-feature-detection
- [Concours Kaggle] Données de classification des images de chat et de chien : https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition
- [Concours Kaggle] Prédiction de la concurrence des menaces basée sur l'imagerie par balayage corporel des inspections de sécurité : https://www.kaggle.com/c/passenger-screening-algorithm-challenge
- [Concours Kaggle] Données sur la catastrophe du Titanic : https://www.kaggle.com/c/titanic
- [Concours Kaggle] Données sur les crimes de Philadelphie : https://www.kaggle.com/mchirico/philadelphiacrimedata
- 【Concours Kaggle】Données d'enchères en temps réel : https://www.kaggle.com/zurfer/rtb
- [Concours Kaggle] Recommandation de contenu d'actualités et de pages Web et concours de clics : https://www.kaggle.com/c/outbrain-click-prediction
- [Données Kaggle] Données de film IMDB 5 000 : https://www.kaggle.com/deepmatrix/imdb-5000-movie-dataset
- [Kagle Data] Données sur les performances des footballeurs européens : https://www.kaggle.com/hugomathien/soccer
- [Kagle Data] Données sur le développement économique des pays du monde : https://www.kaggle.com/worldbank/world-development-indicators
- Ensemble de données chronologiques sur l'intensité lumineuse de la planète spatiale profonde du télescope spatial Kepler [Kaggle] https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data
- Ensemble de données sur les attaques de drones au Pakistan (2004-2016) [Kaggle] https://www.kaggle.com/zusmani/pakistandroneattacks
- Ensemble de données sur le marché du logement de Melbourne [Kaggle] https://www.kaggle.com/anthonypino/melbourne-housing-market
- 1789-2016 Présidents américains signant l'ensemble de données du décret exécutif [Kaggle] https://www.kaggle.com/nationalarchives/executive-orders
- Jeu de données de réponse aux questions en langage Python de la plate-forme Stack Overflow [Kaggle] https://www.kaggle.com/stackoverflow/pythonquestions
- Jeu de données de réponse aux questions en langage R de Stack Overflow Pintai [Kaggle] https://www.kaggle.com/stackoverflow/rquestions
- Ensemble de données quotidiennes sur l'étendue de la glace de mer [Kaggle] https://www.kaggle.com/nsidcorg/daily-sea-ice-extent-data
- Jeu de données papier NIPS (1987-2016) [Kaggle] https://www.kaggle.com/benhamner/nips-papers
- Données sur les actions américaines [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/220
- Données du marché américain de l'assurance médicale [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/225
- Données sur les plaintes des clients financiers américains [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/229
- Données par défaut de prêt en ligne du club de prêt [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/206
- Données sur les fraudes à la carte de crédit [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/206
- Données boursières américaines XBRL [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/214
- Données de la Bourse de New York [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/214
- Données du concours de prédiction de défaut de prêt [Concours Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/249
- Données du concours de prédiction de la valeur immobilière du site Web Zillow [Concours Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/249
- Données du concours de prévision de la valeur immobilière russe de la Sberbank [Concours Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/266
- Données de la concurrence sur les tarifs d'assurance des sites résidentiels [Kaggle Competition] http://dataju.cn/Dataju/web/datasetInstanceDetail/336
- Données de compétition de prévision de rendement des actions Winton [Concours Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/347?match
- [Données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/324
- Amazon a déverrouillé les données d'examen des téléphones portables http://dataju.cn/Dataju/web/datasetInstanceDetail/349
- [Données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/364
- [Données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/207
- Données de compétition Kaggle [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/207
- La ligne de production Bosch réduit les données de concurrence sur les taux défectueux [Concours Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/208
- Données d'enchères en temps réel sur la publicité en ligne [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/337
- Données du concours de l'association des produits du panier d'achat [Concours Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/335
- Données du concours de prédiction de réservation de séjour chez l'habitant des nouveaux utilisateurs d'Airbnb [Concours Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/333
- Données sur la nutrition alimentaire [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/80
- Données sur la forme des ondes cérébrales EGG [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/79
- Données de séquence génétique de quelqu'un [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/121
- Données d'image CT du cancer [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/242
- Données d'image CT du sarcome des tissus mous [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/124
- Données du concours de reconnaissance de la classification des chats et des chiens [concours Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/318
- Données du concours de reconnaissance d'images satellite DSTL [Concours Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/328
- Prédire les données de concurrence sur le sexe et l'âge des utilisateurs en fonction du comportement d'utilisation des logiciels d'application mobile [Concours Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/332
- Face aux données de compétition d'étalonnage des points clés [Concours Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/331
- Collecte de données de compétition Kaggle (données de compétition partielles) http://dataju.cn/Dataju/web/datasetInstanceDetail/368
- Données publiques Airbnb de Boston [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/209
- Données sur le développement économique des pays du monde [données Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/202
- Classement mondial des universités Chicago Crime Data (2001-2017) [Kaagle Data] http://dataju.cn/Dataju/web/datasetInstanceDetail/233
- Données sur les tremblements de terre significatifs dans le monde (1965-2016) [Données Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/231
- Données américaines sur les noms de bébé [données Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/222
- Données sur les attaques de requins contre des humains dans le monde entier [données Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/219
- Données sur les accidents aériens depuis 1908 [données Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/218
- Données sur l'élection présidentielle américaine de 2016 [données Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/217
- Statistiques de la communauté américaine 2013 [données Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/273
- Statistiques de la communauté américaine 2014 [données Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/274
- Statistiques de la communauté américaine 2015 [données Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/215
- Données de performance des footballeurs européens [données Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/211
- Données sur la pollution de l'environnement aux États-Unis [données Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/224
- Données de demande de visa américain H1-B Données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/224
- IMDB cinq mille données de films [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/224
- Données sur les retards et annulations de vols 2015 [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/226
- Données de rapport d'homicide [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/216
- Données d'analyse des ressources humaines [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/259
- Données sur la criminalité à Philadelphie, États-Unis [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/260
- Données de messagerie Enron [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/262
- Données historiques sur le baseball [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/263
- Données des commentaires des utilisateurs de United Airlines sur Twitter [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/264
- Données publiques Airbnb de Boston [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/265
6.3 Ensembles de données de traitement du langage naturel
- RCV1:http://dataju.cn/Dataju/web/datasetInstanceDetail/93
- Anglais : http://dataju.cn/Dataju/web/datasetInstanceDetail/90
- Données d'actualité : http://dataju.cn/Dataju/web/datasetInstanceDetail/78
- Ensemble de données sur le raisonnement en langage naturel (marquage d'implication de texte) [NYU] https://www.nyu.edu/projects/bowman/multinli/
- 20news données d'actualités en anglais http://dataju.cn/Dataju/web/datasetInstanceDetail/78
- Paires de questions de la première version de Quora Données Q&A http://dataju.cn/Dataju/web/datasetInstanceDetail/94
- Noms JRC:http://dataju.cn/Dataju/web/datasetInstanceDetail/92
- Noms d'entité spécifiques à la langue nationale : http://dataju.cn/Dataju/web/datasetInstanceDetail/89
- Sentiment multi-domaine V2.0 : http://dataju.cn/Dataju/web/datasetInstanceDetail/205
- Données de récupération d'informations LETOR : http://dataju.cn/Dataju/web/datasetInstanceDetail/205
- Yale Youtube Video Text:http://dataju.cn/Dataju/web/datasetInstanceDetail/221
- Données de questions et réponses de Stanford [données Kaggle] : http://dataju.cn/Dataju/web/datasetInstanceDetail/221
- Données de fausses nouvelles américaines [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/212
- Données d'information sur les articles de la conférence NIPS (1987-2016) [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/268
- Données du débat sur l'élection présidentielle américaine de 2016 [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/269
- Corpus de référencement croisé de documents WikiLinks : http://dataju.cn/Dataju/web/datasetInstanceDetail/277
- Actes du Parlement européen Parallel Corpus données de traduction automatique http://dataju.cn/Dataju/web/datasetInstanceDetail/285
- Données du thésaurus sémantique anglais WikiText : http://dataju.cn/Dataju/web/datasetInstanceDetail/272
- WMT 2011 News Crawl Données de traduction automatique : http://dataju.cn/Dataju/web/datasetInstanceDetail/288
- Données de vocabulaire de Stanford Sentiment Treebank : http://dataju.cn/Dataju/web/datasetInstanceDetail/334
- Données du concours de prédiction de mots du modèle de langue anglaise : http://dataju.cn/Dataju/web/datasetInstanceDetail/201
- Apache Software Foundation Public Mail Archive : l'intégralité de l'archive de messagerie d'Apache Software Foundation accessible au public au 11 juillet 2011. (200 Go) http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
- Blogger Original Corpus : Contient les messages de 19 320 blogueurs collectés en août 2004 sur le site Web http://blogger.com. 681 288 publications et plus de 1,4 million de mots. (298 Mo) http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
- Amazon Food Reviews [Kaggle] : Contient 568 454 avis sur les aliments laissés par les utilisateurs d'Amazon avant octobre 2012. (240 Mo) https://www.kaggle.com/snap/amazon-fine-food-reviews
- Avis Amazon : Stanford a recueilli 35 millions d'avis Amazon. (11 Go) https://snap.stanford.edu/data/web-Amazon.html
- Sur ArXiv : texte intégral de tous les articles acceptés (270 Go) + fichiers sources. (190 Go) http://arxiv.org/help/bulk_data_s3
- ASAP Automatic Essay Scoring [Kaggle]: Dans ce concours, il y a 8 collections d'essais. Chaque composition est générée à partir des réponses à une seule invite. Les essais sélectionnés varient en longueur de 150 à 550 mots. Certaines compositions s'appuient sur des informations sources, d'autres non. Tous les articles sont rédigés par des élèves de la 7e à la 10e année. Tous les essais sont notés manuellement et un système de double notation est utilisé. (100 Mo) https://www.kaggle.com/c/asap-aes/data
- ASAP Short Answer Scoring [Kaggle] : chaque ensemble de données est généré à partir des réponses à une seule invite. La longueur moyenne des réponses sélectionnées est de 50 mots. Certaines réponses reposent sur des informations sources, d'autres non. Toutes les réponses ont été rédigées par des élèves de 10e année. Toutes les réponses ont été notées manuellement et un système de double notation a été adopté. (35 Mo) https://www.kaggle.com/c/asap-sas/data
- Catégorisation des médias sociaux politiques : Catégorisation des messages des médias sociaux des politiciens par contenu. (4 Mo) https://www.crowdflower.com/data-for-everyone/
- CLiPS Corpus of Stylistics Research (CSI) : élargi chaque année avec deux types d'écritures d'étudiants : des essais et des critiques. L'objet de ce corpus est principalement la recherche stylistique, mais il peut également être utilisé pour d'autres recherches. (L'ensemble de données doit être obtenu par application) http://www.clips.uantwerpen.be/datasets/csi-corpus
- ClueWeb09 FACC : ClueWeb09 avec annotation Freebase. (72 Go) http://lemurproject.org/clueweb09/FACC1/
- ClueWeb11 FACC : ClueWeb11 avec annotations Freebase. (92 Go) http://lemurproject.org/clueweb12/FACC1/
- Corpus de robot d'exploration commun : se compose de plus de 5 milliards de pages Web (541 To) de données de robot d'exploration. http://aws.amazon.com/de/datasets/common-crawl-corpus/
- Cornell Movie Dialog Corpus : Contient une vaste collection de métadonnées riches, de dialogues extraits de scripts de films originaux : 617 films, 220 579 échanges conversationnels entre 10 292 paires de personnages de films. (9,5 Mo) http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
- Messagerie d'entreprise : le travail de catégorisation de ce dont les entreprises parlent réellement sur les réseaux sociaux. Les volontaires ont été invités à catégoriser les déclarations d'entreprise en informations (énoncés objectifs sur l'entreprise ou ses activités), en conversation (répondre aux utilisateurs, etc.) ou en action (messages demandant des votes ou demandant aux utilisateurs de cliquer sur des liens, etc.). (600 Ko) http://aws.amazon.com/de/datasets/common-crawl-corpus/
- Crosswikis : une base de données reliant des phrases en anglais à des articles de Wikipédia. (11 Go) http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/
- Un effort collectif de la communauté Web pour extraire des informations structurées de Wikipédia et rendre ces informations disponibles sur le Web. (17 Go) http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic
- Death Row : Les derniers mots de tous les prisonniers exécutés depuis 1984. (Formulaire HTML) http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html
- http://Del.icio.us : 1,25 million de signets sur http://delicious.com. http://arvindn.livejournal.com/116137.html
- Tweets catastrophe sur les réseaux sociaux : 10 000 tweets, annotés avec ou sans catastrophe. (2 Mo) https://www.crowdflower.com/data-for-everyone/
- Articles liés aux actualités économiques : déterminez si un article de presse est pertinent pour l'économie américaine et, le cas échéant, quel est le ton de l'article. La période s'étend de 1951 à 2014. (12 Mo) https://www.crowdflower.com/data-for-everyone/
- Données de messagerie d'Enron : Contient 1 227 255 e-mails avec 493 384 pièces jointes couvrant 151 managers. (210 Go) http://aws.amazon.com/de/datasets/enron-email-data/
- Enregistrement d'événements : Un outil gratuit qui fournit un accès en temps réel aux articles de presse de 100 000 points de vente à travers le monde. Il existe une interface API. (outil de requête) http://eventregistry.org/
- http://Examiner.com - News Headline Phishing Spam [Kaggle] : 3 millions de titres d'actualités collectés publiés par le site de phishing aujourd'hui disparu The Examiner de 2010 à 2015. (200 Mo) https://www.kaggle.com/therohk/examine-the-examiner
- Contrats fédéraux du Federal Acquisition Data Center (http://USASpending.gov) : Une base de données de tous les contrats fédéraux du Federal Acquisition Data Center à http://USASpending.gov. (180 Go) http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/
- Taxonomie personnelle Flickr : un ensemble de données arborescentes d'étiquettes personnelles. (40 Mo) http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
- Base de données Freebase : Une base de données de tous les faits et déductions actuels dans Freebase. (26 Go) http://aws.amazon.com/de/datasets/freebase-data-dump/
- Freebase Simple Topic Library : Une base de données de faits de base sur chaque sujet de Freebase. (5 Go) http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/
- Bibliothèque quaternaire Freebase : une base de données de tous les faits et inférences actuels dans Freebase [LZ1]. (35 Go) http://aws.amazon.com/de/datasets/freebase-quad-dump/
- GigaOM Wordpress Challenge [Kaggle] : articles de blog, métadonnées, préférences des utilisateurs. (1,5 Go) https://www.kaggle.com/c/predict-wordpress-likes/data
- N-grammes de Google Livres : également disponible sous forme de fichier au format hadoop sur Amazon S3. (2,2 To) http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
- Google Web 5-grams : n-grammes contenant des mots anglais et leur fréquence compte. (24 Go) https://catalog.ldc.upenn.edu/LDC2006T13
- Liste des livres électroniques de Gutenberg : une liste de livres électroniques annotés. (2 Mo) http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
- Blocs de texte du Parlement canadien : 1,3 million de blocs de texte standard (phrases ou fragments plus petits) tirés des documents officiels de la 36e législature du Canada (Hansards). (82 Mo) http://www.isi.edu/natural-language/download/hansard/
- Bibliothèques de Harvard : Dossiers bibliographiques de plus de 12 millions de volumes de documents détenus dans les bibliothèques de Harvard, y compris des livres, des périodiques, des ressources électroniques, des manuscrits, des documents d'archives, des partitions musicales, des documents audio, vidéo et autres. (4 Go) http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset
- Identification du discours de haine : les volontaires examinent des textes courts et déterminent s'ils a) contiennent un discours de haine, b) sont offensants mais n'en contiennent pas, ou c) ne sont pas du tout offensants. Contenant près de 15 000 lignes, chaque chaîne de texte avait trois jugements volontaires. (3 Mo) https://github.com/t-davidson/hate-speech-and-offensive-language
- E-mails d'Hillary Clinton [Kaggle] : A rassemblé près de 7 000 pages d'e-mails de Clinton. (12 Mo) https://www.kaggle.com/kaggle/hillary-clinton-emails
- Association de recherche de produits de la société Home Depot [Kaggle] : contient de nombreux termes de recherche de produits et de clients sur le site Web de la société Home Depot. Le défi consiste à prédire le score de pertinence des combinaisons de termes de recherche et des produits. Pour créer des étiquettes authentiques, The Home Depot a externalisé les associations recherche/produit auprès de plusieurs évaluateurs. (65 Mo) https://www.kaggle.com/c/home-depot-product-search-relevance/data
- Identifier les phrases clés dans le texte : paires question/réponse et composition du texte ; déterminer si le texte contextuel est pertinent pour la question/réponse. (8 Mo) https://www.crowdflower.com/data-for-everyone/
- Émission de télévision américaine « Jeopardy » : une collection de 216 930 questions passées de « Jeopardy ». (53 Mo) http://www.reddit.com/r/datasets/comments
- 200 000 blagues en texte clair en anglais : archive de 208 000 blagues en texte clair provenant de différentes sources. https://github.com/taivop/joke-dataset
- Traduction automatique en langue européenne. (612 Mo) http://statmt.org/wmt11/translation-task.html#download
- Fiche de données de sécurité : 230000 Fiche de données de sécurité. (3 Go) http://aws.amazon.com/de/datasets/material-safety-data-sheets/
- Million News Headlines - ABC Australia [Kaggle] : 1,3 million de titres de 2003 à 2017 publiés par ABC News Australia. (56 Mo) https://www.kaggle.com/therohk/million-headlines
- MCTest : collection gratuite de 660 histoires et questions associées pour la recherche de la compréhension automatique du texte, la réponse aux questions. (1 Mo) http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html
- Negra : un corpus grammaticalement annoté de textes de journaux allemands. Gratuit pour toutes les universités et les organismes à but non lucratif. Besoin de signer l'accord et envoyer la demande pour l'obtenir. http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html
- Titres d'actualité - Times of India [Kaggle] : 2,7 millions de catégories de titres d'actualité publiés par le Times of India de 2001 à 2017. (185 Mo) https://www.crowdflower.com/data-for-everyone/
- Jumelage article de presse/page Wikipédia : les volontaires ont lu un court article et ont été invités à déterminer lequel des deux articles de Wikipédia correspondait le mieux. (6Mo) https://www.kaggle.com/benhamner/nips-2015-papers/version/2
- 2015 NIPS Papers (Version 2) [Kaggle] : Texte intégral de tous les articles NIPS 2015. (335 Mo) https://www.kaggle.com/benhamner/nips-2015-papers/version/2
- Données Facebook du NYT : toutes les publications du NYT sur Facebook. (5Mo) http://minimaxir.com/2015/07/facebook-scraper/
- Global News Weekly Feed [Kaggle] : Un ensemble de données de 1,4 million d'événements d'actualité publiés dans le monde dans plus de 20 langues pendant une semaine en août 2017. (115 Mo) https://www.kaggle.com/therohk/global-news-week
- Exactitude des paires phrase/concept : Les volontaires lisent des phrases sur deux concepts. Par exemple, "Un chien est un animal", ou "Un capitaine peut signifier la même chose qu'un propriétaire", et on leur a ensuite demandé si cette phrase était correcte et l'a notée de 1 à 5. (700 Ko) https://www.crowdflower.com/data-for-everyone/
- Base de données de bibliothèque ouverte : une collection modifiée de tous les enregistrements d'une bibliothèque ouverte. (16 Go) https://openlibrary.org/developers/dumps
- Character Corpus : Une collection d'expériences sur le style d'essai de l'auteur et la prédiction de la personnalité. Se compose de 145 articles néerlandais de 145 étudiants. (L'accès nécessite une application) http://www.clips.uantwerpen.be/datasets/personae-corpus
- Commentaires Reddit : tous les commentaires publics sur le forum Reddit en date de juillet 2015. Un total de 1,7 milliard de commentaires. (250 Go) https://www.reddit.com/r/datasets/comments/3bxlg7
- Revue Reddit (mai 2015) : sous-ensemble de données Kaggle. (8 Go) https://www.kaggle.com/reddit/reddit-comments-may-2015
- Corpus de soumission Reddit : toutes les soumissions Reddit accessibles au public de janvier 2006 au 31 août 2015. (42 Go) https://www.reddit.com/r/datasets/comments/3mg812
- Reuters Corpus : ensemble de données contenant des articles de presse de Reuters pour la recherche et le développement de systèmes de traitement du langage naturel, de récupération d'informations et d'apprentissage automatique. Le corpus, également connu sous le nom de "Reuters Quotations 1" ou RCV1, est beaucoup plus volumineux que l'ensemble de données bien connu Reuters 21578 qui était à l'origine largement utilisé dans la classification de texte. Les données du corpus doivent être obtenues en signant un accord et en envoyant un e-mail. (2,5 Go) https://trec.nist.gov/data/Reuters/Reuters.html
- SaudiNewsNet : 31030 titres et métadonnées extraits de divers journaux en ligne saoudiens. (2 Mo) https://github.com/ParallelMazen/SaudiNewsNet
- Ensemble de données SMS Spam : 5 574 messages SMS authentiques en anglais non codés marqués comme légitimes/illégaux. (200 Ko) http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
- Ensemble de données South Park : un fichier csv contenant des informations de script pour les saisons, les épisodes, les personnages et les répliques. (3,6 Mo) https://github.com/BobAdamsEE/SouthParkData
- Stackoverflow : 7,3 millions de questions de stackoverflow et d'autres questions et réponses d'échange de pile (outil de réponse aux questions). http://data.stackexchange.com/
- Ensemble de données de ciblage des utilisateurs Cheng-Caverlee-lee de Twitter : ciblage des tweets pour la période de septembre 2009 à janvier 2010. (400Mo) https://archive.org/details/twitter_cikm_2010
- Buzz sur Twitter à propos de la déflation des Patriots de la Nouvelle-Angleterre : Avant le Super Bowl 2015, il y avait beaucoup de discussions sur les ballons de football dégonflés et si les Patriots trichaient. L'ensemble de données fournit le sentiment de Twitter pendant la période du scandale afin d'évaluer ce que le public a ressenti à propos de l'événement dans son ensemble. (2 Mo) https://www.figure-eight.com/data-for-everyone/
- Analyse de l'opinion publique sur les événements liés à la gauche sur Twitter : les tweets sur la légalisation de l'avortement, le féminisme, Hillary Clinton et d'autres événements liés à la gauche, les tweets seront classés comme Pour (soutien) et Contre (contre) en fonction de l'inférence de contenu, Neutre (neutre), ou Aucune des réponses ci-dessus (aucune des réponses ci-dessus). (600 Ko) https://www.figure-eight.com/data-for-everyone/
- Sentiment140 de Twitter (Ensemble de données d'analyse des sentiments) : tweets sur les marques/mots clés, sites Web, y compris les articles et les idées de recherche. (77 Mo) http://help.sentiment140.com/for-students/
- Analyse de l'opinion publique sur les voitures autonomes sur Twitter : les contributeurs ont lu les tweets et ont classé leurs attitudes à l'égard de la conduite autonome en très positives, plutôt positives, neutres, relativement négatives et très négatives. Si le tweet n'a rien à voir avec les voitures autonomes, ils le signalent également. (1 Mo) https://www.figure-eight.com/data-for-everyone/
- Tweets ciblés sur Tokyo sur Twitter : 200 000 tweets de Tokyo. (47 Mo) http://followthehashtag.com/datasets/200000-tokyo
- Tweets ciblés sur le Royaume-Uni sur Twitter : 170 000 tweets du Royaume-Uni. (47 Mo) http://followthehashtag.com/datasets/170000-uk
- Tweets destinés aux États-Unis sur Twitter : 200 000 tweets provenant des États-Unis. (45 Mo) http://followthehashtag.com/datasets/free-twitter-dataset
- Attitudes envers les principales compagnies aériennes américaines sur Twitter (ensemble de données Kaggle) : il s'agit d'une tâche d'analyse des sentiments pour les problèmes avec les principales compagnies aériennes américaines. L'ensemble de données explore les tweets de février 2015, les contributeurs les classant comme positifs, négatifs et neutres, et donnant les raisons de ceux classés comme négatifs (par exemple "l'avion est en retard" ou " Mauvaise attitude de service", etc.). (2,5 Mo) https://www.kaggle.com/crowdflower/twitter-airline-sentiment
- Performance économique des États-Unis basée sur les titres de l'actualité : trie la pertinence des nouvelles pour l'économie américaine en fonction des titres et des résumés de l'actualité. (5 Mo) https://www.figure-eight.com/data-for-everyone/
- Urban Dictionary (American Online Slang Dictionary) Words and Definitions : un corpus CSV épuré de tous les 2,6 millions de mots, définitions, auteurs et votes dans Urban Dictionary en date de mai 2016. (238 Mo) https://www.kaggle.com/therohk/urban-dictionary-words-dataset
- Wesbury Lab Usenet Corpus d'Amazon : une compilation anonyme des messages de 47 860 groupes de discussion en anglais de 2005 à 2010. (40 Go) http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/
- Wikipédia Wesbury Lab Corpus : Un instantané de tous les articles de la section anglophone de Wikipédia en avril 2010. Le site Web décrit en détail la manière dont les données sont traitées - c'est-à-dire supprimées de tous les liens et éléments non pertinents (par exemple, texte de navigation, etc.). Un corpus est un texte brut non étiqueté, qui est utilisé dans Stanford NLP. http://www.psych.ualberta.ca
- Lien de saut PNL de Stanford : https://scholar.google.com/scholar
- Wikipedia Extraction (WEX) : La version anglaise traitée de Wikipedia. (66 Go) http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/
- Données au format XML de Wikipédia : une reproduction complète de tous les Wikimédias, intégrée dans XML en tant que source de texte wiki et métadonnées. (500 Go) http://aws.amazon.com/de/datasets/wikipedia-xml-data/
- Questions et réponses complètes de Yahoo Answers : le corpus Yahoo Answers au 25 octobre 2007, contenant 4 483 032 questions et réponses. (3,6 Go) http://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Questions posées en français dans Yahoo Answers : un sous-ensemble du corpus Yahoo Answers de 2006 à 2015, contenant 1,7 million de réponses aux questions en français. (3,8 Go) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Questions "Comment faire" de Yahoo Answers [LZ2] : un sous-ensemble de 142 627 questions et réponses issues du corpus Yahoo Answers du 25 octobre 2007, sélectionnées en fonction d'attributs linguistiques. (104 Mo) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Pages au format HTML de Yahoo extraites de pages Web publiques : Contient un petit nombre de pages au format HTML complexe et 2,67 millions de pages au format complexe. (50+ Go) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Métadonnées extraites des pages web publiques par Yahoo : 100 millions de triplets de données au format RDF. (2 Go) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Données de représentations N-gram de Yahoo (représentations N-Gram) : cet ensemble de données contient des données de représentation N-gram, qui peuvent être utilisées pour les tâches de réécriture de requêtes (réécriture de requêtes) courantes dans la recherche IR, et peuvent également être utilisées dans la recherche NLP mot commun et tâches d'analyse de similarité de phrases. (2,6 Go) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Données N-gram de Yahoo (version 2.0) : données n-gram (n=1-5) à partir d'un corpus de 14,6 millions de documents (126 millions de phrases uniques, 3,4 milliards de mots courants) Extraction de documents à partir de 12 000 sites d'information. (12 Go) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Jugement de pertinence des journaux de recherche Yahoo : Jugement de pertinence des journaux de recherche Yahoo anonymes. (1,3 Go) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Aperçu des annotations sémantiques de Wikipedia anglais de Yahoo : Contient 1 490 688 entrées de Wikipedia anglais au 4 novembre 2006 après traitement avec certains outils NLP accessibles au public. (6 Go) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Yelp : contient des classements de restaurants et 2,2 millions d'avis. https://www.yelp.com/dataset
- Youtube : 1,7 million de descriptions de vidéos YouTube. (format torrent) https://www.reddit.com/r/datasets/comments/
- Excellents ensembles de données PNL publics (avec plus de listes) https://github.com/awesomedata/awesome-public-datasets
- Ensemble de données public Amazon https://aws.amazon.com/de/datasets/
- Ensemble de données CrowdFlower (contient un grand nombre de petites enquêtes et de données participatives pour des tâches spécifiques) https://www.crowdflower.com/data-for-everyone/
- Jeux de données Kaggle https://www.kaggle.com/datasets
- Compétitions Kaggle (veuillez vous assurer que ces données de compétition kaggle peuvent être utilisées en dehors de la compétition) https://www.kaggle.com/competitions
- Bibliothèque ouverte https://openlibrary.org/developers/dumps
- Quora (principalement corpus annoté) https://www.quora.com/Datasets
- ensembles de données reddit (de nombreux ensembles de données, principalement explorés par des amateurs, mais la conservation des données et les licences peuvent ne pas être normalisées) https://www.reddit.com/r/datasets
- http://Rs.io : également une très longue liste d'ensembles de données http://rs.io/100-interesting-data-sets-for-statistics/
- Stackexchange : données ouvertes http://opendata.stackexchange.com/
- Groupe Stanford NLP (principalement des corpus étiquetés et des TreeBanks, et des outils pratiques de NLP) https://nlp.stanford.edu/links/statnlp.html
- Résumé de l'ensemble de données de Yahoo Research Webscope (comprend également une liste d'articles qui utilisent les données) http://webscope.sandbox.yahoo.com/
- Liste des ensembles de données de traitement du langage naturel (NLP) [Nicolas Iderhoff] https://github.com/niderhoff/nlp-datasets
- NLVR : ensemble de données de base en langage naturel (groupement d'objets, quantité, comparaison et raisonnement des relations spatiales) http://lic.nlp.cornell.edu/nlvr/
- Stanford NLP a publié un nouvel ensemble de données de dialogue multi-tours, inter-domaines et axé sur les tâches [Mihail Eric] https://github.com/keunwoochoi/YouTube-music-video-5M
- Ensemble de données/code en langage naturel "La beauté des données" http://t.cn/hBOTM4
- Ensemble de données d'analyse sémantique de requête en langage naturel de base de données relationnelle de crowdsourcing à grande échelle (plus de 80 000 échantillons de requête) http://t.cn/RNMr09n
6.4 Divers types/ données d'image de scène/image complète
- Données d'image du génome visuel http://dataju.cn/Dataju/web/datasetInstanceDetail/311
- Données d'image Visual7w http://dataju.cn/Dataju/web/datasetInstanceDetail/315
- Données d'image COCO http://dataju.cn/Dataju/web/datasetInstanceDetail/316
- Données d'image SUFR http://dataju.cn/Dataju/web/datasetInstanceDetail/317
- Données de formation ILSVRC 2014 (partie d'ImageNet) http://dataju.cn/Dataju/web/datasetInstanceDetail/369
- PASCAL Visual Object Classes 2012 données d'image http://dataju.cn/Dataju/web/datasetInstanceDetail/85
- PASCAL Visual Object Classes 2011 données d'image http://dataju.cn/Dataju/web/datasetInstanceDetail/107
- PASCAL Visual Object Classes 2010 données d'image http://dataju.cn/Dataju/web/datasetInstanceDetail/51
- 80 millions de données d'image Tiny Image [les données sont trop volumineuses, seule introduction] http://dataju.cn/Dataju/web/datasetInstanceDetail/240
- ImageNet [Les données sont trop volumineuses et ne constituent qu'une introduction] http://dataju.cn/Dataju/web/datasetInstanceDetail/55
- Google Open Images【Les données sont trop volumineuses, seule l'introduction】http://dataju.cn/Dataju/web/datasetInstanceDetail/40
6.5 Image de scène
- Données d'image des scènes de rue http://dataju.cn/Dataju/web/datasetInstanceDetail/45
- Données d'image de scène Places2 http://dataju.cn/Dataju/web/datasetInstanceDetail/48
- (Stanford) Ensemble de données d'images de drones à grande échelle 69G (campus) [Stanford] http://cvgl.stanford.edu/projects/uav_data/
- Publier l'ensemble de données de perception/analyse/segmentation/reconnaissance multi-cibles ADE20K [MIT] https://groups.csail.mit.edu/vision/datasets/ADE20K/
- Ensemble de données sur le comportement binaire multimodal [GaTech] http://www.cbi.gatech.edu/mmdb/
- Ensemble de données de segmentation d'images de Berkeley BSDS500 [Berkeley] https://www2.eecs.berkeley.edu
- Données d'image UCF Google Street View http://dataju.cn/Dataju/web/datasetInstanceDetail/138
- Données d'image de scène SUN http://dataju.cn/Dataju/web/datasetInstanceDetail/138
- Données d'image de la célébrité dans les lieux http://dataju.cn/Dataju/web/datasetInstanceDetail/83
6.6 Balises d'images Web
- Image de l'étiquette sociale HARRISON http://dataju.cn/Dataju/web/datasetInstanceDetail/183
- Image d'étiquette NUS-WIDE http://dataju.cn/Dataju/web/datasetInstanceDetail/74
- Image d'étiquette Visual Synset http://dataju.cn/Dataju/web/datasetInstanceDetail/112
- Image de balise Animaux avec attributs http://dataju.cn/Dataju/web/datasetInstanceDetail/160
6.7 Silhouette humaine
- Ensemble de données d'esquisse de visage [CUHK] http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html
- Forme humaine MPII http://dataju.cn/Dataju/web/datasetInstanceDetail/234
- Données de contour du corps humain http://dataju.cn/Dataju/web/datasetInstanceDetail/173
- Biwi Kinect Head Pose données de pose de la tête http://dataju.cn/Dataju/web/datasetInstanceDetail/52
- Données de portrait du haut du corps http://dataju.cn/Dataju/web/datasetInstanceDetail/52
- Jeu de données Inria Person http://dataju.cn/Dataju/web/datasetInstanceDetail/235
6.8 Image de reconnaissance visuelle de texte
- Données d'image de numéro de maison Street View House Number http://dataju.cn/Dataju/web/datasetInstanceDetail/236
- Données d'image de reconnaissance de chiffres manuscrits MNIST http://dataju.cn/Dataju/web/datasetInstanceDetail/253
- Données d'image de reconnaissance numérique 3D MNIST [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/129
- MediaTeam Document Photocopie de document et données de contenu http://dataju.cn/Dataju/web/datasetInstanceDetail/129
- Données d'image de texte de reconnaissance de texte http://dataju.cn/Dataju/web/datasetInstanceDetail/110
- Formulaires et caractères imprimés à la main NIST Données manuscrites en caractères anglais http://dataju.cn/Dataju/web/datasetInstanceDetail/49
- NIST Structured Forms Reference Set of Binary Images http://dataju.cn/Dataju/web/datasetInstanceDetail/73
- (SFRS) données d'image http://dataju.cn/Dataju/web/datasetInstanceDetail/47
- NIST Structured Forms Reference Set of Binary Images http://dataju.cn/Dataju/web/datasetInstanceDetail/23
- (SFRS) II données d'image http://dataju.cn/Dataju/web/datasetInstanceDetail/203
6.9 Images d'une classe particulière de choses
- Les célèbres données d'annotation d'image de chat http://dataju.cn/Dataju/web/datasetInstanceDetail/128
- Caltech-UCSD http://dataju.cn/Dataju/web/datasetInstanceDetail/176
- Birds200 données d'images d'oiseaux http://dataju.cn/Dataju/web/datasetInstanceDetail/278
- Données d'image de voiture de Stanford Car http://dataju.cn/Dataju/web/datasetInstanceDetail/294
- Voitures données d'image de voiture http://dataju.cn/Dataju/web/datasetInstanceDetail/295
- Données d'image de voiture MIT Cars http://dataju.cn/Dataju/web/datasetInstanceDetail/41
- Données d'image de voiture de Stanford Cars http://dataju.cn/Dataju/web/datasetInstanceDetail/105
- Alimentaire-101 données d'image alimentaire http://dataju.cn/Dataju/web/datasetInstanceDetail/106
- 17_Category_Flower http://dataju.cn/Dataju/web/datasetInstanceDetail/106
- Données d'image http://dataju.cn/Dataju/web/datasetInstanceDetail/254
- 102_Category_Flower http://dataju.cn/Dataju/web/datasetInstanceDetail/255
- Données d'image http://dataju.cn/Dataju/web/datasetInstanceDetail/109
- Données d'image UCI Folio Leaf http://dataju.cn/Dataju/web/datasetInstanceDetail/114
- Poissons étiquetés http://dataju.cn/Dataju/web/datasetInstanceDetail/115
- dans l'image du poisson sauvage http://dataju.cn/Dataju/web/datasetInstanceDetail/60
- Photos d'hôtels du site américain Yelp http://dataju.cn/Dataju/web/datasetInstanceDetail/61
- CMU-Oxford http://dataju.cn/Dataju/web/datasetInstanceDetail/63
- Image de statue de sculpture http://dataju.cn/Dataju/web/datasetInstanceDetail/174
- Données d'image d'animal de compagnie d'Oxford-IIIT http://dataju.cn/Dataju/web/datasetInstanceDetail/256
- Nature http://dataju.cn/Dataju/web/datasetInstanceDetail/301
- Surveillance des pêches de conservation Données d'image de surveillance de la surpêche [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/118
- Ensemble de données d'images d'animaux de compagnie (segmentation) [Oxford] http://www.robots.ox.ac.uk/~vgg/data/pets/
6.10 Images de textures matérielles
- Données d'image de matériau de texture CURET http://dataju.cn/Dataju/web/datasetInstanceDetail/111
- Données d'image de texture de synthétisabilité ETHZ http://dataju.cn/Dataju/web/datasetInstanceDetail/127
- Données d'image de matériau de texture KTH-TIPS http://dataju.cn/Dataju/web/datasetInstanceDetail/172
- Textures descriptibles données d'image de texture http://dataju.cn/Dataju/web/datasetInstanceDetail/71
6.11 Images de classification d'objets
- Données d'image COIL-20 http://dataju.cn/Dataju/web/datasetInstanceDetail/62
- Données d'image COIL-100 http://dataju.cn/Dataju/web/datasetInstanceDetail/70
- Données d'image Caltech-101 http://dataju.cn/Dataju/web/datasetInstanceDetail/54
- Données d'image Caltech-256 http://dataju.cn/Dataju/web/datasetInstanceDetail/46
- Données d'image CIFAR-10 http://dataju.cn/Dataju/web/datasetInstanceDetail/42
- Données d'image CIFAR-100 http://dataju.cn/Dataju/web/datasetInstanceDetail/53
- Données d'image STL-10 http://dataju.cn/Dataju/web/datasetInstanceDetail/72
- LabelMe_12_50k http://dataju.cn/Dataju/web/datasetInstanceDetail/72
- Données d'image http://dataju.cn/Dataju/web/datasetInstanceDetail/69
- Données d'image NORB v1.0 http://dataju.cn/Dataju/web/datasetInstanceDetail/117
- Données d'image NEC Toy Animal http://dataju.cn/Dataju/web/datasetInstanceDetail/237
- Données de classification d'images iCubWorld http://dataju.cn/Dataju/web/datasetInstanceDetail/238
- Données de classification d'images multi-classes http://dataju.cn/Dataju/web/datasetInstanceDetail/239
- Données de classification d'images GRAZ http://dataju.cn/Dataju/web/datasetInstanceDetail/108
6.12 Image du visage
IMDB-WIKI 500k+ images de visage, données d'âge et de sexe http://dataju.cn/Dataju/web/datasetInstanceDetail/68
- Visages étiquetés dans les données de visage sauvage http://dataju.cn/Dataju/web/datasetInstanceDetail/50
- Données faciales étendues de la base de données de visages B de Yale http://dataju.cn/Dataju/web/datasetInstanceDetail/131
- Données de visage Bao Face http://dataju.cn/Dataju/web/datasetInstanceDetail/87
- Données faciales papier DC-IGN http://dataju.cn/Dataju/web/datasetInstanceDetail/119
- 300 Données d'image Face in Wild http://dataju.cn/Dataju/web/datasetInstanceDetail/120
- Données faciales BioID Face http://dataju.cn/Dataju/web/datasetInstanceDetail/122
- Images de face frontale CMU http://dataju.cn/Dataju/web/datasetInstanceDetail/123
- FDDB_Face Detection Data Set and Benchmark http://dataju.cn/Dataju/web/datasetInstanceDetail/130
- Base de données d'identification des mugshots NIST http://dataju.cn/Dataju/web/datasetInstanceDetail/140
- Visages dans les données de visage sauvage http://dataju.cn/Dataju/web/datasetInstanceDetail/170
- Données d'image de visage de célébrité CelebA http://dataju.cn/Dataju/web/datasetInstanceDetail/175
- Données d'image de visage VGG Face http://dataju.cn/Dataju/web/datasetInstanceDetail/189
- Caltech 10k Web Faces font face à des données d'image http://dataju.cn/Dataju/web/datasetInstanceDetail/125
6.13 Images d'action de pose
- HMDB_a grande base de données de mouvements humains http://dataju.cn/Dataju/web/datasetInstanceDetail/126
- Ensemble de données sur les actions et les scènes humaines http://dataju.cn/Dataju/web/datasetInstanceDetail/177
- Buffy Stickmen V3 données d'image de reconnaissance des contours du corps humain http://dataju.cn/Dataju/web/datasetInstanceDetail/178
- Human Pose Evaluator Données d'image de reconnaissance des contours du corps humain http://dataju.cn/Dataju/web/datasetInstanceDetail/179
- Pose de Buffy Données d'image de pose humaine http://dataju.cn/Dataju/web/datasetInstanceDetail/181
- VGG Human Pose Estimation pose des données d'annotation d'image http://dataju.cn/Dataju/web/datasetInstanceDetail/197
6.14 Image de reconnaissance d'empreintes digitales
Données d'identification d'empreintes digitales NIST FIGS http://dataju.cn/Dataju/web/datasetInstanceDetail/281
- NIST Supplemental Fingerprint Card Data (SFCD) données d'identification d'empreintes digitales http://dataju.cn/Dataju/web/datasetInstanceDetail/280
- Images NIST simples et enroulées à partir de cartes d'empreintes digitales jumelées http://dataju.cn/Dataju/web/datasetInstanceDetail/279
- dans 500 pixels par pouce de données d'identification d'empreintes digitales http://dataju.cn/Dataju/web/datasetInstanceDetail/77
- Images NIST simples et enroulées à partir de cartes d'empreintes digitales jumelées http://dataju.cn/Dataju/web/datasetInstanceDetail/289
- 1000 pixels par pouce données d'identification d'empreintes digitales http://dataju.cn/Dataju/web/datasetInstanceDetail/132
6.15 Autres données d'image
Réponse visuelle aux questions V1.0 Données d'image http://dataju.cn/Dataju/web/datasetInstanceDetail/84
- Réponse visuelle aux questions V2.0 Données d'image http://dataju.cn/Dataju/web/datasetInstanceDetail/241
- Ensemble de données d'images de vêtements de style Fashion-MNIST [Xiao Han] https://github.com/zalandoresearch/fashion-mnist
- Jeu de données sur les mangas japonais Manga109 : http://dl.acm.org/citation.cfm?doid=3011549.3011551
- Ensemble de données d'image Pixiv (coloration) [Jerry Li] https://github.com/jerryli27/pixiv_dataset
- Jeu de données sur les graffitis à dessin rapide ! https://github.com/googlecreativelab/quickdraw-dataset
- Ensemble de données sur les graffitis de bonhomme allumette [hardmaru] https://github.com/hardmaru/sketch-rnn-datasets
- Ensemble de données d'images à grande échelle au niveau de la rue (segmentation) [Peter Kontschieder] http://blog.mapillary.com/product/2017
- Ensemble de données de description d'images japonaises à grande échelle https://github.com/STAIR-Lab-CIT/STAIR-captions
- Ensemble de données de segmentation sémantique Cityscapes Street View (50 villes, 30 catégories, 5 000 images étiquetées finement 20 000 et vidéos étiquetées) https://github.com/mcordts/cityscapess
- Ensemble de données de vêtements de mode (de rue) (plus de 2000 images étiquetées) https://github.com/bearpaw/clothing-co-parsing
6.16 Ensemble de données du système de recommandation
- Données d'évaluation du film Netflix http://dataju.cn/Dataju/web/datasetInstanceDetail/330
- Ensemble de données de recommandation de film MovieLens 20m http://dataju.cn/Dataju/web/datasetInstanceDetail/329
- WikiLens http://dataju.cn/Dataju/web/datasetInstanceDetail/227
- Bouffon http://dataju.cn/Dataju/web/datasetInstanceDetail/350
- HetRec2011 http://dataju.cn/Dataju/web/datasetInstanceDetail/354
- Traversée de livres http://dataju.cn/Dataju/web/datasetInstanceDetail/32
- Grande critique de film http://dataju.cn/Dataju/web/datasetInstanceDetail/116
- Examen des produits Retailrocket et données de recommandation http://dataju.cn/Dataju/web/datasetInstanceDetail/97
- MovieLens https://grouplens.org/datasets/movielens/
- Bouffon http://www2.informatik.uni-freiburg.de/~cziegler/BX/
- Traversées de livres http://www2.informatik.uni-freiburg.de/~cziegler/BX/
- Last.fm https://grouplens.org/datasets/hetrec-2011/
- OpenStreetMap http://planet.openstreetmap.org/planet/full-history/
- Référentiels Python Git https://github.com/lab41/hermes
6.17 Ensembles de données financières
- Les données officielles publiées par le Bureau américain des statistiques du travail : http://dataju.cn/Dataju/web/datasetInstanceDetail/139
- Ex-droits et ex-dividendes des actions de Shanghai et de Shenzhen, attribution d'émissions supplémentaires données complètes, au 31.12.2016 http://dataju.cn/Dataju/web/datasetInstanceDetail/344
- Données quotidiennes du conseil principal de la Bourse de Shanghai, au 05/05/2017, prix d'origine, prix avant rétablissement, prix après rétablissement, 1260 actions http://dataju.cn/Dataju/web/datasetInstanceDetail/340
- Les données de ligne quotidiennes du conseil d'administration principal de la Bourse de Shenzhen, au 05/05/2017, prix d'origine, prix avant rétablissement, prix après rétablissement, 466 actions http://dataju.cn/Dataju/web/datasetInstanceDetail/341
- Données quotidiennes du conseil d'administration des PME SZSE, au 5 mai 2017, prix d'origine, prix avant rétablissement, prix après rétablissement, 852 actions http://dataju.cn/Dataju/web/datasetInstanceDetail/342
- Données quotidiennes de Shenzhen ChiNext, au 05/05/2017, prix d'origine, prix avant rétablissement, prix après rétablissement, 636 actions http://dataju.cn/Dataju/web/datasetInstanceDetail/343
- Données quotidiennes des actions Shanghai A, de 1999.12.09 à 2016.06.08, avant rétablissement, 1095 actions http://dataju.cn/Dataju/web/datasetInstanceDetail/37
- Données quotidiennes sur les actions A de Shenzhen, du 09.12.1999 au 08.06.2016, avant le rétablissement, 1766 actions http://dataju.cn/Dataju/web/datasetInstanceDetail/38
- Données quotidiennes GEM de la Bourse de Shenzhen, 09.12.1999 à 08.06.2016, avant rétablissement, 510 actions http://dataju.cn/Dataju/web/datasetInstanceDetail/39
- Données historiques des transactions de change de la plate-forme MT4 http://dataju.cn/Dataju/web/datasetInstanceDetail/43
- Données historiques des transactions de change de la plate-forme Forex http://dataju.cn/Dataju/web/datasetInstanceDetail/67
- Plusieurs ensembles de données de transactions de change Ticks http://dataju.cn/Dataju/web/datasetInstanceDetail/44
6.18 Jeu de données de trafic
- 2013 Données de conduite de taxi à New York http://dataju.cn/Dataju/web/datasetInstanceDetail/348
- 2013 Chicago taxi driving data http://dataju.cn/Dataju/web/datasetInstanceDetail/355
- Données du pilote automatique Udacity http://dataju.cn/Dataju/web/datasetInstanceDetail/356
- Données de ramassage Uber à New York [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/76
- Données britanniques sur les accidents de voiture (2005-2015) [données Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/323
- Données sur les excès de vitesse des voitures de Chicago [données Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/86
- Données de tâche de conduite autonome KITTI [les données sont trop volumineuses et n'en font qu'une partie] http://dataju.cn/Dataju/web/datasetInstanceDetail/210
- Données d'annotation de scènes de paysages urbains [les données sont trop volumineuses et ne représentent qu'une partie] http://dataju.cn/Dataju/web/datasetInstanceDetail/210
- Données de reconnaissance des panneaux de signalisation allemands http://dataju.cn/Dataju/web/datasetInstanceDetail/232
- Données de reconnaissance des feux de circulation http://dataju.cn/Dataju/web/datasetInstanceDetail/228
- Chicago Divvy a partagé des données de cyclisme (de 2013 à aujourd'hui) http://dataju.cn/Dataju/web/datasetInstanceDetail/228
- Données de conduite des vélos partagés à Chattanooga, États-Unis http://dataju.cn/Dataju/web/datasetInstanceDetail/270
- Bay Area a partagé des données de cyclisme http://dataju.cn/Dataju/web/datasetInstanceDetail/338
- Nice Ride a partagé des données sur la pratique du vélo http://dataju.cn/Dataju/web/datasetInstanceDetail/339
- Citibank a partagé des données sur le vélo http://dataju.cn/Dataju/web/datasetInstanceDetail/325
- Utiliser les données satellitaires pour suivre les trajectoires humaines dans la forêt amazonienne [Concours Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/358
- Données officielles sur les trajets de la New York Taxi Management Commission (2009-2016) http://dataju.cn/Dataju/web/datasetInstanceDetail/359
6.19 Données commerciales
- Informations ouvertes sur les séjours chez l'habitant d'Airbnb et données sur les avis des clients http://dataju.cn/Dataju/web/datasetInstanceDetail/360
- Données d'examen des aliments Amazon http://dataju.cn/Dataju/web/datasetInstanceDetail/361
- Ventes de jeux vidéo aux États-Unis et données d'évaluation http://dataju.cn/Dataju/web/datasetInstanceDetail/309
- Prévision des données sur la concurrence des loyers d'appartements http://dataju.cn/Dataju/web/datasetInstanceDetail/208
- Données du concours de recommandation de produits bancaires http://dataju.cn/Dataju/web/datasetInstanceDetail/213
- Données de compétition de prédiction de clic de recommandation d'utilisateur de site Web http://dataju.cn/Dataju/web/datasetInstanceDetail/319
6.20 Données médicales
- Données d'image IRM du cerveau lorsque les gens reconnaissent des objets http://dataju.cn/Dataju/web/datasetInstanceDetail/99
- Données d'image IRM du cerveau lorsque les gens comprennent les mots http://dataju.cn/Dataju/web/datasetInstanceDetail/101
- Images auriculaires cardiaques et données étiquetées http://dataju.cn/Dataju/web/datasetInstanceDetail/100
- Identification cytopathologique http://dataju.cn/Dataju/web/datasetInstanceDetail/98
- Données d'image de lésion du fond d'œil rétinien FIRE http://dataju.cn/Dataju/web/datasetInstanceDetail/290
- Introduction à l'entrepôt de données sur le cancer initié par le US Department of Health and Services-National Cancer Institute [Only an introduction] http://dataju.cn/Dataju/web/datasetInstanceDetail/250
- Data Science Bowl 2017 Lung Cancer Recognition Competition Data [Les données sont trop volumineuses pour être présentées uniquement] http://dataju.cn/Dataju/web/datasetInstanceDetail/258
- Données d'image CT du cancer du poumon TCGA-LUAD http://dataju.cn/Dataju/web/datasetInstanceDetail/261
- RIDER Lung CT image CT du cancer du poumon http://dataju.cn/Dataju/web/datasetInstanceDetail/275
- Données d'image CT du cancer TCGA-COAD http://dataju.cn/Dataju/web/datasetInstanceDetail/284
- Données d'image CT du cancer TCIA-TCGA-OV http://dataju.cn/Dataju/web/datasetInstanceDetail/283
- Données d'image IRM du cancer TCIA RIDER NEURO http://dataju.cn/Dataju/web/datasetInstanceDetail/287
- Données d'image IRM du cancer du sein QIN Beast http://dataju.cn/Dataju/web/datasetInstanceDetail/291
6.21 Données vidéo (mouvement humain, détection d'objet, foule dense, etc.)
- DAVIS_Densely Annotated Video Segmentation data http://dataju.cn/Dataju/web/datasetInstanceDetail/147
- Ensemble de données vidéo YouTube-8M [Les données sont trop volumineuses et ne constituent qu'une introduction] http://dataju.cn/Dataju/web/datasetInstanceDetail/133
- Sauvegarde vidéo du site Web YouTube [les données sont trop volumineuses, seule introduction] http://dataju.cn/Dataju/web/datasetInstanceDetail/134
6.22 Vidéo d'action humaine
- Données vidéo sur l'action humaine de Microsoft Research Action http://dataju.cn/Dataju/web/datasetInstanceDetail/144
- Données de reconnaissance d'action de reconnaissance d'action UCF50 http://dataju.cn/Dataju/web/datasetInstanceDetail/135
- UCF101 Données de reconnaissance d'action de reconnaissance d'action http://dataju.cn/Dataju/web/datasetInstanceDetail/136
- Données vidéo d'action humaine UT-Interaction http://dataju.cn/Dataju/web/datasetInstanceDetail/137
- Données du capteur UCF iPhone en mouvement http://dataju.cn/Dataju/web/datasetInstanceDetail/148
- UCF YouTube Données vidéo sur l'action humaine http://dataju.cn/Dataju/web/datasetInstanceDetail/125
- Données vidéo d'action humaine UCF Sport http://dataju.cn/Dataju/web/datasetInstanceDetail/126
- Données vidéo d'action humaine UCF-ARG http://dataju.cn/Dataju/web/datasetInstanceDetail/141
- Vidéo d'action humaine HMDB http://dataju.cn/Dataju/web/datasetInstanceDetail/157
- HOLLYWOOD2 données vidéo d'action humaine http://dataju.cn/Dataju/web/datasetInstanceDetail/146
- Reconnaissance des données vidéo d'action des actions humaines http://dataju.cn/Dataju/web/datasetInstanceDetail/244
- Capture de mouvement données vidéo de capture de mouvement http://dataju.cn/Dataju/web/datasetInstanceDetail/245
- Données vidéo sur les mouvements du corps SBU Kinect Interaction http://dataju.cn/Dataju/web/datasetInstanceDetail/246
6.23 Vidéo de détection d'objet
- Données vidéo piétons piétons UCSD http://dataju.cn/Dataju/web/datasetInstanceDetail/247
- Données vidéo sur les piétons piétons Caltech http://dataju.cn/Dataju/web/datasetInstanceDetail/248
- Données vidéo piétons ETH http://dataju.cn/Dataju/web/datasetInstanceDetail/223
- Données vidéo piéton INRIA http://dataju.cn/Dataju/web/datasetInstanceDetail/159
- Données vidéo piéton TudBrussels http://dataju.cn/Dataju/web/datasetInstanceDetail/151
- Données vidéo piéton Daimler http://dataju.cn/Dataju/web/datasetInstanceDetail/150
- Données vidéo de suivi d'objets ALOV++ http://dataju.cn/Dataju/web/datasetInstanceDetail/152
6.24 Vidéo de foule dense
- Comptage des foules Images de foule à haute densité http://dataju.cn/Dataju/web/datasetInstanceDetail/156
- Segmentation de la foule Données vidéo de foule à haute densité http://dataju.cn/Dataju/web/datasetInstanceDetail/243
- Suivi dans les foules à haute densité Vidéo de foule à haute densité http://dataju.cn/Dataju/web/datasetInstanceDetail/200
6.25 Autres vidéos
- Données vidéo de détection d'incendie http://dataju.cn/Dataju/web/datasetInstanceDetail/186
- Grand ensemble de données de logo LOGO (500 000) https://data.vision.ee.ethz.ch/cvl/lld/
- Ensemble de données de numérisation 4D (numérisation 3D d'objets non rigides en mouvement à 60 ips) [D-FAUST] http://dfaust.is.tue.mpg.de
- Ensemble de données synthétiques de comptage visuel basé sur MNIST Comptage MNIST http://fomoro.com/tools/counting-mnist/
- Ensemble de données vidéo YouTube MV [Keunwoo Choi] https://github.com/keunwoochoi/YouTube-music-video-5M
- Ensemble de données sur l'étiquetage des attributs des animaux [ChristophH. Lampert/Daniel Pucher/JohannesDostal] http://cvml.ist.ac.at/AwA2/
- Ensemble de données vidéo Overhead Dance http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/
- Ensemble de données vidéo e-VDS https://engineering.purdue.edu/elab/eVDS/#download
- Modèle de génération de portraits de vêtements (ensemble de données d'analyse de portraits de mode & Chictopia10K [HumanParsing])【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】http://files.is.tue.mpg.de/classner/gp/
- Segmentation cible par pixel de l'ensemble de données VOC2012 mis en œuvre par PyTorch [BodoKaiser] https://github.com/bodokaiser/piwise
- Vingt milliards de neurones objet mouvement complexe et ensemble de données vidéo interactives [Nikita Johnson]
6.26 Données audio
- Données audio Google Audioset [les données sont trop volumineuses et ne constituent qu'une introduction] http://dataju.cn/Dataju/web/datasetInstanceDetail/164
- Reconnaissance vocale en anglais cinghalais TTS http://dataju.cn/Dataju/web/datasetInstanceDetail/251
- TIMIT Données de reconnaissance vocale en anglais américain http://dataju.cn/Dataju/web/datasetInstanceDetail/252
- Données vocales du corpus LibriSpeech ASR http://dataju.cn/Dataju/web/datasetInstanceDetail/194
- Réponse impulsionnelle de la pièce et données vocales sur le bruit http://dataju.cn/Dataju/web/datasetInstanceDetail/191
- Données vocales africaines ALFFA http://dataju.cn/Dataju/web/datasetInstanceDetail/96
- THUYG-20 Données vocales ouïghoures http://dataju.cn/Dataju/web/datasetInstanceDetail/96
- Reconnaissance vocale AMI Corpus http://dataju.cn/Dataju/web/datasetInstanceDetail/96
- NSynth : ensemble de données audio étiqueté à grande échelle et de haute qualité https://magenta.tensorflow.org/datasets/nsynth
- Ensemble de données sur les sons d'oiseaux [xeno-canto] http://www.xeno-canto.org
- (TensorFlow) Modèle de classification des ensembles de données d'événements audio AudioSet GitHub : tensorflow/models/tree/master/audioset
6.27 Texte, évaluation, collecte de données de réponse
- (200 000) Ensemble de données de blagues en anglais [TaivoPungas] https://github.com/taivop/joke-dataset
- Machine Learning Insurance Q&A Open Dataset [HainWang] https://github.com/shuzi/insuranceQA
- Ensemble de données de réponse aux questions (QA) de l'industrie de l'assurance [Minwei Feng] https://github.com/shuzi/insuranceQA
- Ensemble de données d'étiquetage des relations sémantiques entité/nom [David S. Batista] https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets
- Ensemble de données de compréhension en lecture à grande échelle (test d'anglais) de 28 000 articles/100 000 questions https://github.com/qizhex/RACE_AR_baselines
- Jeu de données sur les fautes d'orthographe http://www.dcs.bbk.ac.uk/~ROGER/corpora.html
- Ensemble de données de simplification de texte http://www.cs.pomona.edu/~dkauchak/simplification/
- Mot anglais/phrase/cadre sémantique ensemble de données d'annotation de cadre FrameNet https://framenet.icsi.berkeley.edu/fndrupal/
- Ensemble de données de détection de similarité de texte inter-langue/multi-style/multi-granularité https://github.com/FerreroJeremy/Cross-Language-Dataset
- Ensemble de données Quora : 400 000 lignes de questions potentiellement en double http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv
- Jeu de données de classification de texte http://disi.unitn.it/moschitti/corpora.htm
- Cadres : ensemble de données de dialogue Maluuba https://datasets.maluuba.com/Frames/dl
- Ensemble de données de sentiment inter-domaines (Avis sur les produits Amazon) http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
- Évaluation du système d'apprentissage automatique du Web sémantique/ensemble de données de référence http://dws.informatik.uni-mannheim.de
- Ensemble de données de reconnaissance de caractères d'impression sur bois japonais http://t.cn/RCZPfYB
- Ensembles de données de référence pour évaluer les algorithmes d'apprentissage automatique supervisé https://github.com/EpistasisLab/penn-ml-benchmarks
- Nouvel ensemble de données YELP : Contient 4,7 millions d'avis et 156 000 marchands http://t.cn/RNG6JYi
- Ensemble de données de questions approximatives/dupliquées StackExchange http://nlp.cis.unimelb.edu.au/resources/cqadupstack/
- Ensemble de données de réponse aux questions scientifiques AI2 (choix multiples) http://t.cn/RI5liwJ
6.28 Ensembles de données de recherche
- NIPS 2003 Attribute Selection Competition Data http://dataju.cn/Dataju/web/datasetInstanceDetail/370
- Le professeur Lin Zhiren de l'Université nationale de Taiwan traite les données de modélisation de la classification au format LibSVM http://dataju.cn/Dataju/web/datasetInstanceDetail/296
- Données de modélisation de classification à grande échelle http://dataju.cn/Dataju/web/datasetInstanceDetail/297
- Données de modélisation de classification à grande échelle dans plusieurs OPC http://dataju.cn/Dataju/web/datasetInstanceDetail/298
- Informatique sociale http://dataju.cn/Dataju/web/datasetInstanceDetail/299
- Data Repository social network data http://dataju.cn/Dataju/web/datasetInstanceDetail/300
6.29 Ensembles de données sociales
- Fuite de courrier électronique d'Hillary Clinton http://dataju.cn/Dataju/web/datasetInstanceDetail/267
- Données sur les dossiers criminels de Chicago depuis 2001 http://dataju.cn/Dataju/web/datasetInstanceDetail/267
- Données du casier judiciaire de Chattanooga, États-Unis (de 2003 à aujourd'hui) http://dataju.cn/Dataju/web/datasetInstanceDetail/353
- Données de licence de Sidewalk Café pendant la saison des cafés de rue de Chicago http://dataju.cn/Dataju/web/datasetInstanceDetail/358
- Données sur les résultats de l'inspection sanitaire des restaurants de Chicago http://dataju.cn/Dataju/web/datasetInstanceDetail/351
- Ensembles de données GPS de plusieurs lieux et itinéraires de déplacement humain (vélo, course à pied, etc.) http://dataju.cn/Dataju/web/datasetInstanceDetail/352
6.30 Synthèse d'autres ensembles de données
- Résumé de l'ensemble de données de science des données/apprentissage automatique https://elitedatascience.com/datasets
- CORe50 : Ensemble de données de reconnaissance continue des cibles [VincenzoLomonaco&DavideMaltoni] https://vlomonaco.github.io/core50/
- (Matlab) Découverte automatique de la distribution statistique des ensembles de données [Isabel Valera] http://proceedings.mlr.press/v70/valera17a.html
- Ensemble de données d'évaluation des dommages (bâtiments) [tsunami] https://github.com/faiton713/ABCDdataset
- Ensemble de données de graphes sociaux IndieWeb [IndieWeb] http://www.indiemap.org
- Environnement open source DeepMind/ensemble de données/collection de codes [DeepMind] https://deepmind.com/research/open-source/
- Référentiel d'ensembles de données Wolfram https://datarepository.wolframcloud.com
- Grand ensemble de données d'analyse musicale FMA https://github.com/mdeff/fma
- (3 millions) Ensemble de données d'épicerie en ligne Instacart [Jeremy Stanley] https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
- Ensemble de données financières synthétiques pour la détection des fraudes [TESTIMON] https://www.kaggle.com/ntnu-testimon/paysim1
- Classification de format LIBSVM/régression/multi-label/ensemble de données de chaîne https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html
- Les ordinateurs portables utilisent la régression logistique pour s'adapter aux ensembles de données 100G [Dmitriy Selivanov] http://dsnotes.com/post/2017-02-07-large-data
- 2010-2017 examen de la compétition KDD CUP le plus complet et ensemble de données http://suo.im/2kRoQ1
- Ensemble de données de recettes : plus de 20 000 recettes avec notes, informations nutritionnelles et catégories [HugoDarwood] https://www.kaggle.com/hugodarwood/epirecipes
- Ensemble de données Oscar [Académie des arts et des sciences du cinéma] https://www.kaggle.com/theacademy/academy-awards
- Jeu de données de clustering https://cs.joensuu.fi/sipu/datasets/
- Ensemble officiel de données climatiques ouvertes https://pan.baidu.com/s/1i52Xarb
- Ensemble de données sur les attaques terroristes mondiales [START Consortium] https://www.kaggle.com/START-UMD/gtd
- Sept ensembles de données de séries chronologiques d'apprentissage automatique https://machinelearningmastery.com/time-series-datasets-for-machine-learning/
- Ensemble de données sur les cotes des courses de chevaux http://t.cn/RNf0tXN
- Numéro spécial de l'ensemble de données JMIR "Données JMIR" http://t.cn/RCIhmvS
- Classification des ensembles de données sur le revenu du recensement https://github.com/dformoso/sklearn-classification
- Ensemble de données de comportement binaire multimodal http://t.cn/RCzFn1g
- Ensemble de données de jeu Facebook StarCraft (TorchCraft lisible/365 Go/plus de 60 000 jeux/1,5 milliard d'images/près de 500 millions d'opérations utilisateur) http://t.cn/R9j8AUM
- Collection d'articles/d'ensembles de données/d'outils d'apprentissage automatique (japonais) http://t.cn/RKV7x2A
- Dix stratégies de collecte de données pour les entreprises d'apprentissage automatique http://t.cn/R54rtvd
- Ensemble de données de mots similaires en japonais http://t.cn/RaVFV35
- Ensemble de données à grande échelle basé sur l'homme (compréhension de lecture à choix multiples) http://t.cn/Rac2Pey
- Liste des ensembles de données gratuits de haute qualité http://t.cn/R6B1aqa
- Ensemble de données Microsoft MS MARCO, "ImageNet" dans le domaine de la compréhension en lecture http://t.cn/RIMqGBK
7 ensembles de données ouvertes du gouvernement
Ensemble de données du gouvernement européen https://data.europa.eu/euodp/data/dataset
Ensemble de données du gouvernement américain https://www.data.gov/
Ensemble de données du gouvernement néo-zélandais https://catalogue.data.govt.nz/dataset
Ensemble de données du gouvernement indien https://data.gov.in/
Ensemble de données publiques d'Irlande du Nord https://www.opendatani.gov.uk/