Éléments clés de l'apprentissage en profondeur : collecte et partage de données

introduction

Dans l'application de l'apprentissage en profondeur, les données sont considérées comme l'un des facteurs les plus importants. Par conséquent, le choix d'un bon ensemble de données est crucial pour le succès de l'apprentissage en profondeur. Lors de la sélection d'un ensemble de données, non seulement la taille, la diversité et la qualité des données doivent être prises en compte, mais également si l'ensemble de données représente la situation réelle du problème de recherche. Cet article organise les ensembles de données publics actuels dans le domaine de l'apprentissage en profondeur pour que chacun puisse les choisir et les utiliser lors de la formation de modèles.

1 Ensemble de données complet

1.1 jeu de données kaggle

Kaggle est l'un des plus grands référentiels en ligne d'ensembles de données couvrant une gamme de sujets allant du sport à la médecine en passant par le gouvernement. Sa plate-forme est dirigée par la communauté, ce qui signifie que les utilisateurs peuvent télécharger leurs propres ensembles de données. Compte tenu de la variété des sources de données pour Kaggle, il est important de vérifier soigneusement la qualité des ensembles de données dont vous les extrayez. De plus, Kaggle propose des discussions sur des sujets d'apprentissage automatique ainsi que des didacticiels sur les processus clés.

Adresse : ensembles de données kaggle

1.2 Ensemble de données AI Studio

L'AI Studio lancé par Baidu est une plate-forme de développement à guichet unique : il comprend des didacticiels d'IA, un environnement de code, une puissance de calcul d'algorithmes, des ensembles de données et fournit un cloud computing en ligne gratuit. Il s'agit d'un environnement de programmation intégré.

Adresse : Ensemble de données AI Studio

1.3 Ensemble de données Tianchi

Tianchi Dataset est une plate-forme de données de recherche scientifique ouverte sur le monde extérieur du groupe Alibaba.Il est fourni conjointement par l'équipe commerciale du groupe Alibaba et des institutions de recherche externes, couvrant plus de dix domaines tels que le commerce électronique, le divertissement, la logistique, la santé médicale. , transport, industrie, sciences naturelles et industrie de l'énergie, couvrant l'exploration de données, l'apprentissage automatique, la vision par ordinateur, le traitement du langage naturel, l'intelligence décisionnelle et d'autres domaines technologiques classiques de l'intelligence artificielle.

Adresse : ensembles de données tianchi

1.4 Ensemble de données Graviti

Graviti est une plate-forme qui fournit des ensembles de données publics. Vous pouvez facilement rechercher les données que vous souhaitez et vous pouvez prévisualiser des exemples de données, des annotations et des étiquettes en ligne. Graviti a collecté plus de 400 ensembles de données CV de haute qualité, couvrant divers domaines d'application de l'IA tels que la conduite sans conducteur, la vente au détail intelligente et la robotique.

Adresse : ensembles de données graviti

1.7 papiers avec code

Il y a plus de quatre mille ensembles de données (et ça continue). Ces ensembles de données sont téléchargés par la communauté. Vous pouvez facilement filtrer ces ensembles de données par modalité, tâche et langue. La base de données contient également des liens vers d'autres bases de données qui fournissent également une variété d'ensembles de données.

Adresse: articles avec jeux de données de code

1.8 Data Flair

DataFlair est lié à plus de 70 ensembles de données d'apprentissage automatique et comprend également des informations utiles telles que le code source et des idées de projet. Par exemple, dans la liste des jeux de données contenant des chiffres manuscrits, DataFlair propose de créer un algorithme de classification d'images pour reconnaître les chiffres manuscrits sur papier. Utilisez le site pour inspirer de nouvelles idées.

Adresse : data flair

1.9 EliteDataScience

EliteDataScience comprend des ensembles de données gratuits et une liste organisée des agrégateurs les plus populaires. Ces ensembles de données sont organisés par cas d'utilisation et incluent des ensembles de données qui peuvent être utilisés pour l'apprentissage en profondeur, le traitement du langage naturel, le grattage Web, etc.

Adresse : science des données d'élite

1.10 Jeu de données UCI

UCI dispose de plus de 500 ensembles de données d'apprentissage automatique triables par type de fichier, tâche, domaine d'application et sujet. Bon nombre de ces ensembles de données contiennent des liens vers des articles universitaires qui peuvent être utilisés pour l'analyse comparative. L'une des plus anciennes sources d'ensembles de données et le premier arrêt pour trouver des ensembles de données intéressants. Bien que les ensembles de données soient fournis par les utilisateurs et présentent donc divers degrés de propreté, la grande majorité sont propres et peuvent être téléchargées directement depuis le référentiel d'apprentissage automatique de l'UCI sans inscription.

Adresse : ensemble de données uci

1.11 jeu de données public github

github public datasets fournit une collection open source d'ensembles de données publics. Là, vous pouvez consulter le catalogue et choisir un sujet, allant de l'agriculture au transport et plus encore. Github comprend également une collection de modèles généraux d'apprentissage automatique. La plupart des jeux de données liés sont gratuits.

Adresse : ensembles de données github

1.12 Ensembles de données Azure

Microsoft Azure dispose d'une base de données d'ensembles de données publics que les développeurs peuvent utiliser pour le prototypage et les tests. Les catégories de bases de données comprennent les données du gouvernement américain et des agences, d'autres données statistiques et scientifiques et les données de services en ligne. Vous pouvez également y lire de la documentation sur SQL et sur la manière de créer des applications mobiles et Web.

Adresse : ensembles de données azur

2 ensembles de données de vision par ordinateur

2.1 Ensemble de données ImageNet

L'ensemble de données ImageNet est l'un des ensembles de données les plus populaires dans le domaine des applications d'apprentissage en profondeur aujourd'hui, et il contient une grande quantité de données d'image et d'annotations. Les annotations du jeu de données ImageNet couvrent toutes les grandes catégories, les catégories moyennes et les petites catégories. Les grandes catégories sont plus générales et les petites catégories sont plus spécifiques. Cette fonctionnalité rend ce jeu de données adapté à la recherche sur les problèmes de classification d'images.

Adresse : jeu de données ImageNet

2.2 Ensemble de données COCO

Le nom complet est "Microsoft Common Objects in Context Dataset". Le jeu de données COCO est un jeu de données à grande échelle qui peut être utilisé pour la détection d'images, la segmentation sémantique et le sous-titrage d'images. Il contient plus de 330 000 images (dont 220 000 sont des images étiquetées), contenant 1,5 million de cibles, 80 catégories de cibles (catégories d'objets : piétons, voitures, éléphants, etc.), 91 catégories de matériaux (catégories de choses : herbe, mur, ciel, etc.), chaque image contient des descriptions de cinq phrases de l'image, et il y a 250 000 piétons annotés avec des points clés.

Adresse : jeu de données coco

2.3 Ensemble de données IMDB-Wiki

L'ensemble de données IMDB-Wiki fournit la plus grande collection d'images de visages, avec plus de 500 000 images. De nombreuses images proviennent de célébrités et de Wikipedia. Chaque image est étiquetée avec le sexe et l'âge.

Adresse : jeux de données imdb

2.4 Jeu de données LabelMe

Construit à l'aide de l'outil d'étiquetage LabelMe. Cet outil permet aux utilisateurs de décrire et d'étiqueter des objets. Cet ensemble de données peut être utilisé dans des projets de reconnaissance d'images.

Adresse : jeux de données labelme

Jeu de données de 2,5 chars74k

chars74k comprend 74 000 images. Les données incluent la reconnaissance de caractères dans des images naturelles (par exemple, des images d'enseignes de restaurant)

Adresse : ensembles de données chars74k

2.6 Ensemble de données Kinetics-700

Kinetics-700 contient une série de liens vers des vidéos YouTube principalement étiquetées comme comportement humain. Il y a plus de 650 000 clips vidéo couvrant 700 comportements humains.

Adresse : ensembles de données kinetics-700

2.7 Base de données Places2

La base de données Places2 est un ensemble de données publié par le MIT, contenant plus de 10 millions d'images couvrant plus de 400 scènes. Il est utile pour des projets tels que la classification de scènes et l'analyse de scènes.

Adresse : jeux de données places2

2.8 Ensemble de données de pose humaine MPII

L'ensemble de données MPII Human Pose comprend environ 25 000 images impliquant 410 poses humaines. Les images contiennent environ 40 000 personnes différentes, chacune avec des articulations humaines annotées. Ces images sont collectées à partir de vidéos YouTube.

Adresse : ensembles de données de pose humaine

 2.9 Jeu de données Open Images

Open Images est un ensemble de données d'image open source publié par Google, et la dernière version V7 sera publiée en octobre 2022. Cette version de l'ensemble de données contient plus de 9 millions d'images, toutes étiquetées avec des catégories. Parmi elles, plus de 1,9 million de photos ont des annotations très fines. Les images ouvertes peuvent être utilisées dans de nombreuses applications différentes, notamment la classification d'images, la détection d'objets, la segmentation d'images et la génération d'images .

Adresse : jeu de données d'images ouvertes

 2.10 Jeu de données sur les paysages urbains

Cityscapes est un ensemble de données pour la segmentation sémantique des vues de rues urbaines, contenant 3257 images haute résolution de 50 villes d'Allemagne. L'ensemble de données couvre les images Street View sous différentes conditions d'éclairage telles que le matin, le jour et la nuit. Chaque image a une résolution de 2048x1024 et est annotée par des professionnels pour plusieurs étiquettes, y compris les bâtiments, les routes et les piétons. L'ensemble de données fournit également des listes pour la formation, la validation et les tests, ainsi que des mesures de performances de référence. L'introduction de l'ensemble de données Cityscapes contribuera à promouvoir le développement de l'analyse des scènes urbaines et offrira plus de possibilités pour la recherche et l'application d'algorithmes d'apprentissage en profondeur.

Adresse : ensemble de données sur les paysages urbains

2.11 Jeu de données Sogou

La photothèque Internet est issue d'une partie des données indexées par sogou image search. Il a collecté 2 836 535 images dans des catégories telles que les personnes, les animaux, les bâtiments, les machines, les paysages et les sports. Pour chaque image, l'image d'origine, la vignette, la page Web où se trouve l'image et le texte pertinent de la page Web sont indiqués dans l'ensemble de données. Plus de 200G

Adresse : http://www.sogou.com/labs/dl/p.html

2.12 Jeu de données IMAGECLEF

IMAGECLEF s'engage à fournir une référence pour les domaines liés au bitmap (récupération, classification, étiquetage, etc.) Cross Language Evaluation Forum (CLEF). Le concours a lieu chaque année depuis 2003.

Adresse : http://www.imageclef.org/

3 ensembles de données de traitement du langage naturel

3.1 Corpus des blogueurs Google

Google Blogger Corpus comprend près de 700 000 articles de blog de blogger.com. Chaque article contient au moins 200 mots anglais. Dans l'ensemble, ces articles de blog contiennent de nombreux mots anglais courants.

Adresse : Ensembles de données BlogCorpus

3.2 Avis Yelp

L'ensemble de données Yelp Reviews couvre les classements et les avis des restaurants et contient de riches informations liées à ce sujet. Les avis de cet ensemble de données peuvent être utilisés dans des projets d'analyse des sentiments.

Adresse : yelp datsets

3.3 Corpus WikiQA

Le corpus WikiQA est un ensemble de données de réponses aux questions compilé à partir des données de recherche Bing. Il comprend plus de 3 000 questions et fournit 29 000 phrases de réponse, dont 1 500 sont étiquetées comme phrases de réponse.

地址: Corpus WikiQA

3.4 WordNet

WordNet est une base de données de mots anglais regroupés par sens. Il existe 117 000 synsets (mots appariés selon des synonymes), qui sont ensuite liés à des synsets apparentés. Peut être utilisé dans les projets de classification de texte.

Adresse : ensembles de données wordnet

3.5 Jeu de données OpinRank

L'ensemble de données OpinRank contient 300 000 avis d'Edmunds et de TripAdvisor. Ils sont classés par destination, hôtel et autres facteurs pertinents.

Adresse : ensembles de données OpinRank

3.6 Ensemble de données de sentiment multi-domaines

L'ensemble de données sur les sentiments multi-domaines comprend des avis sur les produits Amazon.com de quatre domaines : DVD, Livres, Cuisine et Électronique. Chaque domaine a des milliers d'avis avec des notes de 1 à 5 étoiles. Comme son nom l'indique, cet ensemble de données est utile pour les projets d'analyse des sentiments.

Adresse : ensembles de données mdredze

3.7 Ensemble de données d'analyse des sentiments Twitter

L'ensemble de données d'analyse des sentiments de Twitter comprend plus de 1,5 million de tweets classés. Chaque ligne de l'ensemble de données a un rang : 1 pour le sentiment positif et 0 pour le sentiment négatif.

Adresse : ensembles de données de sentiment Twitter

3.8 Ensemble de données des groupes de discussion

Les groupes de discussion contiennent 20 000 documents et, comme leur nom l'indique, proviennent de plus de 20 groupes de discussion différents. Il couvre de nombreux sujets, dont certains sont relativement similaires. L'ensemble de données se compose de trois versions : une version d'origine, une version dont les dates ont été supprimées et une version dont les doublons ont été supprimés.

Adresse : 20 ensembles de données de groupes de discussion

 3.9 Ensemble de données HuggingFace

L'ensemble de données HuggingFace comprend 611 ensembles de données texte qui peuvent être téléchargés prêts à l'emploi dans une ligne de python ; couvre 467 langues, dont 99 contiennent au moins 10 ensembles de données ;

Adresse : jeux de données huggingface

4 jeux de données audio et vidéo

4.1 Ensemble de données vocales M-AI Labs

L'ensemble de données vocales de M-AI Labs comprend près de 1 000 heures d'audio et de transcriptions. Inclut des voix masculines et féminines dans plusieurs langues.

Adresse : ensembles de données des laboratoires MAI

4.2 LibriSpeech

LibriSpeech comprend environ 1000 heures de données vocales qui ont été segmentées et alignées. Ces données ont été compilées à partir de livres audio du projet LibriVox.

Adresse : Ensembles de données Librispeech

5 Recherche de jeu de données

5.1 Recherche d'ensembles de données Google

Google fournit un moteur de recherche d'ensembles de données dans lequel vous pouvez rechercher des ensembles de données par nom. Le moteur vous permet de trier les ensembles de données selon plusieurs fonctionnalités, telles que le type de fichier, le sujet, la dernière mise à jour et la pertinence. Il peut également extraire des ensembles de données de milliers de bases de données sur Internet, ce qui vous permet de vraiment rechercher parmi un large éventail d'options. Les téléchargeurs de l'ensemble de données comprennent de nombreuses organisations internationales telles que l'Université de Harvard et l'Organisation mondiale de la santé.

Adresse : recherche de jeu de données Google

5.2 récupération d'ensembles de données d'indices

Références de compréhension de la langue chinoise, y compris des ensembles de données représentatifs, des modèles de référence (pré-formés), des corpus et des classements. Nous sélectionnerons une série d'ensembles de données correspondant à certaines tâches représentatives comme ensembles de données de référence de test. Ces ensembles de données couvriront différentes tâches, le volume de données et la difficulté de la tâche.

Adresse : indices de référence

5.3 ensemble de données de données visuelles

Visualdata contient d'excellents ensembles de données pour créer des modèles de vision par ordinateur que les utilisateurs peuvent interroger par sujet de CV, tels que la segmentation sémantique, le sous-titrage d'images, la génération d'images, les voitures autonomes, etc.

Adresse : visualdata

6 Ensembles de données spécifiques

6.1 Ensembles de données d'images médicales

Base de données des nodules pulmonaires LIDC-IDRI : image du cancer

Base de données d'images mammaires DDSM MIAS : Base de données d'images mammaires

FAQ Image Médicale : medical-image-faq

Défi de segmentation du ventricule droit (2012) : images IRM

Concours de classification du cancer du poumon : http://data-science-bowl-2017

Segmentation des cancers du poumon (Kaggle) : trouver des poumons dans la tomodensitométrie

Base de données sur le cancer du poumon : image du cancer

Jeu de données d'imagerie médicale : medical-data

Analyse d'images médicales : grand défi

6.2  Ensemble de données de compétition Kaggle

6.3 Ensembles de données de traitement du langage naturel

6.4 Divers types/ données d'image de scène/image complète

6.5 Image de scène

6.6 Balises d'images Web

6.7 Silhouette humaine

6.8 Image de reconnaissance visuelle de texte

6.10 Images de textures matérielles

6.11 Images de classification d'objets

 6.12 Image du visage

6.13 Images d'action de pose

 6.14 Image de reconnaissance d'empreintes digitales

 6.15 Autres données d'image

6.16 Ensemble de données du système de recommandation

6.17 Ensembles de données financières

6.19 Données commerciales

6.21 Données vidéo (mouvement humain, détection d'objet, foule dense, etc.)

6.22 Vidéo d'action humaine

6.23 Vidéo de détection d'objet

6.24 Vidéo de foule dense

6.25 Autres vidéos

6.26 Données audio

6.27 Texte, évaluation, collecte de données de réponse

6.28 Ensembles de données de recherche

6.29 Ensembles de données sociales

6.30 Synthèse d'autres ensembles de données

7 ensembles de données ouvertes du gouvernement

Ensemble de données du gouvernement européen https://data.europa.eu/euodp/data/dataset

Ensemble de données du gouvernement américain https://www.data.gov/

Ensemble de données du gouvernement néo-zélandais https://catalogue.data.govt.nz/dataset

Ensemble de données du gouvernement indien https://data.gov.in/

Ensemble de données publiques d'Irlande du Nord https://www.opendatani.gov.uk/

Je suppose que tu aimes

Origine blog.csdn.net/lsb2002/article/details/132178923
conseillé
Classement