Elementos clave del aprendizaje profundo: recopilación e intercambio de datos

introducción

En la aplicación del aprendizaje profundo, los datos se consideran uno de los factores más importantes. Por lo tanto, elegir un buen conjunto de datos es crucial para el éxito del aprendizaje profundo. Al seleccionar un conjunto de datos, no solo se debe prestar atención al tamaño, la diversidad y la calidad de los datos, sino también a si el conjunto de datos representa la situación real del problema de investigación. Este artículo organiza los conjuntos de datos públicos actuales en el campo del aprendizaje profundo para que todos puedan elegir y usar al entrenar modelos.

1 conjunto de datos completo

1.1 conjunto de datos kaggle

Kaggle es uno de los repositorios en línea más grandes de conjuntos de datos que cubren una variedad de temas, desde deportes hasta medicina y gobierno. Su plataforma está dirigida por la comunidad, lo que significa que los usuarios pueden cargar sus propios conjuntos de datos. Dada la variedad de fuentes de datos para Kaggle, es importante verificar minuciosamente la calidad de los conjuntos de datos de los que los extrae. Además, Kaggle ofrece discusiones sobre temas de aprendizaje automático, así como tutoriales sobre procesos clave.

Dirección: conjuntos de datos kaggle

1.2 Conjunto de datos de AI Studio

AI ​​Studio lanzado por Baidu es una plataforma de desarrollo integral: incluye tutoriales de IA, entorno de código, poder de cómputo de algoritmos, conjuntos de datos y proporciona computación en la nube en línea gratuita.Es un entorno de programación integrado.

Dirección: Conjunto de datos de AI Studio

1.3 Conjunto de datos de Tianchi

Tianchi Dataset es una plataforma de datos de investigación científica abierta al mundo exterior de Alibaba Group. Es proporcionada conjuntamente por el equipo comercial de Alibaba Group e instituciones de investigación externas, que cubre más de diez campos, como comercio electrónico, entretenimiento, logística, salud médica. , transporte, industria, ciencias naturales e industria energética, que abarca la minería de datos, el aprendizaje automático, la visión por computadora, el procesamiento del lenguaje natural, la inteligencia de decisiones y otros campos clásicos de la tecnología de inteligencia artificial.

Dirección: conjuntos de datos de tianchi

1.4 Conjunto de datos de Graviti

Graviti es una plataforma que proporciona conjuntos de datos públicos. Puede buscar fácilmente los datos que desea y puede obtener una vista previa de datos de muestra, anotaciones y etiquetas en línea. Graviti ha recopilado más de 400 conjuntos de datos de CV de alta calidad, que cubren varios campos de aplicación de IA, como la conducción sin conductor, el comercio minorista inteligente y la robótica.

Dirección: conjuntos de datos graviti

1.7 papeles con código

Hay más de cuatro mil conjuntos de datos (y contando). Estos conjuntos de datos son cargados por la comunidad. Puede filtrar fácilmente estos conjuntos de datos por modalidad, tarea e idioma. La base de datos también contiene enlaces a otras bases de datos que también proporcionan una variedad de conjuntos de datos.

Dirección: documentos con conjuntos de datos de código

1.8 estilo de datos

DataFlair se vincula a más de 70 conjuntos de datos de aprendizaje automático y también incluye información útil como código fuente e ideas de proyectos. Por ejemplo, en la lista de conjuntos de datos que contienen dígitos escritos a mano, DataFlair sugiere crear un algoritmo de clasificación de imágenes para reconocer dígitos escritos a mano en papel. Utilice el sitio para inspirar nuevas ideas.

Dirección: estilo de datos

1.9 EliteDataScience

EliteDataScience incluye conjuntos de datos gratuitos y una lista seleccionada de los agregadores más populares. Estos conjuntos de datos están organizados por caso de uso e incluyen conjuntos de datos que se pueden usar para aprendizaje profundo, procesamiento de lenguaje natural, web scraping y más.

Dirección: ciencia de datos de élite

1.10 Conjunto de datos UCI

UCI tiene más de 500 conjuntos de datos de aprendizaje automático que se pueden ordenar por tipo de archivo, tarea, dominio de aplicación y tema. Muchos de estos conjuntos de datos contienen enlaces a trabajos académicos que se pueden utilizar para la evaluación comparativa. Una de las fuentes más antiguas de conjuntos de datos y la primera parada para encontrar conjuntos de datos interesantes. Si bien los conjuntos de datos son aportados por los usuarios y, por lo tanto, tienen diversos grados de limpieza, la gran mayoría están limpios y se pueden descargar directamente desde el repositorio de aprendizaje automático de UCI sin registrarse.

Dirección: conjunto de datos uci

1.11 conjunto de datos públicos de github

Los conjuntos de datos públicos de github proporcionan una colección de código abierto de conjuntos de datos públicos. Allí puede ver el catálogo y elegir un tema, desde agricultura hasta transporte y más. Github también incluye una colección de modelos generales de aprendizaje automático. La mayoría de los conjuntos de datos vinculados son gratuitos.

Dirección: conjuntos de datos de github

1.12 Conjuntos de datos de Azure

Microsoft Azure tiene una base de datos de conjuntos de datos públicos que los desarrolladores pueden usar para crear prototipos y realizar pruebas. Las categorías de bases de datos incluyen datos del gobierno y agencias de EE. UU., otros datos estadísticos y científicos, y datos de servicios en línea. Además, allí puede leer documentación sobre SQL y cómo crear aplicaciones móviles y web.

Dirección: conjuntos de datos azules

2 conjuntos de datos de visión artificial

2.1 Conjunto de datos de ImageNet

El conjunto de datos de ImageNet es uno de los conjuntos de datos más populares en el campo de las aplicaciones de aprendizaje profundo en la actualidad y contiene una gran cantidad de datos de imágenes y anotaciones. Las anotaciones del conjunto de datos de ImageNet cubren todas las categorías grandes, medianas y pequeñas. Las categorías más grandes son más generales y las categorías más pequeñas son más específicas. Esta característica hace que este conjunto de datos sea adecuado para la investigación de problemas de clasificación de imágenes.

Dirección: conjunto de datos de ImageNet

2.2 Conjunto de datos COCO

El nombre completo es "Microsoft Common Objects in Context Dataset". El conjunto de datos COCO es un conjunto de datos a gran escala que se puede utilizar para la detección de imágenes, la segmentación semántica y el subtitulado de imágenes. Tiene más de 330 000 imágenes (de las cuales 220 000 son imágenes etiquetadas), contiene 1,5 millones de objetivos, 80 categorías de objetivos (categorías de objetos: peatones, automóviles, elefantes, etc.), 91 categorías de materiales (categorías de cosas: hierba, pared, cielo, etc.), cada imagen contiene descripciones de oraciones de cinco oraciones de la imagen, y hay 250,000 peatones anotados con puntos clave.

Dirección: conjunto de datos de coco

2.3 Conjunto de datos de IMDB-Wiki

El conjunto de datos de IMDB-Wiki proporciona la mayor colección de imágenes de rostros, con más de 500 000 imágenes. Muchas imágenes son de celebridades y Wikipedia. Cada imagen está etiquetada con género y edad.

Dirección: conjuntos de datos imdb

2.4 Conjunto de datos de LabelMe

Creado con la herramienta de etiquetado LabelMe. Esta herramienta permite a los usuarios delinear y etiquetar objetos. Este conjunto de datos se puede utilizar en proyectos de reconocimiento de imágenes.

Dirección: conjuntos de datos labelme

Conjunto de datos de 2.5 caracteres74k

chars74k incluye 74.000 imágenes. Los datos incluyen el reconocimiento de caracteres en imágenes naturales (por ejemplo, imágenes de letreros de restaurantes)

Dirección: conjuntos de datos chars74k

2.6 Conjunto de datos Kinetics-700

Kinetics-700 contiene una serie de enlaces a videos de YouTube etiquetados principalmente como comportamiento humano. Hay más de 650.000 videoclips que cubren 700 comportamientos humanos.

Dirección: conjuntos de datos kinetics-700

2.7 Base de datos Places2

La base de datos Places2 es un conjunto de datos publicado por el MIT que contiene más de 10 millones de imágenes que cubren más de 400 escenas. Es útil para proyectos como la clasificación de escenas y el análisis de escenas.

Dirección: conjuntos de datos de places2

2.8 Conjunto de datos de postura humana MPII

El conjunto de datos MPII Human Pose incluye alrededor de 25,000 imágenes que involucran 410 poses humanas. Las imágenes contienen aproximadamente 40.000 personas diferentes, cada una con articulaciones humanas anotadas. Estas imágenes se recopilan de videos de YouTube.

Dirección: conjuntos de datos de pose humana

 2.9 Conjunto de datos de imágenes abiertas

Open Images es un conjunto de datos de imágenes de código abierto publicado por Google, y la última versión V7 se lanzará en octubre de 2022. Esta versión del conjunto de datos contiene más de 9 millones de imágenes, todas etiquetadas con categorías. Entre ellos, más de 1,9 millones de imágenes tienen anotaciones muy finas. Open Images se puede utilizar en muchas aplicaciones diferentes, incluida la clasificación de imágenes, la detección de objetos, la segmentación de imágenes y la generación de imágenes .

Dirección: conjunto de datos de imágenes abiertas

 2.10 Conjunto de datos de paisajes urbanos

Cityscapes es un conjunto de datos para la segmentación semántica de vistas de calles urbanas, que contiene 3257 imágenes de alta resolución de 50 ciudades de Alemania. El conjunto de datos cubre imágenes de Street View en diferentes condiciones de iluminación, como la mañana, el día y la noche. Cada imagen tiene una resolución de 2048x1024 y está anotada profesionalmente para múltiples etiquetas, incluidos edificios, carreteras y peatones. El conjunto de datos también proporciona listas para entrenamiento, validación y prueba, así como métricas de rendimiento de referencia. La introducción del conjunto de datos Cityscapes ayudará a promover el desarrollo del análisis de escenas urbanas y brindará más posibilidades para la investigación y aplicación de algoritmos de aprendizaje profundo.

Dirección: conjunto de datos de paisajes urbanos

2.11 Conjunto de datos Sogou

La fototeca de Internet proviene de parte de los datos indexados por la búsqueda de imágenes de sogou. Recopiló 2.836.535 imágenes en categorías que incluyen personas, animales, edificios, maquinaria, paisajes y deportes. Para cada imagen, la imagen original, la miniatura, la página web donde se encuentra la imagen y el texto relevante en la página web se proporcionan en el conjunto de datos. Más de 200G

Dirección: http://www.sogou.com/labs/dl/p.html

2.12 Conjunto de datos IMAGECLEF

IMAGECLEF se compromete a proporcionar un punto de referencia para campos relacionados con mapas de bits (recuperación, clasificación, etiquetado, etc.) Cross Language Evaluation Forum (CLEF). El concurso se lleva a cabo todos los años desde 2003.

Dirección: http://www.imageclef.org/

3 conjuntos de datos de procesamiento de lenguaje natural

3.1 Corpus de Google Blogger

Google Blogger Corpus incluye casi 700.000 publicaciones de blog de blogger.com. Cada artículo tiene al menos 200 palabras en inglés. En general, estas publicaciones de blog contienen muchas palabras comunes en inglés.

Dirección: Conjuntos de datos de BlogCorpus

3.2 Reseñas de Yelp

El conjunto de datos de Reseñas de Yelp cubre clasificaciones y reseñas de restaurantes y contiene información valiosa relacionada con este tema. Las revisiones en este conjunto de datos se pueden usar en proyectos de análisis de sentimientos.

Dirección: yelp dasets

3.3 Corpus WikiQA

El corpus de WikiQA es un conjunto de datos de respuesta a preguntas compilado a partir de datos de búsqueda de Bing. Incluye más de 3000 preguntas y proporciona 29 000 oraciones de respuesta, 1500 de las cuales están etiquetadas como oraciones de respuesta.

Contenido: WikiQA Corpus

3.4 WordNet

WordNet es una base de datos de palabras en inglés agrupadas por significado. Hay 117.000 synsets (palabras emparejadas según sinónimos), que luego se vinculan a synsets relacionados. Se puede utilizar en proyectos de clasificación de texto.

Dirección: conjuntos de datos wordnet

3.5 Conjunto de datos de OpinRank

El conjunto de datos de OpinRank contiene 300.000 reseñas de Edmunds y TripAdvisor. Se clasifican por destino, hotel y otros factores relevantes.

Dirección: Conjuntos de datos de OpinRank

3.6 Conjunto de datos de opinión multidominio

El conjunto de datos de opinión multidominio incluye reseñas de productos de Amazon.com de cuatro dominios: DVD, libros, cocina y electrónica. Cada dominio tiene miles de reseñas con calificaciones de 1 a 5 estrellas. Como sugiere el nombre, este conjunto de datos es útil para proyectos de análisis de sentimientos.

Dirección: conjuntos de datos mdredze

3.7 Conjunto de datos de análisis de sentimiento de Twitter

El conjunto de datos de análisis de sentimiento de Twitter incluye más de 1,5 millones de tweets clasificados. Cada fila del conjunto de datos tiene un rango: 1 para sentimiento positivo y 0 para sentimiento negativo.

Dirección: conjuntos de datos de sentimiento de twitter

3.8 Conjunto de datos de grupos de noticias

Los grupos de noticias contienen 20.000 documentos y, como sugiere el nombre, provienen de más de 20 grupos de noticias diferentes. Abarca muchos temas, algunos de los cuales son relativamente similares. El conjunto de datos consta de tres versiones: una versión original, una versión con fechas eliminadas y una versión con duplicados eliminados.

Dirección: 20 conjuntos de datos de grupos de noticias

 3.9 Conjunto de datos HuggingFace

El conjunto de datos HuggingFace incluye 611 conjuntos de datos de texto que se pueden descargar listos para usar en una línea de python; cubre 467 idiomas, 99 de los cuales contienen al menos 10 conjuntos de datos;

Dirección: conjuntos de datos huggingface

4 conjuntos de datos de audio y video

4.1 Conjunto de datos de voz de M-AI Labs

El conjunto de datos de voz de M-AI Labs incluye casi 1000 horas de audio y transcripciones. Incluye voces masculinas y femeninas en varios idiomas.

Dirección: Conjuntos de datos de los laboratorios MAI

4.2 LibriDiscurso

LibriSpeech incluye aproximadamente 1000 horas de datos de voz segmentados y alineados. Estos datos fueron recopilados de audiolibros del proyecto LibriVox.

Dirección: Conjuntos de datos de Librispeech

5 Búsqueda de conjuntos de datos

5.1 Búsqueda de conjuntos de datos de Google

Google proporciona un motor de búsqueda de conjuntos de datos donde puede buscar conjuntos de datos por nombre. El motor le permite ordenar conjuntos de datos por varias características, como tipo de archivo, tema, última actualización y relevancia. También puede extraer conjuntos de datos de miles de bases de datos en Internet, por lo que realmente puede buscar a través de una amplia gama de opciones. Los cargadores del conjunto de datos incluyen numerosas organizaciones internacionales como la Universidad de Harvard y la Organización Mundial de la Salud.

Dirección: búsqueda de conjuntos de datos de Google

5.2 recuperación de conjuntos de datos de pistas

Puntos de referencia de comprensión del idioma chino, incluidos conjuntos de datos representativos, modelos de punto de referencia (preentrenados), corpus y tablas de clasificación. Seleccionaremos una serie de conjuntos de datos correspondientes a ciertas tareas representativas como nuestros conjuntos de datos de referencia de prueba. Estos conjuntos de datos cubrirán diferentes tareas, volumen de datos y dificultad de la tarea.

Dirección: indicadores de referencia

5.3 conjunto de datos de datos visuales

Visualdata contiene algunos conjuntos de datos excelentes para crear modelos de visión por computadora que los usuarios pueden consultar por un tema de CV, como segmentación semántica, subtítulos de imágenes, generación de imágenes, autos sin conductor, etc.

Dirección: datos visuales

6 conjuntos de datos específicos

6.1 Conjuntos de datos de imágenes médicas

Base de datos de nódulos pulmonares LIDC-IDRI: imagen de cáncer

Base de datos de imágenes mamarias DDSM MIAS: Base de datos de imágenes mamarias

Preguntas frecuentes sobre imágenes médicas: medical-image-faq

Desafío de segmentación del ventrículo derecho (2012): mr-images

Concurso de clasificación de cáncer de pulmón: http://data-science-bowl-2017

Segmentación de cánceres de pulmón (Kaggle): encontrar-pulmones-en-ct

Base de datos de cáncer de pulmón: imagen de cáncer

Conjunto de datos de imágenes médicas: datos médicos

Análisis de imágenes médicas: gran desafío

6.2  Conjunto de datos de competencia de Kaggle

6.3 Conjuntos de datos de procesamiento de lenguaje natural

6.4 Varios tipos/ datos de imagen de escena/imagen completa

6.5 Imagen de escena

6.6 Etiquetas de imágenes web

6.7 Imagen de silueta humana

6.8 Imagen de reconocimiento de texto visual

6.10 Imágenes de texturas de materiales

6.11 Imágenes de clasificación de objetos

 6.12 Imagen de la cara

6.13 Imágenes de acción de pose

 6.14 Imagen de reconocimiento de huellas dactilares

 6.15 Otros datos de imagen

6.16 Conjunto de datos del sistema de recomendación

6.17 Conjuntos de datos financieros

6.19 Datos Comerciales

6.21 Datos de video (movimiento humano, detección de objetos, multitud densa, etc.)

6.22 Video de acción humana

6.23 Vídeo de detección de objetos

6.24 Video de Multitud Densa

6.25 Otros vídeos

6.26 Datos de audio

6.27 Recopilación de datos de texto, evaluación y respuesta

6.28 Conjuntos de datos de investigación

6.29 Conjuntos de datos sociales

6.30 Síntesis de otros conjuntos de datos

7 conjuntos de datos abiertos del gobierno

Conjunto de datos del gobierno europeo https://data.europa.eu/euodp/data/dataset

Conjunto de datos del gobierno de EE. UU . https://www.data.gov/

Conjunto de datos del gobierno de Nueva Zelanda https://catalogue.data.govt.nz/dataset

Conjunto de datos del gobierno indio https://data.gov.in/

Conjunto de datos públicos de Irlanda del Norte https://www.opendatani.gov.uk/

Supongo que te gusta

Origin blog.csdn.net/lsb2002/article/details/132178923
Recomendado
Clasificación