introducción
En la aplicación del aprendizaje profundo, los datos se consideran uno de los factores más importantes. Por lo tanto, elegir un buen conjunto de datos es crucial para el éxito del aprendizaje profundo. Al seleccionar un conjunto de datos, no solo se debe prestar atención al tamaño, la diversidad y la calidad de los datos, sino también a si el conjunto de datos representa la situación real del problema de investigación. Este artículo organiza los conjuntos de datos públicos actuales en el campo del aprendizaje profundo para que todos puedan elegir y usar al entrenar modelos.
1 conjunto de datos completo
1.1 conjunto de datos kaggle
Kaggle es uno de los repositorios en línea más grandes de conjuntos de datos que cubren una variedad de temas, desde deportes hasta medicina y gobierno. Su plataforma está dirigida por la comunidad, lo que significa que los usuarios pueden cargar sus propios conjuntos de datos. Dada la variedad de fuentes de datos para Kaggle, es importante verificar minuciosamente la calidad de los conjuntos de datos de los que los extrae. Además, Kaggle ofrece discusiones sobre temas de aprendizaje automático, así como tutoriales sobre procesos clave.
Dirección: conjuntos de datos kaggle
1.2 Conjunto de datos de AI Studio
AI Studio lanzado por Baidu es una plataforma de desarrollo integral: incluye tutoriales de IA, entorno de código, poder de cómputo de algoritmos, conjuntos de datos y proporciona computación en la nube en línea gratuita.Es un entorno de programación integrado.
Dirección: Conjunto de datos de AI Studio
1.3 Conjunto de datos de Tianchi
Tianchi Dataset es una plataforma de datos de investigación científica abierta al mundo exterior de Alibaba Group. Es proporcionada conjuntamente por el equipo comercial de Alibaba Group e instituciones de investigación externas, que cubre más de diez campos, como comercio electrónico, entretenimiento, logística, salud médica. , transporte, industria, ciencias naturales e industria energética, que abarca la minería de datos, el aprendizaje automático, la visión por computadora, el procesamiento del lenguaje natural, la inteligencia de decisiones y otros campos clásicos de la tecnología de inteligencia artificial.
Dirección: conjuntos de datos de tianchi
1.4 Conjunto de datos de Graviti
Graviti es una plataforma que proporciona conjuntos de datos públicos. Puede buscar fácilmente los datos que desea y puede obtener una vista previa de datos de muestra, anotaciones y etiquetas en línea. Graviti ha recopilado más de 400 conjuntos de datos de CV de alta calidad, que cubren varios campos de aplicación de IA, como la conducción sin conductor, el comercio minorista inteligente y la robótica.
Dirección: conjuntos de datos graviti
1.7 papeles con código
Hay más de cuatro mil conjuntos de datos (y contando). Estos conjuntos de datos son cargados por la comunidad. Puede filtrar fácilmente estos conjuntos de datos por modalidad, tarea e idioma. La base de datos también contiene enlaces a otras bases de datos que también proporcionan una variedad de conjuntos de datos.
Dirección: documentos con conjuntos de datos de código
1.8 estilo de datos
DataFlair se vincula a más de 70 conjuntos de datos de aprendizaje automático y también incluye información útil como código fuente e ideas de proyectos. Por ejemplo, en la lista de conjuntos de datos que contienen dígitos escritos a mano, DataFlair sugiere crear un algoritmo de clasificación de imágenes para reconocer dígitos escritos a mano en papel. Utilice el sitio para inspirar nuevas ideas.
Dirección: estilo de datos
1.9 EliteDataScience
EliteDataScience incluye conjuntos de datos gratuitos y una lista seleccionada de los agregadores más populares. Estos conjuntos de datos están organizados por caso de uso e incluyen conjuntos de datos que se pueden usar para aprendizaje profundo, procesamiento de lenguaje natural, web scraping y más.
Dirección: ciencia de datos de élite
1.10 Conjunto de datos UCI
UCI tiene más de 500 conjuntos de datos de aprendizaje automático que se pueden ordenar por tipo de archivo, tarea, dominio de aplicación y tema. Muchos de estos conjuntos de datos contienen enlaces a trabajos académicos que se pueden utilizar para la evaluación comparativa. Una de las fuentes más antiguas de conjuntos de datos y la primera parada para encontrar conjuntos de datos interesantes. Si bien los conjuntos de datos son aportados por los usuarios y, por lo tanto, tienen diversos grados de limpieza, la gran mayoría están limpios y se pueden descargar directamente desde el repositorio de aprendizaje automático de UCI sin registrarse.
Dirección: conjunto de datos uci
1.11 conjunto de datos públicos de github
Los conjuntos de datos públicos de github proporcionan una colección de código abierto de conjuntos de datos públicos. Allí puede ver el catálogo y elegir un tema, desde agricultura hasta transporte y más. Github también incluye una colección de modelos generales de aprendizaje automático. La mayoría de los conjuntos de datos vinculados son gratuitos.
Dirección: conjuntos de datos de github
1.12 Conjuntos de datos de Azure
Microsoft Azure tiene una base de datos de conjuntos de datos públicos que los desarrolladores pueden usar para crear prototipos y realizar pruebas. Las categorías de bases de datos incluyen datos del gobierno y agencias de EE. UU., otros datos estadísticos y científicos, y datos de servicios en línea. Además, allí puede leer documentación sobre SQL y cómo crear aplicaciones móviles y web.
Dirección: conjuntos de datos azules
2 conjuntos de datos de visión artificial
2.1 Conjunto de datos de ImageNet
El conjunto de datos de ImageNet es uno de los conjuntos de datos más populares en el campo de las aplicaciones de aprendizaje profundo en la actualidad y contiene una gran cantidad de datos de imágenes y anotaciones. Las anotaciones del conjunto de datos de ImageNet cubren todas las categorías grandes, medianas y pequeñas. Las categorías más grandes son más generales y las categorías más pequeñas son más específicas. Esta característica hace que este conjunto de datos sea adecuado para la investigación de problemas de clasificación de imágenes.
Dirección: conjunto de datos de ImageNet
2.2 Conjunto de datos COCO
El nombre completo es "Microsoft Common Objects in Context Dataset". El conjunto de datos COCO es un conjunto de datos a gran escala que se puede utilizar para la detección de imágenes, la segmentación semántica y el subtitulado de imágenes. Tiene más de 330 000 imágenes (de las cuales 220 000 son imágenes etiquetadas), contiene 1,5 millones de objetivos, 80 categorías de objetivos (categorías de objetos: peatones, automóviles, elefantes, etc.), 91 categorías de materiales (categorías de cosas: hierba, pared, cielo, etc.), cada imagen contiene descripciones de oraciones de cinco oraciones de la imagen, y hay 250,000 peatones anotados con puntos clave.
Dirección: conjunto de datos de coco
2.3 Conjunto de datos de IMDB-Wiki
El conjunto de datos de IMDB-Wiki proporciona la mayor colección de imágenes de rostros, con más de 500 000 imágenes. Muchas imágenes son de celebridades y Wikipedia. Cada imagen está etiquetada con género y edad.
Dirección: conjuntos de datos imdb
2.4 Conjunto de datos de LabelMe
Creado con la herramienta de etiquetado LabelMe. Esta herramienta permite a los usuarios delinear y etiquetar objetos. Este conjunto de datos se puede utilizar en proyectos de reconocimiento de imágenes.
Dirección: conjuntos de datos labelme
Conjunto de datos de 2.5 caracteres74k
chars74k incluye 74.000 imágenes. Los datos incluyen el reconocimiento de caracteres en imágenes naturales (por ejemplo, imágenes de letreros de restaurantes)
Dirección: conjuntos de datos chars74k
2.6 Conjunto de datos Kinetics-700
Kinetics-700 contiene una serie de enlaces a videos de YouTube etiquetados principalmente como comportamiento humano. Hay más de 650.000 videoclips que cubren 700 comportamientos humanos.
Dirección: conjuntos de datos kinetics-700
2.7 Base de datos Places2
La base de datos Places2 es un conjunto de datos publicado por el MIT que contiene más de 10 millones de imágenes que cubren más de 400 escenas. Es útil para proyectos como la clasificación de escenas y el análisis de escenas.
Dirección: conjuntos de datos de places2
2.8 Conjunto de datos de postura humana MPII
El conjunto de datos MPII Human Pose incluye alrededor de 25,000 imágenes que involucran 410 poses humanas. Las imágenes contienen aproximadamente 40.000 personas diferentes, cada una con articulaciones humanas anotadas. Estas imágenes se recopilan de videos de YouTube.
Dirección: conjuntos de datos de pose humana
2.9 Conjunto de datos de imágenes abiertas
Open Images es un conjunto de datos de imágenes de código abierto publicado por Google, y la última versión V7 se lanzará en octubre de 2022. Esta versión del conjunto de datos contiene más de 9 millones de imágenes, todas etiquetadas con categorías. Entre ellos, más de 1,9 millones de imágenes tienen anotaciones muy finas. Open Images se puede utilizar en muchas aplicaciones diferentes, incluida la clasificación de imágenes, la detección de objetos, la segmentación de imágenes y la generación de imágenes .
Dirección: conjunto de datos de imágenes abiertas
2.10 Conjunto de datos de paisajes urbanos
Cityscapes es un conjunto de datos para la segmentación semántica de vistas de calles urbanas, que contiene 3257 imágenes de alta resolución de 50 ciudades de Alemania. El conjunto de datos cubre imágenes de Street View en diferentes condiciones de iluminación, como la mañana, el día y la noche. Cada imagen tiene una resolución de 2048x1024 y está anotada profesionalmente para múltiples etiquetas, incluidos edificios, carreteras y peatones. El conjunto de datos también proporciona listas para entrenamiento, validación y prueba, así como métricas de rendimiento de referencia. La introducción del conjunto de datos Cityscapes ayudará a promover el desarrollo del análisis de escenas urbanas y brindará más posibilidades para la investigación y aplicación de algoritmos de aprendizaje profundo.
Dirección: conjunto de datos de paisajes urbanos
2.11 Conjunto de datos Sogou
La fototeca de Internet proviene de parte de los datos indexados por la búsqueda de imágenes de sogou. Recopiló 2.836.535 imágenes en categorías que incluyen personas, animales, edificios, maquinaria, paisajes y deportes. Para cada imagen, la imagen original, la miniatura, la página web donde se encuentra la imagen y el texto relevante en la página web se proporcionan en el conjunto de datos. Más de 200G
Dirección: http://www.sogou.com/labs/dl/p.html
2.12 Conjunto de datos IMAGECLEF
IMAGECLEF se compromete a proporcionar un punto de referencia para campos relacionados con mapas de bits (recuperación, clasificación, etiquetado, etc.) Cross Language Evaluation Forum (CLEF). El concurso se lleva a cabo todos los años desde 2003.
Dirección: http://www.imageclef.org/
3 conjuntos de datos de procesamiento de lenguaje natural
3.1 Corpus de Google Blogger
Google Blogger Corpus incluye casi 700.000 publicaciones de blog de blogger.com. Cada artículo tiene al menos 200 palabras en inglés. En general, estas publicaciones de blog contienen muchas palabras comunes en inglés.
Dirección: Conjuntos de datos de BlogCorpus
3.2 Reseñas de Yelp
El conjunto de datos de Reseñas de Yelp cubre clasificaciones y reseñas de restaurantes y contiene información valiosa relacionada con este tema. Las revisiones en este conjunto de datos se pueden usar en proyectos de análisis de sentimientos.
Dirección: yelp dasets
3.3 Corpus WikiQA
El corpus de WikiQA es un conjunto de datos de respuesta a preguntas compilado a partir de datos de búsqueda de Bing. Incluye más de 3000 preguntas y proporciona 29 000 oraciones de respuesta, 1500 de las cuales están etiquetadas como oraciones de respuesta.
Contenido: WikiQA Corpus
3.4 WordNet
WordNet es una base de datos de palabras en inglés agrupadas por significado. Hay 117.000 synsets (palabras emparejadas según sinónimos), que luego se vinculan a synsets relacionados. Se puede utilizar en proyectos de clasificación de texto.
Dirección: conjuntos de datos wordnet
3.5 Conjunto de datos de OpinRank
El conjunto de datos de OpinRank contiene 300.000 reseñas de Edmunds y TripAdvisor. Se clasifican por destino, hotel y otros factores relevantes.
Dirección: Conjuntos de datos de OpinRank
3.6 Conjunto de datos de opinión multidominio
El conjunto de datos de opinión multidominio incluye reseñas de productos de Amazon.com de cuatro dominios: DVD, libros, cocina y electrónica. Cada dominio tiene miles de reseñas con calificaciones de 1 a 5 estrellas. Como sugiere el nombre, este conjunto de datos es útil para proyectos de análisis de sentimientos.
Dirección: conjuntos de datos mdredze
3.7 Conjunto de datos de análisis de sentimiento de Twitter
El conjunto de datos de análisis de sentimiento de Twitter incluye más de 1,5 millones de tweets clasificados. Cada fila del conjunto de datos tiene un rango: 1 para sentimiento positivo y 0 para sentimiento negativo.
Dirección: conjuntos de datos de sentimiento de twitter
3.8 Conjunto de datos de grupos de noticias
Los grupos de noticias contienen 20.000 documentos y, como sugiere el nombre, provienen de más de 20 grupos de noticias diferentes. Abarca muchos temas, algunos de los cuales son relativamente similares. El conjunto de datos consta de tres versiones: una versión original, una versión con fechas eliminadas y una versión con duplicados eliminados.
Dirección: 20 conjuntos de datos de grupos de noticias
3.9 Conjunto de datos HuggingFace
El conjunto de datos HuggingFace incluye 611 conjuntos de datos de texto que se pueden descargar listos para usar en una línea de python; cubre 467 idiomas, 99 de los cuales contienen al menos 10 conjuntos de datos;
Dirección: conjuntos de datos huggingface
4 conjuntos de datos de audio y video
4.1 Conjunto de datos de voz de M-AI Labs
El conjunto de datos de voz de M-AI Labs incluye casi 1000 horas de audio y transcripciones. Incluye voces masculinas y femeninas en varios idiomas.
Dirección: Conjuntos de datos de los laboratorios MAI
4.2 LibriDiscurso
LibriSpeech incluye aproximadamente 1000 horas de datos de voz segmentados y alineados. Estos datos fueron recopilados de audiolibros del proyecto LibriVox.
Dirección: Conjuntos de datos de Librispeech
5 Búsqueda de conjuntos de datos
5.1 Búsqueda de conjuntos de datos de Google
Google proporciona un motor de búsqueda de conjuntos de datos donde puede buscar conjuntos de datos por nombre. El motor le permite ordenar conjuntos de datos por varias características, como tipo de archivo, tema, última actualización y relevancia. También puede extraer conjuntos de datos de miles de bases de datos en Internet, por lo que realmente puede buscar a través de una amplia gama de opciones. Los cargadores del conjunto de datos incluyen numerosas organizaciones internacionales como la Universidad de Harvard y la Organización Mundial de la Salud.
Dirección: búsqueda de conjuntos de datos de Google
5.2 recuperación de conjuntos de datos de pistas
Puntos de referencia de comprensión del idioma chino, incluidos conjuntos de datos representativos, modelos de punto de referencia (preentrenados), corpus y tablas de clasificación. Seleccionaremos una serie de conjuntos de datos correspondientes a ciertas tareas representativas como nuestros conjuntos de datos de referencia de prueba. Estos conjuntos de datos cubrirán diferentes tareas, volumen de datos y dificultad de la tarea.
Dirección: indicadores de referencia
5.3 conjunto de datos de datos visuales
Visualdata contiene algunos conjuntos de datos excelentes para crear modelos de visión por computadora que los usuarios pueden consultar por un tema de CV, como segmentación semántica, subtítulos de imágenes, generación de imágenes, autos sin conductor, etc.
Dirección: datos visuales
6 conjuntos de datos específicos
6.1 Conjuntos de datos de imágenes médicas
Base de datos de nódulos pulmonares LIDC-IDRI: imagen de cáncer
Base de datos de imágenes mamarias DDSM MIAS: Base de datos de imágenes mamarias
Preguntas frecuentes sobre imágenes médicas: medical-image-faq
Desafío de segmentación del ventrículo derecho (2012): mr-images
Concurso de clasificación de cáncer de pulmón: http://data-science-bowl-2017
Segmentación de cánceres de pulmón (Kaggle): encontrar-pulmones-en-ct
Base de datos de cáncer de pulmón: imagen de cáncer
Conjunto de datos de imágenes médicas: datos médicos
Análisis de imágenes médicas: gran desafío
6.2 Conjunto de datos de competencia de Kaggle
- Conjunto de datos de recomendación de libros (buenas lecturas/decenas de miles de libros/millones de reseñas) [Kaggle] https://www.kaggle.com/zygmunt/goodbooks-10k
- Conjunto de datos de detalles del juego de la NFL con puntos esperados y probabilidad de ganar (2009-2016) [Kaggle] https://www.kaggle.com/maxhorowitz/nflplaybyplay2009to2016
- Conjunto de datos de HackerNews (alrededor de 1/4 artículos desde 2006) [Kaggle] https://www.kaggle.com/hacker-news/hacker-news-corpus
- Conjunto de datos de reseñas de hoteles [Kaggle] https://www.kaggle.com/datafiniti/hotel-reviews
- Conjunto de datos de rendimiento y estado de los jugadores de la NBA desde 1950 [Kaggle] https://www.kaggle.com/dgilermo/nba-players-stats
- [Competencia de Kaggle] Datos de la competencia de calibración de puntos clave faciales: https://www.kaggle.com/c/facial-keypoints-detection
- 【Competencia de Kaggle】Prediga los datos de la competencia de edad y género del usuario en función del comportamiento de uso del software de la aplicación móvil: http://dataju.cn/Dataju/web/datasetInstanceDetail/332
- [Competencia de Kaggle] Datos de la competencia de reconocimiento de imágenes satelitales DSTL: https://www.kaggle.com/c/dstl-satellite-imagery-feature-detection
- [Competencia de Kaggle] Datos de clasificación de imágenes de gatos y perros: https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition
- [Competencia de Kaggle] Predicción de la competencia de amenazas basada en imágenes de escaneo del cuerpo de inspección de seguridad: https://www.kaggle.com/c/passenger-screening-algorithm-challenge
- [Competencia de Kaggle] Datos del desastre del Titanic: https://www.kaggle.com/c/titanic
- [Competencia de Kaggle] Datos de registro de delitos de Filadelfia: https://www.kaggle.com/mchirico/philadelphiacrimedata
- 【Competencia de Kaggle】Datos de ofertas de anuncios en tiempo real: https://www.kaggle.com/zurfer/rtb
- [Competencia de Kaggle] Recomendación de contenido de páginas web y noticias y competencia de clics: https://www.kaggle.com/c/outbrain-click-prediction
- [Datos de Kaggle] Datos de películas de IMDB 5000: https://www.kaggle.com/deepmatrix/imdb-5000-movie-dataset
- [Datos de Kagle] Datos de rendimiento de jugadores de fútbol europeos: https://www.kaggle.com/hugomathien/soccer
- [Datos de Kagle] Datos de desarrollo económico de países de todo el mundo: https://www.kaggle.com/worldbank/world-development-indicators
- Conjunto de datos de serie temporal de intensidad de luz del planeta del espacio profundo del telescopio espacial Kepler [Kaggle] https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data
- Conjunto de datos de ataques UAV de Pakistán (2004-2016) [Kaggle] https://www.kaggle.com/zusmani/pakistandroneattacks
- Conjunto de datos del mercado inmobiliario de Melbourne [Kaggle] https://www.kaggle.com/anthonypino/melbourne-housing-market
- 1789-2016 Presidentes de EE. UU. que firman el conjunto de datos de órdenes ejecutivas [Kaggle] https://www.kaggle.com/nationalarchives/executive-orders
- Conjunto de datos de respuesta a preguntas en lenguaje Python de la plataforma Stack Overflow [Kaggle] https://www.kaggle.com/stackoverflow/pythonquestions
- Conjunto de datos de respuesta a preguntas en lenguaje R de Stack Overflow Pintai [Kaggle] https://www.kaggle.com/stackoverflow/rquestions
- Conjunto de datos de extensión de hielo marino diario [Kaggle] https://www.kaggle.com/nsidcog/daily-sea-ice-extent-data
- NIPS (1987-2016) conjunto de datos en papel [Kaggle] https://www.kaggle.com/benhamner/nips-papers
- Datos de noticias bursátiles de EE. UU. [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/220
- Datos del mercado de seguros médicos de EE. UU. [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/225
- Datos de quejas de clientes financieros estadounidenses [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/229
- Datos predeterminados de préstamos en línea de Lending Club [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/206
- Datos de fraude con tarjetas de crédito [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/206
- Datos bursátiles de EE. UU. XBRL [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/214
- Datos de la Bolsa de Valores de Nueva York [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/214
- Datos de competencia de predicción de incumplimiento de préstamo [competencia de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/249
- Datos de la competencia de predicción del valor inmobiliario del sitio web de Zillow [competencia de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/249
- Datos de la competencia de predicción del valor inmobiliario ruso de Sberbank [competencia de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/266
- Datos de la competencia de precios de seguros de viviendas [Kaggle Competition] http://dataju.cn/Dataju/web/datasetInstanceDetail/336
- Datos de la competencia de pronóstico de retorno de acciones de Winton [competencia de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/347?match
- [Datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/324
- Datos de revisión de teléfonos móviles desbloqueados de Amazon http://dataju.cn/Dataju/web/datasetInstanceDetail/349
- [Datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/364
- [Datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/207
- Datos de competencia de Kaggle [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/207
- La línea de producción de Bosch reduce los datos defectuosos de competencia de tarifas [competencia de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/208
- Datos de ofertas en tiempo real de publicidad en línea [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/337
- Datos de competencia de la asociación de productos del carrito de compras [competencia de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/335
- Datos de la competencia de predicción de reservas de hospedaje de nuevos usuarios de Airbnb [competencia de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/333
- Datos de nutrición alimentaria [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/80
- Datos de forma de onda cerebral de EGG [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/79
- Datos de secuencia genética de alguien [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/121
- Datos de imágenes de TC de cáncer [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/242
- Datos de imagen de TC de sarcoma de tejido blando [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/124
- Datos de competencia de reconocimiento de clasificación de perros y gatos [competencia Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/318
- Datos de la competencia de reconocimiento de imágenes satelitales DSTL [competencia Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/328
- Prediga los datos de competencia de edad y género del usuario en función del comportamiento de uso del software de la aplicación móvil [competencia de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/332
- Datos de la competencia de calibración de puntos clave de la cara [competencia de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/331
- Recopilación de datos de competencia de Kaggle (datos de competencia parciales) http://dataju.cn/Dataju/web/datasetInstanceDetail/368
- Datos públicos de Boston Airbnb [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/209
- Datos de desarrollo económico de los países del mundo [datos de Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/202
- Clasificación mundial de universidades Datos sobre delitos de Chicago (2001-2017) [Datos de Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/233
- Datos de terremotos significativos en todo el mundo (1965-2016) [Datos de Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/231
- Datos de nombres de bebés estadounidenses [datos de Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/222
- Datos de ataques de tiburones a humanos en todo el mundo [datos de Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/219
- Datos de accidentes aéreos desde 1908 [datos de Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/218
- Datos de las elecciones presidenciales de EE. UU. de 2016 [datos de Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/217
- Estadísticas de la comunidad estadounidense de 2013 [datos de Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/273
- Estadísticas de la comunidad estadounidense de 2014 [datos de Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/274
- Estadísticas de la comunidad estadounidense de 2015 [datos de Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/215
- Datos de rendimiento de los jugadores de fútbol europeos [datos de Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/211
- Datos de contaminación ambiental de EE. UU. [datos de Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/224
- Datos de solicitud de visa H1-B de EE. UU. Datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/224
- IMDB cinco mil datos de películas [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/224
- Datos de retrasos y cancelaciones de vuelos de 2015 [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/226
- Datos del informe de homicidio [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/216
- Datos de análisis de recursos humanos [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/259
- Datos de delincuencia en Filadelfia, EE. UU. [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/260
- Datos de correo electrónico de Enron [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/262
- Datos históricos de béisbol [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/263
- Datos de comentarios de usuarios de Twitter de United Airlines [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/264
- Datos públicos de Boston Airbnb [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/265
6.3 Conjuntos de datos de procesamiento de lenguaje natural
- RCV1: http://dataju.cn/Dataju/web/datasetInstanceDetail/93
- Inglés: http://dataju.cn/Dataju/web/datasetInstanceDetail/90
- Datos de noticias: http://dataju.cn/Dataju/web/datasetInstanceDetail/78
- Conjunto de datos de razonamiento de lenguaje natural (marcado de vinculación de texto) [NYU] https://www.nyu.edu/projects/bowman/multinli/
- 20news Datos de noticias en inglés http://dataju.cn/Dataju/web/datasetInstanceDetail/78
- Primeros pares de preguntas de publicación de Quora Datos de preguntas y respuestas http://dataju.cn/Dataju/web/datasetInstanceDetail/94
- Nombres del CCI: http://dataju.cn/Dataju/web/datasetInstanceDetail/92
- Nombres de entidades específicas del idioma nacional: http://dataju.cn/Dataju/web/datasetInstanceDetail/89
- Sentimiento multidominio V2.0: http://dataju.cn/Dataju/web/datasetInstanceDetail/205
- Datos de recuperación de información LETOR: http://dataju.cn/Dataju/web/datasetInstanceDetail/205
- Texto de vídeo de Youtube de Yale: http://dataju.cn/Dataju/web/datasetInstanceDetail/221
- Datos de preguntas y respuestas de Stanford [datos de Kaggle]: http://dataju.cn/Dataju/web/datasetInstanceDetail/221
- Datos de noticias falsas de EE. UU. [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/212
- Datos de información del artículo de la conferencia NIPS (1987-2016) [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/268
- Datos del debate de las elecciones presidenciales de EE. UU. de 2016 [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/269
- Corpus de referencias entre documentos de WikiLinks: http://dataju.cn/Dataju/web/datasetInstanceDetail/277
- Actas del Parlamento Europeo Parallel Corpus datos de traducción automática http://dataju.cn/Dataju/web/datasetInstanceDetail/285
- WikiText Datos del tesauro semántico en inglés: http://dataju.cn/Dataju/web/datasetInstanceDetail/272
- Datos de traducción automática de rastreo de noticias de WMT 2011: http://dataju.cn/Dataju/web/datasetInstanceDetail/288
- Datos de vocabulario de Stanford Sentiment Treebank: http://dataju.cn/Dataju/web/datasetInstanceDetail/334
- Datos de la competencia de predicción de palabras del modelo en inglés: http://dataju.cn/Dataju/web/datasetInstanceDetail/201
- Archivo de correo público de Apache Software Foundation: todo el archivo de correo disponible públicamente de Apache Software Foundation a partir del 11 de julio de 2011. (200 GB) http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
- Blogger Original Corpus: contiene publicaciones de 19.320 blogueros recopiladas en agosto de 2004 del sitio web http://blogger.com. 681.288 publicaciones y más de 1,4 millones de palabras. (298 MB) http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
- Reseñas de alimentos de Amazon [Kaggle]: contiene 568 454 reseñas de alimentos dejadas por usuarios de Amazon antes de octubre de 2012. (240 MB) https://www.kaggle.com/snap/amazon-fine-food-reviews
- Reseñas de Amazon: Stanford ha recopilado 35 millones de reseñas de Amazon. (11 GB) https://snap.stanford.edu/data/web-Amazon.html
- En ArXiv: texto completo de todos los documentos aceptados (270 GB) + archivos fuente. (190 GB) http://arxiv.org/help/bulk_data_s3
- Puntuación automática de ensayos ASAP [Kaggle]: en esta competencia, hay 8 colecciones de ensayos. Cada composición se genera a partir de las respuestas a un solo aviso. Los ensayos seleccionados varían en longitud de 150 a 550 palabras. Algunas composiciones se basan en la información de la fuente, mientras que otras no. Todos los trabajos están escritos por estudiantes en los grados 7-10. Todos los ensayos se califican manualmente y se utiliza un sistema de calificación doble. (100 MB) https://www.kaggle.com/c/asap-aes/data
- Puntaje de respuesta corta ASAP [Kaggle]: cada conjunto de datos se genera a partir de las respuestas a un solo mensaje. La longitud media de las respuestas seleccionadas es de 50 palabras. Algunas respuestas se basan en la información de la fuente, mientras que otras no. Todas las respuestas fueron escritas por estudiantes de décimo grado. Todas las respuestas se puntuaron manualmente y se adoptó un sistema de doble puntuación. (35 MB) https://www.kaggle.com/c/asap-sas/data
- Categorización política de redes sociales: Categorización de mensajes de redes sociales de políticos por contenido. (4 MB) https://www.crowdflower.com/data-for-everyone/
- CLiPS Corpus of Stylistics Research (CSI): ampliado cada año con dos tipos de escritura de los estudiantes: ensayos y reseñas. El propósito de este corpus es principalmente la investigación estilística, pero también puede ser utilizado para otras investigaciones. (El conjunto de datos debe obtenerse mediante la aplicación) http://www.clips.uantwerpen.be/datasets/csi-corpus
- ClueWeb09 FACC: ClueWeb09 con anotación Freebase. (72 GB) http://lemurproject.org/clueweb09/FACC1/
- ClueWeb11 FACC: ClueWeb11 con anotaciones Freebase. (92 GB) http://lemurproject.org/clueweb12/FACC1/
- Corpus de rastreadores comunes: consta de más de 5 mil millones de páginas web (541 TB) de datos de rastreadores. http://aws.amazon.com/de/datasets/common-crawl-corpus/
- Cornell Movie Dialog Corpus: contiene una gran colección de metadatos ricos, diálogos extraídos de guiones de películas originales: 617 películas, 220,579 intercambios conversacionales entre 10,292 pares de personajes de películas. (9,5 MB) http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
- Mensajes comerciales: el trabajo de categorizar lo que las empresas realmente están hablando en las redes sociales. Se pidió a los voluntarios que categorizaran las declaraciones corporativas como información (declaraciones objetivas sobre la empresa o sus actividades), conversación (respuesta a los usuarios, etc.) o acción (mensajes que solicitan votos o que los usuarios hagan clic en enlaces, etc.). (600 KB) http://aws.amazon.com/de/datasets/common-crawl-corpus/
- Crosswikis: una base de datos que vincula frases en inglés con artículos de Wikipedia. (11 GB) http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/
- Un esfuerzo colectivo de la comunidad web para extraer información estructurada de Wikipedia y hacer que esta información esté disponible en la web. (17 GB) http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic
- Corredor de la muerte: Las últimas palabras de todos los presos ejecutados desde 1984. (Formulario HTML) http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html
- http://Del.icio.us: 1,25 millones de marcadores en http://delicious.com. http://arvindn.livejournal.com/116137.html
- Tweets de desastres en las redes sociales: 10.000 tweets, anotados con o sin eventos de desastre. (2 MB) https://www.crowdflower.com/data-for-everyone/
- Artículos relacionados con noticias económicas: Determine si un artículo de noticias es relevante para la economía de EE. UU. y, de ser así, cuál es el tono del artículo. El intervalo de tiempo es de 1951 a 2014. (12 MB) https://www.crowdflower.com/data-for-everyone/
- Datos de correo electrónico de Enron: Contiene 1.227.255 correos electrónicos con 493.384 archivos adjuntos que cubren a 151 gerentes. (210 GB) http://aws.amazon.com/de/datasets/enron-email-data/
- Registro de eventos: una herramienta gratuita que brinda acceso en tiempo real a artículos de noticias de 100,000 puntos de venta en todo el mundo. Hay una interfaz API. (herramienta de consulta) http://eventregistry.org/
- http://Examiner.com - News Headline Phishing Spam [Kaggle]: 3 millones de titulares de noticias de colaboración colectiva publicados por el ahora desaparecido sitio de phishing The Examiner entre 2010 y 2015. (200 MB) https://www.kaggle.com/therohk/examine-the-examiner
- Contratos federales del Centro de datos de adquisiciones federales (http://USASpending.gov): Una base de datos de todos los contratos federales del Centro de datos de adquisiciones federales en http://USASpending.gov. (180 GB) http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/
- Taxonomía personal de Flickr: un conjunto de datos con estructura de árbol de etiquetas personales. (40 MB) http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
- Base de datos de Freebase: una base de datos de todos los hechos e inferencias actuales en Freebase. (26 GB) http://aws.amazon.com/de/datasets/freebase-data-dump/
- Freebase Simple Topic Library: una base de datos de hechos básicos en todos los temas de Freebase. (5 GB) http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/
- Freebase Quaternary Library: una base de datos de todos los hechos e inferencias actuales en Freebase [LZ1]. (35 GB) http://aws.amazon.com/de/datasets/freebase-quad-dump/
- GigaOM Wordpress Challenge [Kaggle]: Publicaciones de blog, metadatos, Me gusta de los usuarios. (1,5 GB) https://www.kaggle.com/c/predict-wordpress-likes/data
- N-gramas de Google Books: también disponible como archivo con formato Hadoop en Amazon S3. (2,2 TB) http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
- Google Web 5-grams: n-grams que contienen palabras en inglés y sus recuentos de frecuencia. (24 GB) https://catalog.ldc.upenn.edu/LDC2006T13
- Lista de libros electrónicos de Gutenberg: una lista de libros electrónicos anotados. (2 MB) http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
- Bloques de texto del parlamento canadiense: 1,3 millones de bloques de texto estándar (oraciones o fragmentos más pequeños) de los registros oficiales del 36º Parlamento de Canadá (Hansards). (82 MB) http://www.isi.edu/natural-language/download/hansard/
- Bibliotecas de Harvard: Registros bibliográficos de más de 12 millones de volúmenes de materiales que se encuentran en las Bibliotecas de Harvard, incluidos libros, publicaciones periódicas, recursos electrónicos, manuscritos, materiales de archivo, partituras musicales, audio, video y otros materiales. (4GB) http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset
- Identificación del discurso de odio: los voluntarios miran textos breves y determinan si a) contiene discurso de odio, b) es ofensivo pero no tiene discurso de odio, o c) no es ofensivo en absoluto. Con casi 15 mil líneas, cada cadena de texto tenía tres juicios voluntarios. (3 MB) https://github.com/t-davidson/hate-speech-and-offensive-language
- Correos electrónicos de Hillary Clinton [Kaggle]: recopiló casi 7000 páginas de correos electrónicos de Clinton. (12 MB) https://www.kaggle.com/kaggle/hillary-clinton-emails
- Asociación de búsqueda de productos de The Home Depot Company [Kaggle]: contiene muchos términos de búsqueda de productos y clientes del sitio web de Home Depot Company. El desafío consiste en predecir la puntuación de relevancia de las combinaciones de términos de búsqueda y los productos. Para crear etiquetas auténticas, The Home Depot entregó emparejamientos de búsqueda/producto a varios evaluadores. (65 MB) https://www.kaggle.com/c/home-depot-product-search-relevance/data
- Identificar frases clave en el texto: pares de pregunta/respuesta y composición del texto; determinar si el texto contextual es relevante para la pregunta/respuesta. (8 MB) https://www.crowdflower.com/data-for-everyone/
- Programa de televisión estadounidense 'Jeopardy': una colección de 216.930 preguntas anteriores de 'Jeopardy'. (53 MB) http://www.reddit.com/r/datasets/comments
- 200k Chistes en texto simple en inglés: Archivo de 208,000 chistes en texto simple de diferentes fuentes. https://github.com/taivop/joke-dataset
- Traducción automática de idiomas europeos. (612 MB) http://statmt.org/wmt11/translation-task.html#download
- Hoja de datos de seguridad de materiales: 230000 Hoja de datos de seguridad de materiales. (3 GB) http://aws.amazon.com/de/datasets/material-safety-data-sheets/
- Million News Headlines - ABC Australia [Kaggle]: 1,3 millones de titulares de 2003 a 2017 publicados por ABC News Australia. (56 MB) https://www.kaggle.com/therohk/million-headlines
- MCTest: colección de uso gratuito de 660 historias y preguntas asociadas para investigar la comprensión automática del texto y la respuesta a preguntas. (1 MB) http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html
- Negra: un corpus gramaticalmente anotado de textos de periódicos alemanes. Gratis para todas las universidades y organizaciones sin fines de lucro. Es necesario firmar el acuerdo y enviar la solicitud para obtenerlo. http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html
- Titulares de noticias: Times of India [Kaggle]: 2,7 millones de categorías de titulares de noticias publicados por Times of India entre 2001 y 2017. (185 MB) https://www.crowdflower.com/data-for-everyone/
- Emparejamiento de artículo de noticias/página de Wikipedia: los voluntarios leyeron un artículo breve y se les preguntó cuál de los dos artículos de Wikipedia coincidía mejor. (6 MB) https://www.kaggle.com/benhamner/nips-2015-papers/version/2
- Documentos NIPS de 2015 (versión 2) [Kaggle]: texto completo de todos los documentos NIPS de 2015. (335 MB) https://www.kaggle.com/benhamner/nips-2015-papers/version/2
- Datos de Facebook del NYT: todas las publicaciones del NYT en Facebook. (5 MB) http://minimaxir.com/2015/07/facebook-scraper/
- Global News Weekly Feed [Kaggle]: un conjunto de datos de 1,4 millones de eventos noticiosos publicados globalmente en más de 20 idiomas durante una semana en agosto de 2017. (115 MB) https://www.kaggle.com/therohk/global-news-week
- Corrección de pares de oraciones/conceptos: los voluntarios leen oraciones sobre dos conceptos. Por ejemplo, "Un perro es un animal", o "Un capitán puede significar lo mismo que un dueño", y luego se les preguntó si esta oración era correcta y la calificaron del 1 al 5. (700 KB) https://www.crowdflower.com/data-for-everyone/
- Base de datos de biblioteca abierta: Una colección modificada de todos los registros en una biblioteca abierta. (16 GB) https://openlibrary.org/developers/dumps
- Character Corpus: una colección de experimentos sobre el estilo de ensayo del autor y la predicción de la personalidad. Consta de 145 artículos holandeses de 145 estudiantes. (El acceso requiere aplicación) http://www.clips.uantwerpen.be/datasets/personae-corpus
- Comentarios de Reddit: todos los comentarios públicos en el foro de Reddit a partir de julio de 2015. Un total de 1.700 millones de comentarios. (250 GB) https://www.reddit.com/r/datasets/comments/3bxlg7
- Revisión de Reddit (mayo de 2015): subconjunto de datos de Kaggle. (8GB) https://www.kaggle.com/reddit/reddit-comments-may-2015
- Corpus de envío de Reddit: todos los envíos de Reddit disponibles públicamente desde enero de 2006 hasta el 31 de agosto de 2015. (42 GB) https://www.reddit.com/r/datasets/comments/3mg812
- Corpus de Reuters: un conjunto de datos que contiene artículos de noticias de Reuters para la investigación y el desarrollo de sistemas de procesamiento de lenguaje natural, recuperación de información y aprendizaje automático. El corpus, también conocido como "Cotizaciones 1 de Reuters" o RCV1, es mucho más grande que el conocido conjunto de datos 21578 de Reuters que originalmente se usó ampliamente en la clasificación de textos. Los datos del corpus deben obtenerse mediante la firma de un acuerdo y el envío de un correo electrónico. (2,5 GB) https://trec.nist.gov/data/reuters/reuters.html
- SaudiNewsNet: 31030 titulares y metadatos extraídos de varios periódicos en línea de Arabia Saudita. (2 MB) https://github.com/ParallelMazen/SaudiNewsNet
- Conjunto de datos de spam de SMS: 5574 mensajes SMS auténticos en inglés sin codificar marcados como legítimos/ilegales. (200KB) http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
- Conjunto de datos de South Park: un archivo csv que contiene información del guión para temporadas, episodios, personajes y líneas. (3,6 MB) https://github.com/BobAdamsEE/SouthParkData
- Stackoverflow: 7,3 millones de preguntas de stackoverflow y otras preguntas y respuestas de stackexchange (herramienta de respuesta a preguntas). http://data.stackexchange.com/
- Conjunto de datos de orientación de usuarios de Cheng-Caverlee-lee de Twitter: orientación de tweets de septiembre de 2009 a enero de 2010. (400 MB) https://archive.org/details/twitter_cikm_2010
- Zumbido en Twitter sobre la desinflación de los New England Patriots: antes del Super Bowl de 2015, se habló mucho sobre los balones desinflados y si los Patriots estaban haciendo trampa. El conjunto de datos proporciona el sentimiento de Twitter durante el momento del escándalo para medir cómo se sintió el público sobre el evento en general. (2 MB) https://www.figure-eight.com/data-for-everyone/
- Análisis de la opinión pública sobre eventos relacionados con la izquierda en Twitter: tweets sobre la legalización del aborto, el feminismo, Hillary Clinton y otros eventos relacionados con la izquierda, los tweets se clasificarán como A favor (apoyo) y Contra (en contra) según la inferencia de contenido, Neutral (neutro), o Ninguno de los anteriores (ninguno de los anteriores). (600 KB) https://www.figure-eight.com/data-for-everyone/
- Sentiment140 de Twitter (Conjunto de datos de análisis de sentimiento): Tweets sobre marcas/palabras clave, sitios web que incluyen artículos e ideas de investigación. (77 MB) http://help.sentiment140.com/for-students/
- Análisis de la opinión pública sobre los vehículos autónomos en Twitter: los colaboradores leyeron los tuits y clasificaron sus actitudes hacia la conducción autónoma en muy positivas, algo positivas, neutrales, relativamente negativas y muy negativas. Si el tuit no tiene nada que ver con los coches autónomos, también lo marcan. (1 MB) https://www.figure-eight.com/data-for-everyone/
- Tweets dirigidos a Tokio en Twitter: 200.000 tweets de Tokio. (47 MB) http://followthehashtag.com/datasets/200000-tokio
- Tweets dirigidos al Reino Unido en Twitter: 170.000 tweets del Reino Unido. (47 MB) http://followthehashtag.com/datasets/170000-uk
- Tweets dirigidos a EE. UU. en Twitter: 200.000 tweets de EE. UU. (45 MB) http://followthehashtag.com/datasets/free-twitter-dataset
- Actitudes hacia las principales aerolíneas de EE. UU. en Twitter (conjunto de datos de Kaggle): esta es una tarea de análisis de sentimientos para problemas con las principales aerolíneas de EE. UU. El conjunto de datos rastrea los tweets de febrero de 2015, y los contribuyentes los clasifican como positivos, negativos y neutrales, y dan las razones de los clasificados como negativos (por ejemplo, "el avión llega tarde" o "Actitud de servicio deficiente", etc.). (2,5 MB) https://www.kaggle.com/crowdflower/twitter-airline-sentiment
- Desempeño económico de EE. UU. basado en titulares de noticias: ordena la relevancia de las noticias para la economía de EE. UU. en función de titulares y resúmenes de noticias. (5 MB) https://www.figure-eight.com/data-for-everyone/
- Urban Dictionary (American Online Slang Dictionary) Palabras y definiciones: un corpus CSV limpio de los 2,6 millones de palabras, definiciones, autores y votos en Urban Dictionary a partir de mayo de 2016. (238 MB) https://www.kaggle.com/therohk/urban-dictionary-words-dataset
- Usenet Corpus de Wesbury Lab de Amazon: una compilación anónima de mensajes de 47 860 grupos de noticias en inglés de 2005 a 2010. (40 GB) http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/
- Corpus de Wesbury Lab de Wikipedia: una instantánea de todos los artículos en la sección en inglés de Wikipedia en abril de 2010. El sitio web describe en detalle cómo se procesan los datos, es decir, despojados de todos los enlaces y material irrelevante (por ejemplo, texto de navegación, etc.). Un corpus es texto en bruto sin etiquetar, que se utiliza en Stanford NLP. http://www.psych.ualberta.ca
- Enlace de salto de Stanford NLP: https://scholar.google.com/scholar
- Extracción de Wikipedia (WEX): la versión procesada en inglés de Wikipedia. (66 GB) http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/
- Datos en formato XML de Wikipedia: una reproducción completa de todos los Wikimedia, incrustados en XML como fuente de wikitexto y metadatos. (500 GB) http://aws.amazon.com/de/datasets/wikipedia-xml-data/
- Preguntas y respuestas integrales de Yahoo Respuestas: el corpus de Yahoo Respuestas al 25 de octubre de 2007, que contiene 4.483.032 preguntas y respuestas. (3,6 GB) http://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Preguntas formuladas en francés en Yahoo Respuestas: un subconjunto del corpus de Yahoo Respuestas de 2006 a 2015, que contiene 1,7 millones de respuestas a preguntas en francés. (3,8 GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Preguntas "Cómo hacer" de Yahoo Respuestas [LZ2]: un subconjunto de 142.627 preguntas y respuestas del corpus de Yahoo Respuestas del 25 de octubre de 2007 seleccionado de acuerdo con los atributos lingüísticos. (104 MB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Páginas en formato HTML de Yahoo extraídas de páginas web públicas: contiene una pequeña cantidad de páginas en formato HTML complejo y 2,67 millones de páginas en formato complejo. (50+ GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Metadatos extraídos de páginas web públicas por Yahoo: 100 millones de triples de datos en formato RDF. (2GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Datos de representaciones de N-gram de Yahoo (Representaciones de N-Gram): este conjunto de datos contiene datos de representación de N-gram, que se pueden usar para tareas de reescritura de consultas (reescritura de consultas) comunes en la investigación de IR, y también se pueden usar en la investigación de NLP palabra común y Tareas de análisis de similitud de oraciones. (2,6 GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Datos de N-gram de Yahoo (versión 2.0): datos de n-gram (n=1-5) de un corpus de 14,6 millones de documentos (126 millones de oraciones únicas, 3,4 mil millones de palabras) Extracción de documentos de 12.000 sitios orientados a las noticias. (12 GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Juicio de relevancia de los registros de búsqueda de Yahoo: Juicio de relevancia de los registros de búsqueda anónimos de Yahoo. (1,3 GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Instantánea de la anotación semántica de la Wikipedia en inglés de Yahoo: contiene 1.490.688 entradas de la Wikipedia en inglés al 4 de noviembre de 2006 después de procesarse con algunas herramientas NLP disponibles públicamente. (6 GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Yelp: contiene clasificaciones de restaurantes y 2,2 millones de reseñas. https://www.yelp.com/dataset
- Youtube: 1,7 millones de descripciones de videos de YouTube. (formato torrent) https://www.reddit.com/r/datasets/comments/
- Excelentes conjuntos de datos públicos de NLP (con más listados) https://github.com/awesomedata/awesome-public-datasets
- Conjunto de datos públicos de Amazon https://aws.amazon.com/de/datasets/
- Conjunto de datos de CrowdFlower (contiene una gran cantidad de encuestas pequeñas y datos de colaboración colectiva para tareas específicas) https://www.crowdflower.com/data-for-everyone/
- Conjuntos de datos de Kaggle https://www.kaggle.com/datasets
- Competiciones de Kaggle (asegúrese de que estos datos de la competencia de Kaggle se puedan usar fuera de la competencia) https://www.kaggle.com/competitions
- Biblioteca abierta https://openlibrary.org/developers/dumps
- Quora (principalmente corpus anotado) https://www.quora.com/Datasets
- Conjuntos de datos de reddit (numerosos conjuntos de datos, en su mayoría rastreados por aficionados, pero es posible que la curación de datos y las licencias no estén estandarizados) https://www.reddit.com/r/datasets
- http://Rs.io: también una lista muy larga de conjuntos de datos http://rs.io/100-interesting-data-sets-for-statistics/
- Stackexchange: datos abiertos http://opendata.stackexchange.com/
- Grupo de PNL de Stanford (principalmente corpus etiquetados y TreeBanks, y herramientas prácticas de PNL) https://nlp.stanford.edu/links/statnlp.html
- Resumen del conjunto de datos de Yahoo Research Webscope (también incluye una lista de artículos que utilizan los datos) http://webscope.sandbox.yahoo.com/
- Lista de conjuntos de datos de procesamiento de lenguaje natural (NLP) [Nicolas Iderhoff] https://github.com/niderhoff/nlp-datasets
- NLVR: conjunto de datos básicos de lenguaje natural (agrupación de objetos, cantidad, comparación y razonamiento de relaciones espaciales) http://lic.nlp.cornell.edu/nlvr/
- Stanford NLP lanzó un nuevo conjunto de datos de diálogo de varias rondas, entre dominios y orientado a tareas [Mihail Eric] https://github.com/keunwoochoi/YouTube-music-video-5M
- Código/conjunto de datos de lenguaje natural "La belleza de los datos" http://t.cn/hBOTM4
- Conjunto de datos de análisis semántico de consulta de lenguaje natural de base de datos relacional de crowdsourcing a gran escala (más de 80 000 muestras de consulta) http://t.cn/RNMr09n
6.4 Varios tipos/ datos de imagen de escena/imagen completa
- Datos de imagen del genoma visual http://dataju.cn/Dataju/web/datasetInstanceDetail/311
- Datos de imagen de Visual7w http://dataju.cn/Dataju/web/datasetInstanceDetail/315
- Datos de imagen COCO http://dataju.cn/Dataju/web/datasetInstanceDetail/316
- Datos de imagen SUFR http://dataju.cn/Dataju/web/datasetInstanceDetail/317
- Datos de entrenamiento de ILSVRC 2014 (parte de ImageNet) http://dataju.cn/Dataju/web/datasetInstanceDetail/369
- PASCAL Visual Object Classes 2012 datos de imagen http://dataju.cn/Dataju/web/datasetInstanceDetail/85
- PASCAL Visual Object Classes 2011 datos de imagen http://dataju.cn/Dataju/web/datasetInstanceDetail/107
- PASCAL Visual Object Classes 2010 datos de imagen http://dataju.cn/Dataju/web/datasetInstanceDetail/51
- 80 millones de datos de imagen de Tiny Image [los datos son demasiado grandes, solo una introducción] http://dataju.cn/Dataju/web/datasetInstanceDetail/240
- ImageNet [Los datos son demasiado grandes y solo una introducción] http://dataju.cn/Dataju/web/datasetInstanceDetail/55
- Imágenes abiertas de Google【Los datos son demasiado grandes, solo la introducción】http://dataju.cn/Dataju/web/datasetInstanceDetail/40
6.5 Imagen de escena
- Datos de imagen de escenas callejeras http://dataju.cn/Dataju/web/datasetInstanceDetail/45
- Datos de imagen de escena de Places2 http://dataju.cn/Dataju/web/datasetInstanceDetail/48
- (Stanford) Conjunto de datos de imagen de UAV (campus) a gran escala 69G [Stanford] http://cvgl.stanford.edu/projects/uav_data/
- Lanzamiento del conjunto de datos de percepción/análisis/segmentación/reconocimiento de objetivos múltiples ADE20K [MIT] https://groups.csail.mit.edu/vision/datasets/ADE20K/
- Conjunto de datos de comportamiento binario multimodal [GaTech] http://www.cbi.gatech.edu/mmdb/
- Conjunto de datos de segmentación de imágenes de Berkeley BSDS500 [Berkeley] https://www2.eecs.berkeley.edu
- Datos de imagen de UCF Google Street View http://dataju.cn/Dataju/web/datasetInstanceDetail/138
- Datos de imagen de la escena SUN http://dataju.cn/Dataju/web/datasetInstanceDetail/138
- Datos de imagen de Celebrity in Places http://dataju.cn/Dataju/web/datasetInstanceDetail/83
6.6 Etiquetas de imágenes web
- Imagen de etiqueta social de HARRISON http://dataju.cn/Dataju/web/datasetInstanceDetail/183
- Imagen de la etiqueta NUS-WIDE http://dataju.cn/Dataju/web/datasetInstanceDetail/74
- Imagen de etiqueta Visual Synset http://dataju.cn/Dataju/web/datasetInstanceDetail/112
- Imagen de etiqueta de animales con atributos http://dataju.cn/Dataju/web/datasetInstanceDetail/160
6.7 Imagen de silueta humana
- Conjunto de datos de bocetos faciales [CUHK] http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html
- Forma humana MPII http://dataju.cn/Dataju/web/datasetInstanceDetail/234
- Datos del contorno del cuerpo humano http://dataju.cn/Dataju/web/datasetInstanceDetail/173
- Biwi Kinect Head Pose head pose datos http://dataju.cn/Dataju/web/datasetInstanceDetail/52
- Datos de retratos de la parte superior del cuerpo http://dataju.cn/Dataju/web/datasetInstanceDetail/52
- Conjunto de datos de personas de INRIA http://dataju.cn/Dataju/web/datasetInstanceDetail/235
6.8 Imagen de reconocimiento de texto visual
- Datos de imagen del número de casa del número de casa de Street View http://dataju.cn/Dataju/web/datasetInstanceDetail/236
- Datos de imagen de reconocimiento de dígitos escritos a mano del MNIST http://dataju.cn/Dataju/web/datasetInstanceDetail/253
- Datos de imagen de reconocimiento digital 3D MNIST [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/129
- Documento de MediaTeam Fotocopia del documento y datos de contenido http://dataju.cn/Dataju/web/datasetInstanceDetail/129
- Datos de imagen de texto de reconocimiento de texto http://dataju.cn/Dataju/web/datasetInstanceDetail/110
- NIST Handprinted Forms and Characters datos de caracteres en inglés escritos a mano http://dataju.cn/Dataju/web/datasetInstanceDetail/49
- Conjunto de referencia de formularios estructurados de NIST de imágenes binarias http://dataju.cn/Dataju/web/datasetInstanceDetail/73
- (SFRS) datos de imagen http://dataju.cn/Dataju/web/datasetInstanceDetail/47
- Conjunto de referencia de formularios estructurados NIST de imágenes binarias http://dataju.cn/Dataju/web/datasetInstanceDetail/23
- (SFRS) II datos de imagen http://dataju.cn/Dataju/web/datasetInstanceDetail/203
6.9 Imágenes de una clase particular de cosas
- Los famosos datos de anotación de imágenes de gatos http://dataju.cn/Dataju/web/datasetInstanceDetail/128
- Caltech-UCSD http://dataju.cn/Dataju/web/datasetInstanceDetail/176
- Birds200 datos de imágenes de aves http://dataju.cn/Dataju/web/datasetInstanceDetail/278
- Datos de imágenes de automóviles de Stanford Car http://dataju.cn/Dataju/web/datasetInstanceDetail/294
- Coches datos de imágenes de coches http://dataju.cn/Dataju/web/datasetInstanceDetail/295
- Datos de imágenes de automóviles de MIT Cars http://dataju.cn/Dataju/web/datasetInstanceDetail/41
- Datos de imágenes de automóviles de Stanford Cars http://dataju.cn/Dataju/web/datasetInstanceDetail/105
- Food-101 datos de imágenes de alimentos http://dataju.cn/Dataju/web/datasetInstanceDetail/106
- 17_Category_Flower http://dataju.cn/Dataju/web/datasetInstanceDetail/106
- Datos de imagen http://dataju.cn/Dataju/web/datasetInstanceDetail/254
- 102_Category_Flower http://dataju.cn/Dataju/web/datasetInstanceDetail/255
- Datos de imagen http://dataju.cn/Dataju/web/datasetInstanceDetail/109
- Datos de imagen de UCI Folio Leaf http://dataju.cn/Dataju/web/datasetInstanceDetail/114
- Peces etiquetados http://dataju.cn/Dataju/web/datasetInstanceDetail/115
- en la imagen de peces salvajes http://dataju.cn/Dataju/web/datasetInstanceDetail/60
- Fotos del hotel del sitio de revisión Yelp de EE. UU. http://dataju.cn/Dataju/web/datasetInstanceDetail/61
- CMU-Oxford http://dataju.cn/Dataju/web/datasetInstanceDetail/63
- Imagen de la estatua de la escultura http://dataju.cn/Dataju/web/datasetInstanceDetail/174
- Datos de imágenes de mascotas Oxford-IIIT Pet http://dataju.cn/Dataju/web/datasetInstanceDetail/256
- Naturaleza http://dataju.cn/Dataju/web/datasetInstanceDetail/301
- Conservancy Fisheries Monitoring Datos de imagen de monitoreo de sobrepesca [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/118
- Conjunto de datos de imágenes de mascotas (segmentación) [Oxford] http://www.robots.ox.ac.uk/~vgg/data/pets/
6.10 Imágenes de texturas de materiales
- Datos de imagen del material de textura CURET http://dataju.cn/Dataju/web/datasetInstanceDetail/111
- Datos de imagen de textura de sintetizabilidad ETHZ http://dataju.cn/Dataju/web/datasetInstanceDetail/127
- Datos de imagen del material de textura KTH-TIPS http://dataju.cn/Dataju/web/datasetInstanceDetail/172
- Datos de imágenes de texturas de texturas descriptibles http://dataju.cn/Dataju/web/datasetInstanceDetail/71
6.11 Imágenes de clasificación de objetos
- Datos de imagen COIL-20 http://dataju.cn/Dataju/web/datasetInstanceDetail/62
- Datos de imagen COIL-100 http://dataju.cn/Dataju/web/datasetInstanceDetail/70
- Datos de imagen Caltech-101 http://dataju.cn/Dataju/web/datasetInstanceDetail/54
- Datos de imagen de Caltech-256 http://dataju.cn/Dataju/web/datasetInstanceDetail/46
- Datos de imagen CIFAR-10 http://dataju.cn/Dataju/web/datasetInstanceDetail/42
- Datos de imagen CIFAR-100 http://dataju.cn/Dataju/web/datasetInstanceDetail/53
- Datos de imagen STL-10 http://dataju.cn/Dataju/web/datasetInstanceDetail/72
- LabelMe_12_50k http://dataju.cn/Dataju/web/datasetInstanceDetail/72
- Datos de imagen http://dataju.cn/Dataju/web/datasetInstanceDetail/69
- Datos de imagen de NORB v1.0 http://dataju.cn/Dataju/web/datasetInstanceDetail/117
- Datos de imágenes de animales de juguete de NEC http://dataju.cn/Dataju/web/datasetInstanceDetail/237
- Datos de clasificación de imágenes de iCubWorld http://dataju.cn/Dataju/web/datasetInstanceDetail/238
- Datos de clasificación de imágenes de varias clases http://dataju.cn/Dataju/web/datasetInstanceDetail/239
- Datos de clasificación de imágenes GRAZ http://dataju.cn/Dataju/web/datasetInstanceDetail/108
6.12 Imagen de la cara
IMDB-WIKI Más de 500k imágenes de rostros, edad y datos de género http://dataju.cn/Dataju/web/datasetInstanceDetail/68
- Rostros etiquetados en estado salvaje datos de rostros http://dataju.cn/Dataju/web/datasetInstanceDetail/50
- Datos faciales de la base de datos facial B de Yale extendida http://dataju.cn/Dataju/web/datasetInstanceDetail/131
- Bao Face datos faciales http://dataju.cn/Dataju/web/datasetInstanceDetail/87
- Datos de cara de papel DC-IGN http://dataju.cn/Dataju/web/datasetInstanceDetail/119
- 300 Cara en datos de imagen salvaje http://dataju.cn/Dataju/web/datasetInstanceDetail/120
- Datos faciales de BioID Face http://dataju.cn/Dataju/web/datasetInstanceDetail/122
- Imágenes de la cara frontal de CMU http://dataju.cn/Dataju/web/datasetInstanceDetail/123
- FDDB_Conjunto de datos de detección de rostros y punto de referencia http://dataju.cn/Dataju/web/datasetInstanceDetail/130
- Base de datos de identificación de Mugshot del NIST http://dataju.cn/Dataju/web/datasetInstanceDetail/140
- Rostros en estado salvaje datos de rostros http://dataju.cn/Dataju/web/datasetInstanceDetail/170
- Datos de imagen de cara de celebridad de CelebA http://dataju.cn/Dataju/web/datasetInstanceDetail/175
- VGG Cara Datos de imagen de cara http://dataju.cn/Dataju/web/datasetInstanceDetail/189
- Caltech 10k Web Faces datos de imágenes faciales http://dataju.cn/Dataju/web/datasetInstanceDetail/125
6.13 Imágenes de acción de pose
- HMDB_una gran base de datos de movimiento humano http://dataju.cn/Dataju/web/datasetInstanceDetail/126
- Conjunto de datos de escenas y acciones humanas http://dataju.cn/Dataju/web/datasetInstanceDetail/177
- Datos de imagen de reconocimiento de contorno de cuerpo humano Buffy Stickmen V3 http://dataju.cn/Dataju/web/datasetInstanceDetail/178
- Human Pose Evaluator Datos de imagen de reconocimiento de contorno de cuerpo humano http://dataju.cn/Dataju/web/datasetInstanceDetail/179
- Pose buffy Datos de imagen de pose humana http://dataju.cn/Dataju/web/datasetInstanceDetail/181
- Datos de anotación de imagen de pose de estimación de pose humana VGG http://dataju.cn/Dataju/web/datasetInstanceDetail/197
6.14 Imagen de reconocimiento de huellas dactilares
Datos de identificación de huellas dactilares NIST FIGS http://dataju.cn/Dataju/web/datasetInstanceDetail/281
- Datos de identificación de huellas dactilares de NIST Supplemental Fingerprint Card Data (SFCD) http://dataju.cn/Dataju/web/datasetInstanceDetail/280
- Imágenes simples y enrolladas de NIST de tarjetas de huellas dactilares emparejadas http://dataju.cn/Dataju/web/datasetInstanceDetail/279
- en 500 píxeles por pulgada datos de identificación de huellas dactilares http://dataju.cn/Dataju/web/datasetInstanceDetail/77
- Imágenes simples y enrolladas de NIST de tarjetas de huellas dactilares emparejadas http://dataju.cn/Dataju/web/datasetInstanceDetail/289
- Datos de identificación de huellas dactilares de 1000 píxeles por pulgada http://dataju.cn/Dataju/web/datasetInstanceDetail/132
6.15 Otros datos de imagen
Visual Question Answering V1.0 Image Data http://dataju.cn/Dataju/web/datasetInstanceDetail/84
- Visual Question Answering V2.0 Image Data http://dataju.cn/Dataju/web/datasetInstanceDetail/241
- Conjunto de datos de imágenes de ropa de estilo Fashion-MNIST [Xiao Han] https://github.com/zalandoresearch/fashion-mnist
- Conjunto de datos de manga japonés Manga109: http://dl.acm.org/citation.cfm?doid=3011549.3011551
- Conjunto de datos de imagen Pixiv (colorear) [Jerry Li] https://github.com/jerryli27/pixiv_dataset
- ¡Rápido, dibuja! Conjunto de datos de grafiti de figura de palo https://github.com/googlecreativelab/quickdraw-dataset
- Conjunto de datos de graffiti de figura de palo [hardmaru] https://github.com/hardmaru/sketch-rnn-datasets
- Conjunto de datos de imágenes (segmentación) a nivel de calle a gran escala [Peter Kontschieder] http://blog.mapillary.com/product/2017
- Conjunto de datos de descripción de imágenes en japonés a gran escala https://github.com/STAIR-Lab-CIT/STAIR-captions
- Conjunto de datos de segmentación semántica de Street View de paisajes urbanos (50 ciudades, 30 categorías, 5 000 imágenes con etiquetas finas, 20 000 imágenes con etiquetas gruesas y videos etiquetados) https://github.com/mcordts/cityscapess
- (Calle) conjunto de datos de ropa de moda (más de 2000 imágenes etiquetadas) https://github.com/bearpaw/clothing-co-parsing
6.16 Conjunto de datos del sistema de recomendación
- Datos de evaluación de películas de Netflix http://dataju.cn/Dataju/web/datasetInstanceDetail/330
- Conjunto de datos de recomendación de película MovieLens 20m http://dataju.cn/Dataju/web/datasetInstanceDetail/329
- WikiLens http://dataju.cn/Dataju/web/datasetInstanceDetail/227
- Bufón http://dataju.cn/Dataju/web/datasetInstanceDetail/350
- HetRec2011 http://dataju.cn/Dataju/web/datasetInstanceDetail/354
- Cruce de libros http://dataju.cn/Dataju/web/datasetInstanceDetail/32
- Reseña de película grande http://dataju.cn/Dataju/web/datasetInstanceDetail/116
- Revisión de productos de Retailrocket y datos de recomendación http://dataju.cn/Dataju/web/datasetInstanceDetail/97
- MovieLens https://grouplens.org/datasets/movielens/
- Bufón http://www2.informatik.uni-freiburg.de/~cziegler/BX/
- Cruces de libros http://www2.informatik.uni-freiburg.de/~cziegler/BX/
- Last.fm https://grouplens.org/datasets/hetrec-2011/
- OpenStreetMap http://planet.openstreetmap.org/planet/full-history/
- Repositorios Python Git https://github.com/lab41/hermes
6.17 Conjuntos de datos financieros
- Los datos oficiales publicados por la Oficina de Estadísticas Laborales de EE. UU.: http://dataju.cn/Dataju/web/datasetInstanceDetail/139
- Ex-derechos y ex-dividendos de acciones de Shanghái y Shenzhen, asignación de datos completos de emisión adicionales, al 31 de diciembre de 2016 http://dataju.cn/Dataju/web/datasetInstanceDetail/344
- Datos diarios del tablero principal de la Bolsa de Valores de Shanghái, a partir del 5 de mayo de 2017, precio original, precio previo al restablecimiento, precio posterior al restablecimiento, 1260 acciones http://dataju.cn/Dataju/web/datasetInstanceDetail/340
- Los datos de línea diarios del tablero principal de la Bolsa de Valores de Shenzhen, a partir del 5 de mayo de 2017, precio original, precio previo al restablecimiento, precio posterior al restablecimiento, 466 acciones http://dataju.cn/Dataju/web/datasetInstanceDetail/341
- Datos diarios de la junta SZSE SME, al 5 de mayo de 2017, precio original, precio previo al restablecimiento, precio posterior al restablecimiento, 852 acciones http://dataju.cn/Dataju/web/datasetInstanceDetail/342
- Datos diarios de Shenzhen ChiNext, al 5 de mayo de 2017, precio original, precio previo al restablecimiento, precio posterior al restablecimiento, 636 acciones http://dataju.cn/Dataju/web/datasetInstanceDetail/343
- Datos diarios de acciones A de Shanghái, desde 1999.12.09 hasta 2016.06.08, antes del restablecimiento, 1095 acciones http://dataju.cn/Dataju/web/datasetInstanceDetail/37
- Datos diarios de acciones A de Shenzhen, 1999.12.09 a 2016.06.08, antes del restablecimiento, 1766 acciones http://dataju.cn/Dataju/web/datasetInstanceDetail/38
- Datos diarios de GEM de la Bolsa de Valores de Shenzhen, 1999.12.09 a 2016.06.08, antes del restablecimiento, 510 acciones http://dataju.cn/Dataju/web/datasetInstanceDetail/39
- Datos históricos de transacciones de divisas de la plataforma MT4 http://dataju.cn/Dataju/web/datasetInstanceDetail/43
- Datos históricos de transacciones de divisas de la plataforma Forex http://dataju.cn/Dataju/web/datasetInstanceDetail/67
- Varios conjuntos de datos de ticks de transacciones de divisas http://dataju.cn/Dataju/web/datasetInstanceDetail/44
6.18 Conjunto de datos de tráfico
- Datos de conducción de taxis de Nueva York en 2013 http://dataju.cn/Dataju/web/datasetInstanceDetail/348
- Datos de conducción de taxis en Chicago en 2013 http://dataju.cn/Dataju/web/datasetInstanceDetail/355
- Datos del piloto automático de Udacity http://dataju.cn/Dataju/web/datasetInstanceDetail/356
- Datos de recogida de Uber en Nueva York [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/76
- Datos de accidentes automovilísticos británicos (2005-2015) [datos de Kaagle] http://dataju.cn/Dataju/web/datasetInstanceDetail/323
- Datos de exceso de velocidad de automóviles en Chicago [datos de Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/86
- Datos de la tarea de conducción autónoma de KITTI [los datos son demasiado grandes y solo una parte] http://dataju.cn/Dataju/web/datasetInstanceDetail/210
- Datos de anotación de escenas de paisajes urbanos [los datos son demasiado grandes y solo una parte] http://dataju.cn/Dataju/web/datasetInstanceDetail/210
- Datos de reconocimiento de señales de tráfico alemanas http://dataju.cn/Dataju/web/datasetInstanceDetail/232
- Datos de reconocimiento de señales de tráfico http://dataju.cn/Dataju/web/datasetInstanceDetail/228
- Chicago Divvy compartió datos sobre andar en bicicleta (2013 al presente) http://dataju.cn/Dataju/web/datasetInstanceDetail/228
- Datos de conducción de bicicletas compartidas en Chattanooga, EE. UU . http://dataju.cn/Dataju/web/datasetInstanceDetail/270
- Datos de uso compartido de bicicletas del Área de la Bahía http://dataju.cn/Dataju/web/datasetInstanceDetail/338
- Nice Ride compartió datos de conducción de bicicletas http://dataju.cn/Dataju/web/datasetInstanceDetail/339
- Citibank compartió datos sobre andar en bicicleta http://dataju.cn/Dataju/web/datasetInstanceDetail/325
- Uso de datos satelitales para rastrear trayectorias humanas en la selva amazónica [competencia Kaggle] http://dataju.cn/Dataju/web/datasetInstanceDetail/358
- Datos oficiales de viajes de la Comisión de Gestión de Taxis de Nueva York (2009-2016) http://dataju.cn/Dataju/web/datasetInstanceDetail/359
6.19 Datos Comerciales
- Información abierta sobre alojamiento en familias de Airbnb y datos de reseñas de huéspedes http://dataju.cn/Dataju/web/datasetInstanceDetail/360
- Datos de revisión de alimentos de Amazon http://dataju.cn/Dataju/web/datasetInstanceDetail/361
- Datos de evaluación y ventas de videojuegos en EE. UU. http://dataju.cn/Dataju/web/datasetInstanceDetail/309
- Predicción de datos de competencia de alquiler de apartamentos http://dataju.cn/Dataju/web/datasetInstanceDetail/208
- Datos de la competencia de recomendación de productos bancarios http://dataju.cn/Dataju/web/datasetInstanceDetail/213
- Datos de competencia de predicción de clics de recomendación de usuario del sitio web http://dataju.cn/Dataju/web/datasetInstanceDetail/319
6.20 Datos médicos
- Datos de imágenes de resonancia magnética del cerebro cuando las personas reconocen objetos http://dataju.cn/Dataju/web/datasetInstanceDetail/99
- Datos de imágenes de resonancia magnética del cerebro cuando las personas entienden palabras http://dataju.cn/Dataju/web/datasetInstanceDetail/101
- Imágenes cardíacas auriculares y datos etiquetados http://dataju.cn/Dataju/web/datasetInstanceDetail/100
- Identificación de citopatología http://dataju.cn/Dataju/web/datasetInstanceDetail/98
- Datos de imagen de lesión de fondo de retina FIRE http://dataju.cn/Dataju/web/datasetInstanceDetail/290
- Introducción al almacén de datos sobre el cáncer iniciado por el Instituto Nacional del Cáncer del Departamento de Salud y Servicios de EE. UU. [Solo una introducción] http://dataju.cn/Dataju/web/datasetInstanceDetail/250
- Data Science Bowl 2017 Lung Cancer Recognition Competition Datos [Los datos son demasiado grandes para presentarlos solos] http://dataju.cn/Dataju/web/datasetInstanceDetail/258
- Datos de imagen de TC de cáncer de pulmón TCGA-LUAD http://dataju.cn/Dataju/web/datasetInstanceDetail/261
- Imagen de TC de cáncer de pulmón RIDER Lung CT http://dataju.cn/Dataju/web/datasetInstanceDetail/275
- Datos de imagen de TC de cáncer TCGA-COAD http://dataju.cn/Dataju/web/datasetInstanceDetail/284
- Datos de imagen de TC de cáncer TCIA-TCGA-OV http://dataju.cn/Dataju/web/datasetInstanceDetail/283
- Datos de imagen de resonancia magnética del cáncer TCIA RIDER NEURO http://dataju.cn/Dataju/web/datasetInstanceDetail/287
- Datos de imagen de resonancia magnética de cáncer de mama de bestia QIN http://dataju.cn/Dataju/web/datasetInstanceDetail/291
6.21 Datos de video (movimiento humano, detección de objetos, multitud densa, etc.)
- DAVIS_Datos de segmentación de video con anotaciones densas http://dataju.cn/Dataju/web/datasetInstanceDetail/147
- Conjunto de datos de video YouTube-8M [Los datos son demasiado grandes y solo una introducción] http://dataju.cn/Dataju/web/datasetInstanceDetail/133
- Copia de seguridad de video del sitio web de YouTube [los datos son demasiado grandes, solo una introducción] http://dataju.cn/Dataju/web/datasetInstanceDetail/134
6.22 Video de acción humana
- Datos de video de acción humana de Microsoft Research Action http://dataju.cn/Dataju/web/datasetInstanceDetail/144
- UCF50 Reconocimiento de acción datos de reconocimiento de acción http://dataju.cn/Dataju/web/datasetInstanceDetail/135
- UCF101 Reconocimiento de acción datos de reconocimiento de acción http://dataju.cn/Dataju/web/datasetInstanceDetail/136
- Datos de video de acción humana de UT-Interacción http://dataju.cn/Dataju/web/datasetInstanceDetail/137
- Datos del sensor de iPhone UCF en movimiento http://dataju.cn/Dataju/web/datasetInstanceDetail/148
- Datos de video de acción humana de YouTube de UCF http://dataju.cn/Dataju/web/datasetInstanceDetail/125
- Datos de video de acción humana de UCF Sport http://dataju.cn/Dataju/web/datasetInstanceDetail/126
- Datos de video de acción humana UCF-ARG http://dataju.cn/Dataju/web/datasetInstanceDetail/141
- Video de acción humana de HMDB http://dataju.cn/Dataju/web/datasetInstanceDetail/157
- Datos de video de acción humana de HOLLYWOOD2 http://dataju.cn/Dataju/web/datasetInstanceDetail/146
- Reconocimiento de datos de video de acción de acciones humanas http://dataju.cn/Dataju/web/datasetInstanceDetail/244
- Datos de video de captura de movimiento de captura de movimiento http://dataju.cn/Dataju/web/datasetInstanceDetail/245
- SBU Kinect Interacción datos de video de movimiento corporal http://dataju.cn/Dataju/web/datasetInstanceDetail/246
6.23 Vídeo de detección de objetos
- Datos de video de peatones de UCSD http://dataju.cn/Dataju/web/datasetInstanceDetail/247
- Datos de video de peatones peatonales de Caltech http://dataju.cn/Dataju/web/datasetInstanceDetail/248
- Datos de video de peatones ETH http://dataju.cn/Dataju/web/datasetInstanceDetail/223
- Datos de video de peatones INRIA http://dataju.cn/Dataju/web/datasetInstanceDetail/159
- Datos de video de peatones de TudBrussels http://dataju.cn/Dataju/web/datasetInstanceDetail/151
- Datos de video de peatones de Daimler http://dataju.cn/Dataju/web/datasetInstanceDetail/150
- Datos de vídeo de seguimiento de objetos ALOV++ http://dataju.cn/Dataju/web/datasetInstanceDetail/152
6.24 Video de Multitud Densa
- Recuento de multitudes Imágenes de multitudes de alta densidad http://dataju.cn/Dataju/web/datasetInstanceDetail/156
- Segmentación de multitudes Datos de video de multitudes de alta densidad http://dataju.cn/Dataju/web/datasetInstanceDetail/243
- Seguimiento en multitudes de alta densidad Video de multitudes de alta densidad http://dataju.cn/Dataju/web/datasetInstanceDetail/200
6.25 Otros vídeos
- Datos de video de detección de incendios http://dataju.cn/Dataju/web/datasetInstanceDetail/186
- Conjunto de datos de logotipo LOGO grande (500 000) https://data.vision.ee.ethz.ch/cvl/lld/
- Conjunto de datos de escaneo 4D (escaneo 3D de objetos no rígidos en movimiento a 60 fps) [D-FAUST] http://dfaust.is.tue.mpg.de
- Conjunto de datos sintéticos de conteo visual basado en MNIST Conteo MNIST http://fomoro.com/tools/counting-mnist/
- Conjunto de datos de video de YouTube MV [Keunwoo Choi] https://github.com/keunwoochoi/YouTube-music-video-5M
- Conjunto de datos de etiquetado de atributos animales [Christoph H. Lampert/Daniel Pucher/JohannesDostal] http://cvml.ist.ac.at/AwA2/
- Conjunto de datos de video de danza aérea http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/
- Conjunto de datos de video e-VDS https://engineering.purdue.edu/elab/eVDS/#download
- Modelo de generación de retratos de ropa (&Chictopia10K[HumanParsing] Conjunto de datos de análisis de retratos de moda)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】http://files.is.tue.mpg.de/classner/gp/
- Segmentación de objetivos por píxeles del conjunto de datos VOC2012 implementado por PyTorch [BodoKaiser] https://github.com/bodokaiser/piwise
- Conjunto de datos de video interactivo y movimiento complejo de objetos de veinte mil millones de neuronas [Nikita Johnson]
6.26 Datos de audio
- Datos de audio de Google Audioset [los datos son demasiado grandes y solo una introducción] http://dataju.cn/Dataju/web/datasetInstanceDetail/164
- Sinhala TTS Reconocimiento de voz en inglés http://dataju.cn/Dataju/web/datasetInstanceDetail/251
- TIMIT Datos de reconocimiento de voz en inglés americano http://dataju.cn/Dataju/web/datasetInstanceDetail/252
- Datos de voz del corpus LibriSpeech ASR http://dataju.cn/Dataju/web/datasetInstanceDetail/194
- Respuesta al impulso de la habitación y datos de voz de ruido http://dataju.cn/Dataju/web/datasetInstanceDetail/191
- ALFFA Datos de voz africanos http://dataju.cn/Dataju/web/datasetInstanceDetail/96
- THUYG-20 Datos de voz uigur http://dataju.cn/Dataju/web/datasetInstanceDetail/96
- Reconocimiento de voz de AMI Corpus http://dataju.cn/Dataju/web/datasetInstanceDetail/96
- NSynth: conjunto de datos de audio etiquetado con notas de alta calidad a gran escala https://magenta.tensorflow.org/datasets/nsynth
- Conjunto de datos de sonidos de aves [xeno-canto] http://www.xeno-canto.org
- (TensorFlow) AudioSet Audio Event Dataset Clasificación Modelo GitHub: tensorflow/models/tree/master/audioset
6.27 Recopilación de datos de texto, evaluación y respuesta
- (200,000) Conjunto de datos de chistes en inglés [TaivoPungas] https://github.com/taivop/joke-dataset
- Preguntas y respuestas sobre la industria de seguros de aprendizaje automático Conjunto de datos abiertos [HainWang] https://github.com/shuzi/insuranceQA
- Conjunto de datos de respuesta a preguntas (QA) de la industria de seguros [Minwei Feng] https://github.com/shuzi/insuranceQA
- Conjunto de datos de etiquetado de relación semántica de entidad/sustantivo [David S. Batista] https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets
- 28 000 artículos/100 000 preguntas a gran escala (prueba de inglés) conjunto de datos de comprensión de lectura https://github.com/qizhex/RACE_AR_baselines
- Conjunto de datos con errores ortográficos http://www.dcs.bbk.ac.uk/~ROGER/corpora.html
- Conjunto de datos de simplificación de texto http://www.cs.pomona.edu/~dkauchak/simplification/
- Conjunto de datos de anotación de marco de palabra/oración/marco semántico en inglés FrameNet https://framenet.icsi.berkeley.edu/fndrupal/
- Conjunto de datos de detección de similitud de texto entre idiomas/estilo múltiple/granularidad múltiple https://github.com/FerreroJeremy/Cross-Language-Dataset
- Conjunto de datos de Quora: 400 000 filas de preguntas potencialmente duplicadas http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv
- Conjunto de datos de clasificación de texto http://disi.unitn.it/moschitti/corpora.htm
- Marcos: conjunto de datos de diálogo de Maluuba https://datasets.maluuba.com/Frames/dl
- Conjunto de datos de opinión de dominio cruzado (Amazon Product Reviews) http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
- Evaluación del sistema de aprendizaje automático de la web semántica/conjunto de datos de referencia http://dws.informatik.uni-mannheim.de
- Conjunto de datos de reconocimiento de caracteres de impresión xilográfica japonesa http://t.cn/RCZPfYB
- Conjuntos de datos de referencia para evaluar algoritmos de aprendizaje automático supervisados https://github.com/EpistasisLab/penn-ml-benchmarks
- Nuevo conjunto de datos de YELP: contiene 4,7 millones de reseñas y 156 000 comerciantes http://t.cn/RNG6JYi
- Conjunto de datos de preguntas duplicadas/aproximadas de StackExchange http://nlp.cis.unimelb.edu.au/resources/cqadupstack/
- Conjunto de datos de respuesta a preguntas científicas AI2 (opciones múltiples) http://t.cn/RI5liwJ
6.28 Conjuntos de datos de investigación
- Datos de competencia de selección de atributos de NIPS 2003 http://dataju.cn/Dataju/web/datasetInstanceDetail/370
- El profesor Lin Zhiren de la Universidad Nacional de Taiwán procesa datos de modelos de clasificación en formato LibSVM http://dataju.cn/Dataju/web/datasetInstanceDetail/296
- Datos de modelado de clasificación a gran escala http://dataju.cn/Dataju/web/datasetInstanceDetail/297
- Datos de modelado de clasificación a gran escala en varias UCI http://dataju.cn/Dataju/web/datasetInstanceDetail/298
- Informática social http://dataju.cn/Dataju/web/datasetInstanceDetail/299
- Repositorio de datos datos de redes sociales http://dataju.cn/Dataju/web/datasetInstanceDetail/300
6.29 Conjuntos de datos sociales
- Filtración de correo electrónico de Hillary Clinton http://dataju.cn/Dataju/web/datasetInstanceDetail/267
- Datos de registros delictivos de Chicago desde 2001 http://dataju.cn/Dataju/web/datasetInstanceDetail/267
- Datos de antecedentes penales de Chattanooga, EE. UU. (2003 al presente) http://dataju.cn/Dataju/web/datasetInstanceDetail/353
- Datos de licencia de Sidewalk Café en la temporada de Chicago Street Café http://dataju.cn/Dataju/web/datasetInstanceDetail/358
- Datos de resultados de la inspección sanitaria de restaurantes de Chicago http://dataju.cn/Dataju/web/datasetInstanceDetail/351
- Conjuntos de datos GPS de varias ubicaciones y rutas de movimiento humano (ciclismo, carrera, etc.) http://dataju.cn/Dataju/web/datasetInstanceDetail/352
6.30 Síntesis de otros conjuntos de datos
- Resumen del conjunto de datos de ciencia de datos/aprendizaje automático https://elitedatascience.com/datasets
- CORe50: Conjunto de datos de reconocimiento continuo de objetivos [VincenzoLomonaco&DavideMaltoni] https://vlomonaco.github.io/core50/
- (Matlab) Descubrimiento automático de distribución estadística de conjuntos de datos [Isabel Valera] http://proceedings.mlr.press/v70/valera17a.html
- (Edificio) Conjunto de datos de evaluación de daños [tsunami] https://github.com/faiton713/ABCDdataset
- Conjunto de datos de gráficos sociales de IndieWeb [IndieWeb] http://www.indiemap.org
- DeepMind entorno de código abierto/conjunto de datos/recopilación de códigos [DeepMind] https://deepmind.com/research/open-source/
- Repositorio de conjuntos de datos de Wolfram https://datarepository.wolframcloud.com
- Gran conjunto de datos de análisis de música FMA https://github.com/mdeff/fma
- (3 millones) Conjunto de datos de compras de comestibles en línea de Instacart [Jeremy Stanley] https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
- Conjunto de datos financieros sintéticos para la detección de fraudes [TESTIMON] https://www.kaggle.com/ntnu-testimon/paysim1
- Clasificación de formato LIBSVM/regresión/etiqueta múltiple/conjunto de datos de cadenas https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html
- Las computadoras portátiles usan regresión logística para ajustar conjuntos de datos de 100 G [Dmitriy Selivanov] http://dsnotes.com/post/2017-02-07-large-data
- 2010-2017 La revisión de la competencia KDD CUP más completa y el conjunto de datos http://suo.im/2kRoQ1
- Conjunto de datos de recetas: más de 20 000 recetas con calificaciones, nutrición e información de categoría [HugoDarwood] https://www.kaggle.com/hugodarwood/epirecipes
- Oscar Dataset [Academia de Artes y Ciencias Cinematográficas] https://www.kaggle.com/theacademy/academy-awards
- Conjunto de datos de agrupamiento https://cs.joensuu.fi/sipu/datasets/
- Conjunto oficial de datos climáticos abiertos https://pan.baidu.com/s/1i52Xarb
- Conjunto de datos de ataques terroristas globales [START Consortium] https://www.kaggle.com/START-UMD/gtd
- Siete conjuntos de datos de series temporales de aprendizaje automático https://machinelearningmastery.com/time-series-datasets-for-machine-learning/
- Conjunto de datos de probabilidades de carreras de caballos http://t.cn/RNf0tXN
- Edición especial del conjunto de datos JMIR "Datos JMIR" http://t.cn/RCIhmvS
- Clasificación del conjunto de datos de ingresos del censo https://github.com/dformoso/sklearn-classification
- Conjunto de datos de comportamiento binario multimodal http://t.cn/RCzFn1g
- Conjunto de datos del juego StarCraft de Facebook (TorchCraft legible/365 GB/más de 60 000 juegos/1500 millones de fotogramas/casi 500 millones de operaciones de usuario) http://t.cn/R9j8AUM
- Colección de documentos/conjuntos de datos/herramientas de aprendizaje automático (japonés) http://t.cn/RKV7x2A
- Diez estrategias de recopilación de datos para empresas de aprendizaje automático http://t.cn/R54rtvd
- Conjunto de datos de palabras similares japonesas http://t.cn/RaVFV35
- Conjunto de datos de cloze (comprensión de lectura de opción múltiple) basado en humanos a gran escala http://t.cn/Rac2Pey
- Lista de conjuntos de datos gratuitos de alta calidad http://t.cn/R6B1aqa
- Conjunto de datos de Microsoft MS MARCO, "ImageNet" en el campo de la comprensión lectora http://t.cn/RIMqGBK
7 conjuntos de datos abiertos del gobierno
Conjunto de datos del gobierno europeo https://data.europa.eu/euodp/data/dataset
Conjunto de datos del gobierno de EE. UU . https://www.data.gov/
Conjunto de datos del gobierno de Nueva Zelanda https://catalogue.data.govt.nz/dataset
Conjunto de datos del gobierno indio https://data.gov.in/
Conjunto de datos públicos de Irlanda del Norte https://www.opendatani.gov.uk/