Reconocimiento de imágenes tan fácil 丨 Interpretación del conjunto de datos de clasificación de imágenes clásicas CIFAR-10

Hoy, me gustaría presentar un conjunto de datos de clasificación de imágenes clásico: CIFAR-10 , que se usa ampliamente en la evaluación comparativa de algoritmos de visión por computadora en el campo del aprendizaje automático. Aunque después de más de 10 años de desarrollo, el problema de identificación de este conjunto de datos se ha "resuelto", y muchos modelos pueden lograr fácilmente una precisión de clasificación del 80 %.La precisión de clasificación de la red neuronal convolucional de aprendizaje profundo en el conjunto de datos de prueba también puede estar en Más del 90%, con buen rendimiento. Pero sigue siendo una buena opción para muchos principiantes, echemos un vistazo.

Tabla de contenido

1. Introducción al conjunto de datos

2. Detalles del conjunto de datos

3. Definición e introducción de la tarea del conjunto de datos

4. Interpretación de la estructura de archivos del conjunto de datos

5. Descarga del conjunto de datos


1. Introducción al conjunto de datos

Editor: Universidad de Ciencias de la Computación de Toronto

Tiempo de lanzamiento: 2009

fondo:

La esencia de CIFAR-10 es una parte llamada [el conjunto de datos de 80 millones de imágenes diminutas] (conjunto de datos de "80 millones de imágenes pequeñas"), que es un subconjunto del conjunto de datos. Debido a que los datos incluían algún contenido controvertido, se han eliminado de los estantes.

Introducción:

CIFAR10 es un pequeño conjunto de datos para el reconocimiento universal de objetos compilado por los estudiantes de Hinton, Alex Krizhevsky e Ilya Sutskever. El conjunto de datos CIFAR-10 contiene 60000 imágenes en color de 32x32 divididas en 10 clases con 6000 imágenes por clase.

2. Detalles del conjunto de datos

1. Volumen de datos de etiquetas

Conjunto de entrenamiento: 50.000 imágenes

Conjunto de prueba: 10000 imágenes

2. Categoría de etiquetado

El conjunto de datos tiene un total de 10 categorías. La clasificación específica se muestra en la Figura 1.

3. Visualización

(Figura 1)

3. Definición e introducción de la tarea del conjunto de datos

1.  Clasificación de imágenes

● Definición de tareas

La clasificación de imágenes es un método de reconocimiento de patrones para clasificar diferentes imágenes en función de la información semántica en el campo de la visión artificial.

●  Indicadores de evaluación

Precisión :

n_correct/n_total, la proporción de muestras con predicciones de etiquetas correctas para todas las muestras.

Precisión de una determinada categoría :

TP/(TP+FP), entre las muestras pronosticadas como esta categoría, cuántas muestras se pronostican correctamente.

Retirada de una determinada categoría :

TP/(TP+FN), en las muestras de esta categoría, cuantas muestras se predicen correctamente.

Nota: En los indicadores de evaluación anteriores, TP significa Verdadero Positivo, FP significa Falso Positivo, FN significa Falso Negativo, n_correcto representa el número de todas las muestras pronosticadas y n_total representa el número de todas las muestras.

4. Interpretación de la estructura de archivos del conjunto de datos

1. Estructura del directorio del conjunto de datos

dataset_root/├── batches.meta            #记录分类信息的元文件├── data_batch_1            #训练集1├── data_batch_2            #训练集2├── data_batch_3            #训练集3├── data_batch_4            #训练集4├── data_batch_5            #训练集5├── readme.html             #README文件└── test_batch              #测试集文件

2. Formato de archivo de anotación

Dado que cada imagen en el conjunto de datos es una imagen RGB de 32X32, el conjunto de datos no almacena directamente el archivo de imagen, pero almacena todas las imágenes en cada conjunto de datos a través de una matriz bidimensional numpy y registra el nombre de archivo correspondiente. 

Usando el código de descarga proporcionado por el sitio web oficial, se pueden analizar los datos en archivos como data_batch_1.

pitón3:

def unpickle(file):import picklewithopen(file, 'rb') as fo:dict = pickle.load(fo, encoding='bytes')return dict

pitón2:

def unpickle(file):import cPicklewithopen(file, 'rb') as fo:dict = cPickle.load(fo)return dict

Después del análisis, el diccionario obtenido se divide en cuatro partes, una es el número del conjunto de entrenamiento, la otra es el número de clasificación de cada imagen, la tercera es la matriz numérica compuesta por todas las imágenes y la cuarta es la lista de archivos. nombres

En la lista de etiquetas, la categoría de clasificación correspondiente a cada valor:

En la lista de datos, se almacena la información de todas las imágenes de este lote. Array es una matriz numpy bidimensional de 10000X3072, cada fila almacena la información RGB de una imagen. En la matriz unidimensional de cada fila, los primeros 1024 datos registran la información del canal R de la imagen, los 1024 datos del medio registran la información del canal G de la imagen y los últimos 1024 datos registran la información del canal B.

Entre los 1024 datos de cada canal de información, 32 se utilizan como grupo, y cada grupo registra el valor de 32 puntos de píxel de cada fila de la imagen. El primer conjunto de 32 valores registra el valor de píxel de la primera fila de la imagen, el segundo conjunto de 32 valores registra el valor de píxel de la segunda línea de la imagen y así sucesivamente.

3. Formato de metainformación

El archivo batches.meta registra los valores de las variables categóricas y la información de comparación de las categorías correspondientes.Después de analizar el código proporcionado, el resultado del diccionario es:

5. Descarga del conjunto de datos

La plataforma OpenDataLab le brinda información completa del conjunto de datos del conjunto de datos CIFAR-10, estadísticas intuitivas de distribución de datos, velocidad de descarga fluida y scripts visuales convenientes.Bienvenido a la experiencia. Haga clic en el enlace original para verlo.

https://opendatalab.org.cn/CIFAR-10

Referencias

[1] Sitio web oficial: http://www.cs.toronto.edu/~kriz/cifar.html

[2] Descarga del conjunto de datos: http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz

Autor丨Du Kunming

Hay un hombre sabio, todas las cosas prosperan

- Fin -

Lo anterior es este intercambio, productos secos más emocionantes de conjuntos de datos, que no debe perderse. Si hay algo más que quieras ver, ven y díselo al pequeño asistente. Hay más conjuntos de datos en los estantes, una interpretación de contenido de conjuntos de datos más completa, las preguntas y respuestas en línea más poderosas, el círculo de pares más activo... Bienvenido a agregar WeChat opendatalab_yunying para unirse al grupo de comunicación oficial de OpenDataLab.

Supongo que te gusta

Origin blog.csdn.net/OpenDataLab/article/details/127787645
Recomendado
Clasificación