Interpretación y reproducción de papel inglés (sci): detección en tiempo real de enfermedades de la hoja de manzano en escenarios naturales basado en YOLOv5

Para la mejora del algoritmo de detección de objetivos, pero a qué tipo de escena se aplica, qué método de mejora se necesita para que sea efectivo para su propia escena de aplicación y qué nivel de artículos se pueden publicar con cuántos puntos de mejora, para poder resolver la confusión de todos, esta serie de artículos tiene como objetivo explicar a todos Publicar artículos SCI en revistas académicas de alto nivel e introducir las revistas SCI correspondientes
inserte la descripción de la imagen aquí

Resumen

Con el objetivo de resolver el problema de la localización e identificación precisas de enfermedades heterogéneas y multiescala de la hoja del manzano en contextos complejos en escenarios naturales, se propuso un método de detección de la enfermedad de la hoja del manzano basado en el modelo YOLOv5s mejorado. En primer lugar, el modelo utiliza la red piramidal de funciones bidireccionales (BiFPN) para realizar de manera eficiente la fusión de funciones a escala múltiple; luego, se agregan el transformador y el mecanismo de atención del módulo de atención de bloque convolucional (CBAM) para reducir la interferencia de información de fondo no válida y mejorar la capacidad de expresión. de las características de la enfermedad y mejorar la precisión y recuperación del modelo. Los resultados experimentales muestran que el modelo BTC-YOLOv5s propuesto (con un tamaño de modelo de 15,8 M) puede detectar eficazmente 4 tipos de enfermedades de la hoja de manzano en escenarios naturales con una precisión media (mAP) del 84,3 %. Usando una CPU de ocho núcleos, el modelo puede procesar 8,7 imágenes de hojas por segundo en promedio. En comparación con los modelos de detección clásicos como SSD, Faster R-CNN, YOLOv4-tiny y YOLOx, el valor de mAP de este modelo ha aumentado un 12,74 %, 48,84 %, 24,44 % y 4,2 %, respectivamente, con una mayor precisión de detección y una detección más rápida. velocidad. Además, el modelo es resistente a condiciones de ruido intenso, como luz intensa, luz tenue e imágenes borrosas, con un valor de mAP superior al 80 %. En resumen, el nuevo BTC-YOLOv5s tiene las características de peso ligero, alta precisión y alta eficiencia, y es adecuado para su aplicación en dispositivos móviles. Este método puede brindar apoyo técnico para la intervención temprana y el control de las enfermedades de las hojas de manzano.

I. Introducción

La manzana es una de las cuatro frutas populares en el mundo, es rica en nutrición y tiene un importante valor medicinal. En China, la producción de manzanas continúa expandiéndose y se ha convertido en el mayor productor de manzanas del mundo. Sin embargo, una variedad de enfermedades obstaculizan el crecimiento saludable de las manzanas, afectan seriamente la calidad y el rendimiento de las manzanas y causan pérdidas económicas significativas. Según las estadísticas, hay alrededor de 200 tipos de enfermedades de la manzana, la mayoría de las cuales ocurren en el área de la hoja de la manzana.

Por lo tanto, para garantizar el desarrollo saludable de la industria de la plantación de manzanas, es necesario tomar medidas precisas y eficientes de identificación y control de enfermedades de las hojas. En la tecnología tradicional de identificación de enfermedades, los fruticultores y los expertos confían principalmente en la experiencia para la inspección visual, que es ineficiente y altamente subjetiva. Con el desarrollo de la informática y la tecnología de la información, la tecnología de reconocimiento de imágenes se ha aplicado gradualmente al campo de la agricultura. Muchos investigadores han aplicado algoritmos de visión artificial para extraer características como el color, la forma y la textura de las imágenes de enfermedades y las han ingresado en clasificadores específicos para completar las tareas de identificación de enfermedades de las plantas. Zhang y otros utilizaron modelos HSI, YUV y en escala de grises para procesar imágenes de la enfermedad de la manzana, luego, los autores usaron un algoritmo genético y una selección de características basada en la correlación para extraer las características, y finalmente usaron clasificadores SVM para clasificar el mildiú polvoroso de la manzana, la enfermedad del mosaico y la roya. Después de la identificación, la tasa de precisión del reconocimiento alcanzó el 90%, lo que no solo aumenta considerablemente el costo de la mano de obra y el tiempo, sino que también permite la promoción y popularización del sistema.

En los últimos años, la red neuronal convolucional de aprendizaje profundo se ha utilizado ampliamente en la detección inteligente agrícola, que tiene una velocidad de detección más rápida y una mayor precisión en comparación con la tecnología de visión artificial tradicional [5]. Existen dos tipos de modelos de detección de objetivos: el primero es un algoritmo de detección de dos etapas representado por R-CNN[6] y Faster R-CNN[7]. Xie y otros [8] utilizaron el modelo de detección Faster R-CNN mejorado para la detección en tiempo real de enfermedades de la hoja de uva e introdujeron tres módulos (Inception v1, Inception-ResNet-v2 y SE) en el modelo, la precisión promedio ( mAP) alcanzó el 81,1%. Deng y otros [9] propusieron un método para la detección y localización a gran escala del tizón del pino utilizando tecnología de inteligencia artificial y sensores remotos UAV, y realizaron una serie de optimizaciones para aumentar la precisión de detección al 89,1 %. Zhang y otros [10] diseñaron un modelo Faster R-CNN (MF3R-CNN) de fusión de funciones múltiples para la detección de enfermedades de la hoja de soja, con una tasa de precisión promedio del 83,34 %. Wang y otros [11] utilizaron el modelo RFCN ResNet101 para detectar defectos en la superficie de la papa con una tasa de precisión del 95,6 %. Este modelo de detección de dos etapas puede identificar enfermedades de los cultivos, pero su modelo de red es enorme y la velocidad de detección es lenta, por lo que es difícil de aplicar a la industria de la plantación real.

Otro algoritmo de detección de objetos es un algoritmo de una etapa representado por las series SSD [12] y YOLO [13-16]. A diferencia del algoritmo de detección de dos etapas, no necesita generar tramas candidatas. Al transformar el problema de los límites en un problema de regresión, las características extraídas de la red se utilizan para predecir la ubicación y la categoría de la lesión. Debido a su alta precisión, alta velocidad, corto tiempo de entrenamiento y bajos requisitos computacionales, es más adecuado para aplicaciones agrícolas. Wang y otros [17] utilizaron el modelo SSD-MobileNet V2 para detectar raspaduras y grietas en la superficie del litchi y finalmente lograron un resultado de detección del 91,81 % mAP y 102 fotogramas por segundo (FPS). Chang-Hwan y otros [18] propusieron un nuevo modelo YOLO de atención mejorada en experimentos para identificar y detectar enfermedades foliares de las plantas. Li y otros [19] mejoraron los módulos CSP, Feature Pyramid Network (FPN) y Non-Maximum Suppression (NMS) en YOLOv5 para detectar cinco enfermedades vegetales y obtuvieron un 93,1 % de mAP, lo que redujo efectivamente el ruido causado por fondos complejos. falsos positivos. En un entorno de huerto complejo, Jiang y otros [20] propusieron un modelo YOLOX mejorado para detectar la madurez de las cerezas dulces. En el proceso de mejora del modelo, el mAP y la tasa de recuperación aumentaron en un 4,12 % y un 4,6 % respectivamente, lo que resolvió de manera efectiva la interferencia causada por la superposición de frutos y la oclusión de ramas y hojas. Li y otros [21] utilizaron el modelo YOLOv5n mejorado para detectar enfermedades del pepino en el entorno natural. El desarrollo de la detección inteligente de enfermedades de los cultivos mediante algoritmos de detección de objetos de una sola etapa es cada vez más maduro, pero hay pocos estudios sobre la detección de enfermedades de la hoja del manzano. Los conjuntos de datos pequeños y los fondos de imágenes simples plantean problemas para la mayoría de los estudios existentes. Por lo tanto, es crucial desarrollar un modelo de detección de la enfermedad de la hoja del manzano con alta precisión de reconocimiento y rápida velocidad de detección para dispositivos móviles con capacidad informática limitada.

Teniendo en cuenta el entorno de plantación complejo y las diversas formas de lesiones en los huertos de manzanos, este estudio propone un algoritmo de detección de objetos mejorado basado en YOLOv5s. El algoritmo tiene como objetivo reducir las detecciones falsas causadas por puntos de enfermedad de múltiples escalas, puntos de enfermedad densos y características indistintas en la tarea de detección de enfermedades de la hoja de manzano. Por lo tanto, se puede mejorar la precisión y la eficiencia del modelo, y se puede proporcionar el soporte técnico necesario para la identificación de enfermedades de la hoja de manzano y la gestión inteligente del huerto.

2. Materiales y métodos

2.1 Materiales

2.1.1 Adquisición de datos y etiquetado

En este estudio, se utilizaron tres conjuntos de datos para entrenar y evaluar el modelo propuesto: Plant Pathology Challenge 2020 (FGVC7) [22] dataset, Plant Pathology Challenge 2021 (FGVC8) [23] dataset y PlantDoc [24] Dataset.

FGVC7 y FGVC8 [22,23] consisten en imágenes de la enfermedad de la hoja del manzano utilizadas en el Concurso de Clasificación Visual de Grano Fino de Fitopatología patrocinado por Kaggle. Las fotos fueron tomadas por Cornell AgriTech con una cámara Canon Rebel T5i DSLR y un teléfono inteligente, y cada foto tiene una resolución de 4000 × 2672 píxeles. Hay cuatro tipos de enfermedades de la hoja de la manzana, a saber, la roya, la mancha de la hoja del ojo de rana, el mildiu polvoriento y el tizón de la cabeza. Estas enfermedades ocurren con frecuencia y causan pérdidas significativas en la calidad y el rendimiento de la manzana. En la Figura 1 se muestra una imagen de muestra del conjunto de datos.
inserte la descripción de la imagen aquí
PlantDoc [24] es un conjunto de datos de imágenes que no son de laboratorio para la detección visual de enfermedades de las plantas construido por Davinder Singh et al. en 2020. Contiene 2598 imágenes de enfermedades de plantas en escenarios naturales, que involucran 13 tipos de plantas y hasta 17 tipos de enfermedades. La mayoría de las imágenes en PlantDoc son de baja resolución, ruidosas y tienen tamaños de muestra insuficientes, lo que dificulta la detección. En este estudio, se utilizaron imágenes de la roya de la manzana y del tizón de la cabeza para mejorar y validar la generalización del modelo propuesto. A continuación se muestran ejemplos de imágenes de enfermedades.
inserte la descripción de la imagen aquí
De los conjuntos de datos recopilados, seleccionamos (1) imágenes con intensidad de luz que varía con el tiempo, (2) imágenes con diferentes ángulos de disparo, (3) imágenes con diferentes intensidades de enfermedad, (4) imágenes con diferentes imágenes de las etapas de la enfermedad para garantizar la riqueza y diversidad del conjunto de datos. Finalmente, se seleccionaron un total de 2099 imágenes de la enfermedad de la hoja del manzano.
Utilice el software LabelImg para clasificar y marcar imágenes, incluido el tipo de enfermedad, las coordenadas del centro, el ancho y la altura de cada lesión. Anotamos un total de 10727 instancias de lesiones, y las anotaciones se muestran en la Tabla 1. El conjunto de datos etiquetados se divide aleatoriamente en conjunto de entrenamiento y conjunto de prueba de acuerdo con la proporción de 8:2. Este conjunto de datos se llama ALDD (datos de enfermedad de la hoja de manzana) y se utiliza para entrenar y probar el modelo.

inserte la descripción de la imagen aquí

2.1.2 Aumento de datos

El entorno real del huerto de manzanos es complejo y hay muchos factores de interferencia, por lo que los datos seleccionados actualmente están lejos de ser suficientes. Para enriquecer el conjunto de datos de imágenes, elegimos el aumento de imágenes de mosaico [16] y el aumento de datos en línea para ampliar el conjunto de datos. La mejora de la imagen de mosaico consiste en seleccionar aleatoriamente 4 imágenes del conjunto de entrenamiento, rotarlas, escalarlas y ajustar el tono, y finalmente fusionarlas en una sola imagen. Este método no solo enriquece el fondo de la imagen y aumenta el número de instancias, sino que también mejora indirectamente el tamaño del lote. Esto acelera la velocidad de entrenamiento del modelo, lo que es beneficioso para mejorar el rendimiento de detección de objetos pequeños. El aumento en línea consiste en aplicar el aumento de datos al entrenamiento del modelo para garantizar la invariancia del tamaño de la muestra y la diversidad de la muestra general, y mejorar la solidez del modelo mediante la expansión continua del espacio muestral. Incluye principalmente el cambio de tono, saturación, transformación de brillo, traducción, rotación, volteo y otras operaciones. El número total de conjuntos de datos es constante; sin embargo, la cantidad de entrada de datos para cada lote es variable, lo que favorece más la rápida convergencia del modelo. En la Figura 3 se muestra un ejemplo de una imagen mejorada
inserte la descripción de la imagen aquí

2.2 Método

2.2.1 modelo YOLOV5s

Según la profundidad de la red y el ancho del mapa de características, YOLOv5 se puede dividir en YOLOv5s, YOLOv5m, YOLOv5l y YOLOv5x [25]. A medida que aumentan la profundidad y el ancho, aumenta el número de capas de la red y la estructura se vuelve más compleja. Para cumplir con los requisitos de implementación ligera y detección en tiempo real, reducir el espacio de almacenamiento ocupado por el modelo y mejorar la velocidad de reconocimiento, este estudio elige YOLOv5s como modelo de referencia.

YOLOv5s consta de cuatro partes: entrada, columna vertebral, cuello y predicción.
La parte de entrada incluye el aumento de datos de unión, el cálculo adaptativo del cuadro de anclaje y el escalado adaptativo de la imagen. El módulo backbone realiza la extracción de características y consta de cuatro partes: Focus, CBS, C3 y Spatial Pyramid Pooling (SPP). En YOLOv5s, hay dos tipos de módulos C3 [26] para columna y cuello, como se muestra en la Fig. 4. El primero utiliza las unidades residuales de la capa principal, mientras que el segundo no. SPP utiliza núcleos de convolución de diferentes tamaños para realizar una agrupación máxima en mapas de características para fusionar múltiples campos de percepción y generar información semántica. La capa del cuello utiliza una combinación de (FPN) [28] y Path Aggregation Network (PANet) [29] para fusionar las características de la imagen. La predicción consta de tres capas de detección correspondientes a mapas de características de 20 × 20, 40 × 40 y 80 × 80 para detectar objetos grandes, medianos y pequeños. Finalmente, se utiliza la función de pérdida CIOU (intersección completa sobre unión) [30] para calcular la distancia entre el cuadro predicho y el cuadro real, y se aplica NMS para eliminar los cuadros redundantes, y se retiene el cuadro de detección con la mayor confianza. El modelo de red YOLOv5s se muestra en la figura
modelo de red YOLOv5s

2.2.2 Red piramidal de características bidireccional (red piramidal de características bidireccional)

YOLOv5s combina FPN y PANet para la fusión de características de múltiples escalas. FPN mejora la información semántica de arriba hacia abajo, y PANet mejora la información de posición de abajo hacia arriba. Esta combinación mejora la capacidad de fusión de características de la capa cervical. Sin embargo, cuando se fusionan funciones de entrada de diferentes resoluciones, las funciones simplemente se agregan y su contribución a las funciones de salida fusionadas suele ser injusta.

Para abordar este problema, Tan y otros [31] desarrollaron BiFPN basado en conexiones eficientes bidireccionales entre escalas y fusión ponderada de características multiescala. El algoritmo introduce pesos que se pueden aprender para conocer la importancia de las diferentes características de entrada y aplica iterativamente la fusión de características de múltiples escalas de arriba hacia abajo y de abajo hacia arriba. La estructura de BiFPN se muestra en la Figura 5

inserte la descripción de la imagen aquí
Dado que no se realiza ninguna fusión de características, el algoritmo elimina los nodos con solo un borde de entrada. Dado que contribuye poco al objetivo de la red de fusionar diferentes características, se elimina, simplificando la red bidireccional. Además, se agrega un borde adicional entre los nodos de entrada y salida de la misma capa para obtener características de fusión de mayor nivel a través de la superposición iterativa. El algoritmo presenta un mecanismo de fusión de características ponderado simple y eficiente, al agregar pesos que se pueden aprender para asignar diferentes grados de importancia a los mapas de características de diferentes resoluciones. Las fórmulas se muestran en (1) y (2):

inserte la descripción de la imagen aquí
Donde Pi in es la característica de entrada de la capa i-ésima, Pi td es la característica intermedia de la ruta de arriba hacia abajo de la capa i-ésima, Pi out es la característica de salida de la ruta de abajo hacia arriba de la capa i-ésima, w es el peso aprendible, # = 0.0001 Para evitar valores pequeños con valores inestables, Resize es una operación de downsampling o upsampling, y Conv es una operación de convolución.

La capa de cuello con BiFPN aumenta la fusión de características de múltiples escalas para proporcionar información semántica poderosa para la red. Ayuda a detectar enfermedades de la hoja de manzano de diferentes tamaños y alivia el reconocimiento inexacto de la red de objetos superpuestos y ambiguos.

2.2.3 Bloque codificador de transformador (bloque codificador de transformador)

Alta densidad de lesiones en hojas de manzano. Para evitar el problema de que el número de lesiones y la información de fondo aumentan después de la mejora de los datos de mosaico, lo que resulta en la incapacidad de ubicar con precisión el área donde se encuentra la lesión, se agrega un mecanismo de atención Transformador [32] al final de la columna vertebral capa. El módulo Transformer se utiliza para capturar información de contexto global y establecer dependencias de largo alcance entre canales de características y objetivos de enfermedades. El módulo Transformer Encoder utiliza un mecanismo de autoatención para explorar las capacidades de representación de características y funciona bien en escenarios de alta densidad [33]. Se diseña un mecanismo de autoatención basado en los principios de la visión humana, y los recursos se asignan de acuerdo con la importancia de los objetos visuales. El mecanismo de autoatención tiene un campo sensorial global, modela información contextual de largo alcance, captura información semántica global rica y asigna diferentes pesos a información semántica diferente, haciendo que la red preste más atención a la información clave [34]. La fórmula de cálculo es (3), que incluye tres elementos básicos de consulta, clave y valor, representados por Q, K y V respectivamente.
inserte la descripción de la imagen aquí
donde dk es el número de secuencias de canales del mapa de características de entrada, utilizando datos normalizados para evitar el incremento del gradiente.

Cada codificador de transformador consta de una red neuronal de atención y alimentación de varios cabezales. La estructura del mecanismo de atención multicabezal se muestra en la Figura 6.

Se diferencia del mecanismo de autoatención en que el mecanismo de autoatención usa solo un conjunto de valores Q, K y V, mientras que usa múltiples conjuntos de valores Q, K y V para calcular y concatenar múltiples matrices. Diferentes transformaciones lineales tienen diferentes espacios vectoriales, lo que puede ayudar a los códigos actuales a enfocarse en el píxel actual y obtener información semántica sobre el contexto [35]. El mecanismo de atención de múltiples cabezas mejora la capacidad de extraer características de la enfermedad y mejora el rendimiento de detección del modelo al capturar información dependiente de larga distancia sin aumentar la complejidad computacional.
inserte la descripción de la imagen aquí

2.2.4 Módulo de atención de bloque convolucional (módulo de atención de bloque convolucional)

Determinar el tipo de enfermedad depende más de la información local en el mapa de características, mientras que la ubicación de la lesión depende más de la información de ubicación. El modelo utiliza el mecanismo de atención CBAM [36] en el YOLOV5 mejorado para ponderar las características en el espacio y los canales, y mejorar la atención del modelo a la información local y espacial.

Como se muestra en la Fig. 7, CBAM consta de dos submódulos: Módulo de atención de canal (CAM) y Módulo de atención espacial (SAM), que se utilizan para la atención espacial y de canal respectivamente. El mapa de características de entrada F ∈ RC×H×W primero se somete a la operación de convolución unidimensional Mc ∈ RC×1×1 de CAM, y el resultado de la convolución se multiplica por la característica de entrada. Luego, la salida de la CAM se toma como entrada y se realiza la operación de convolución bidimensional Ms ∈ R1×H×W en la SAM, y luego el resultado se multiplica por la salida de la CAM para obtener el resultado final. La fórmula de cálculo se muestra en (4) y (5).
inserte la descripción de la imagen aquí
En la fórmula, F es el mapa de características de entrada, Mc es la operación de convolución unidimensional de CAM, Ms es la operación de convolución bidimensional de SAM y ⨂ es la multiplicación de elementos CAM en CBAM presta atención a los pesos de diferentes
inserte la descripción de la imagen aquí
canales y multiplica los pesos correspondientes por canales para aumentar el enfoque en los canales importantes.

El promedio y la agrupación máxima se realizan en el mapa de características F de tamaño H × W × C para obtener dos mapas de canales de 1 × 1 × C respectivamente, y luego se realizan dos capas de operaciones de percepción multicapa compartida (MLP). Las dos salidas se agregan por elementos y luego se aplica la función de activación sigmoidea para generar el resultado final. El proceso de cálculo se muestra en la fórmula (6).

Mc(F) = s(MLP(AvgPool(F)) + MLP(MaxPool(F))) (6) Se puede ver en la fórmula (7) que SAM presta más atención a la información de ubicación de las lesiones. La salida CAM se promedia y se agrupa al máximo para obtener dos mapas de canales de H' × W' × 1. Conecte los dos mapas de características y luego realice una operación de convolución de 7 × 7 y una función de activación sigmoidea para obtener el resultado final.

2.2.5 Modelo de detección BTC-YOLOv5s

Basado en las ventajas originales del modelo YOLOv5s, este estudio propone un algoritmo BTC-YOLOv5s mejorado para la detección de la enfermedad de la hoja del manzano. Al tiempo que garantiza la velocidad del programa, mejora la precisión de la identificación de enfermedades de la hoja de manzano en un entorno complejo. El algoritmo se mejora principalmente a partir de tres partes: BiFPN, transformador y mecanismo de atención CBAM. Primero, el módulo CBAM se agrega antes del SPP de la capa troncal de YOLOv5s para resaltar la información útil en la tarea de detección de enfermedades y suprimir la información inútil, mejorando así la precisión de detección del modelo. En segundo lugar, reemplazar el módulo C3 con el módulo C3TR con un transformador mejora la capacidad de extraer las características de enfermedades de las hojas de manzana. Tercero, reemplazamos la capa concat con una capa BiFPN y agregamos la ruta de la capa 6 a la capa 20. Las funciones generadas por la misma red troncal están conectadas bidireccionalmente con las funciones generadas por FPN y PANet para brindar capacidades de representación de información más sólidas. La Figura 8 muestra el marco general del modelo BTCYOLOv5s de este estudio.
inserte la descripción de la imagen aquí

2.3 Entorno experimental y configuración de parámetros

Los modelos se entrenan y prueban en un sistema Linux que se ejecuta bajo el marco de aprendizaje profundo PyTorch 1.10.0, utilizando las siguientes especificaciones del dispositivo: Procesador Intel® Xeon® E5-2686 v4 a 2,30 GHz, memoria de 64 gb, tarjeta gráfica NVIDIA GeForce RTX3090, video de 24 gb memoria. El software se ejecuta en cuda 11.3, cudnn 8.2.1 y python 3.8.

Durante el proceso de entrenamiento, la tasa de aprendizaje inicial se establece en 0,01 y la tasa de aprendizaje se reduce utilizando la estrategia de recocido de coseno. Los parámetros de la red neuronal se optimizaron mediante el descenso de gradiente estocástico (SGD), con un valor de momento de 0,937 y una puntuación de índice de caída de peso de 0,0005. La época de entrenamiento es 150, el tamaño del lote de imágenes se establece en 32 y la resolución de la imagen de entrada se redimensiona uniformemente a 640 × 640. La Tabla 2 muestra los parámetros de entrenamiento ajustados.

inserte la descripción de la imagen aquí

2.4 Indicadores de Evaluación del Modelo

Los indicadores de evaluación se dividen en dos aspectos: evaluación del desempeño y evaluación de la complejidad. Las métricas de evaluación del rendimiento del modelo incluyen precisión, recuperación, mAP y puntaje F1. Los indicadores de evaluación de la complejidad del modelo incluyen el tamaño del modelo, las operaciones de coma flotante (FLOP) y FPS, que se utilizan para evaluar la eficiencia computacional y la velocidad de procesamiento de imágenes del modelo.

La precisión es la relación entre las muestras positivas pronosticadas correctamente y el número total de muestras positivas previstas como positivas, que se utiliza para medir la capacidad de clasificación del modelo, mientras que la recuperación es la relación entre las muestras positivas pronosticadas correctamente y el número total de muestras positivas. . AP es la integral de precisión y recuperación, y mAP es el valor promedio de AP, que refleja el rendimiento general del modelo en la detección y clasificación de objetos. La puntuación F1 es la media armónica de precisión y recuperación, y utiliza tanto la precisión como la recuperación para evaluar el rendimiento del modelo. La fórmula de cálculo se muestra en la fórmula (8)-(12).
inserte la descripción de la imagen aquí

En la fórmula, TP es el número de muestras positivas detectadas correctamente, FP es el número de muestras positivas detectadas incorrectamente y FN es el número de muestras negativas detectadas incorrectamente.

El tamaño del modelo se refiere a la cantidad de memoria requerida para almacenar el modelo. FLOPs se utiliza para medir la complejidad del modelo, que es el número total de operaciones de multiplicación y suma realizadas por el modelo. Cuanto más bajo sea el valor de FLOP, menos cálculo se requerirá para la inferencia del modelo y más rápida será la velocidad de cálculo del modelo.

La fórmula de FLOP se muestra en la fórmula (13) y la fórmula (14). FPS representa la cantidad de imágenes procesadas por el modelo por segundo, lo que puede evaluar la velocidad de procesamiento y es crucial para la detección de enfermedades en tiempo real. Teniendo en cuenta que el modelo se puede implementar en dispositivos móviles y el costo computacional es bajo, se elige para la prueba una CPU de ocho núcleos sin tarjeta gráfica.

inserte la descripción de la imagen aquí
En la fórmula, Cin es el canal de entrada, Cout es el canal de salida, K es el tamaño del kernel de convolución, Wout y Hout son el ancho y el alto del mapa de características de salida, respectivamente.

3. Resultados

3.1 Evaluación del desempeño

El modelo BTC-YOLOv5s se verificó utilizando el conjunto de pruebas ALDD construido. Además, los mismos parámetros de optimización se utilizan para la comparación con el modelo de referencia de YOLOv5s. Como se muestra en la Tabla 3, la puntuación AP del modelo mejorado para la mancha foliar del ojo de rana es similar a la del modelo original, mientras que el rendimiento de detección de las otras tres enfermedades mejora significativamente. Vale la pena señalar que el tizón de la cabeza con lesiones de forma irregular es el problema más fácil de detectar, y el modelo mejorado tiene un aumento del 3,3 % en AP, que es la mayor mejora. Estos resultados demuestran que el modelo propuesto detecta eficazmente las cuatro enfermedades con mayor precisión.

inserte la descripción de la imagen aquí
La Figura 9 muestra los resultados de la evaluación de precisión, recuperación, [email protected] y [email protected]:0.95 del modelo de referencia YOLOv5s y el modelo mejorado BTC-YOLOv5s entrenados para 150 épocas.

En la Figura 9 se puede ver que después de 50 épocas, las curvas de precisión y recuperación fluctúan en un rango estrecho, pero la curva BTC-YOLOv5s siempre es más alta que la curva del modelo de referencia. A partir de la curva [email protected], se puede ver que la curva [email protected] del modelo mejorado se cruza con el modelo de referencia alrededor de 60 épocas.

Aunque el [email protected] del modelo de referencia aumenta rápidamente en la etapa inicial, el modelo BTC-YOLOv5s mejora constantemente en la etapa posterior con mejores resultados. La curva [email protected]:0.95 también muestra un comportamiento similar.

Debido a la distribución pequeña y densa de las enfermedades de la hoja de manzano, para verificar aún más la precisión del modelo BTC-YOLOv5s, el conjunto de prueba se dividió en dos grupos según la densidad de la enfermedad, es decir, la distribución escasa de enfermedades y la distribución densa de enfermedades. Comparamos los resultados de detección del modelo de referencia y el modelo mejorado. El mAP@0,5 del modelo BTCYOLOv5s para imágenes de lesiones escasas y densas es del 87,3 % y el 81,4 %, respectivamente, que es un 1,7 % y un 0,7 % más alto que el modelo de referencia.

inserte la descripción de la imagen aquí
Como se muestra en la Figura 10, los círculos amarillos indican no detección y los círculos rojos indican detección falsa. Se puede ver que el modelo de referencia YOLOv5s pasa por alto lesiones pequeñas o borrosas independientemente de si las lesiones son escasas o densas (primera fila de imágenes en la Fig. 10a,b). Sin embargo, el modelo mejorado resuelve este problema, detectando pequeñas lesiones o enfermedades en las hojas que están desenfocadas (segunda fila de imágenes en la Fig. 10a,b). Además, el modelo BTC-YOLOv5s tiene un mayor nivel de confianza. El modelo de línea de base también detecta erróneamente partes que no están dañadas, como manzanas, fondos y otros objetos irrelevantes (Fig. 10(b5)). El modelo mejorado puede centrarse más en las enfermedades, extraer las características de brecha entre diferentes enfermedades a un nivel más profundo y evitar los errores anteriores. La mancha foliar del ojo de rana, el tizón de la cabeza y la roya son menos dañinos y se distribuyen densamente en diferentes partes de las hojas, mientras que el mildiú polvoroso es más común en toda la hoja. Esto hace que la escala de la caja de detección del modelo cambie de grande a pequeña, y el modelo propuesto puede adaptarse bien a la variación de escala de diferentes enfermedades.

Por lo tanto, el modelo BTC-YOLOv5s no solo puede adaptarse a la detección de diferentes distribuciones de enfermedades, sino también adaptarse a los cambios de enfermedades de la hoja de manzano de diferentes escalas y características, mostrando excelentes resultados de detección.
inserte la descripción de la imagen aquí

3.2 Análisis de los resultados del experimento de ablación

En este estudio, se verifica la efectividad de diferentes módulos de optimización a través de experimentos de ablación. Agregamos secuencialmente el módulo BiFPN (BF), el módulo de transformador (TR) y el módulo de atención CBAM al modelo de referencia YOLOv5s, construimos múltiples modelos mejorados y comparamos los resultados en los mismos datos de prueba. Los resultados experimentales se muestran en la Tabla 4.

En la Tabla 4, la precisión del modelo de referencia YOLOv5s es del 78,4 % y mAP@0,5 es del 82,7 %. Al agregar tres módulos de optimización, a saber, el módulo BiFPN, el módulo Transformador y el módulo de atención CBAM, tanto la precisión como el [email protected] mejoran en comparación con el modelo de referencia. Entre ellos, la precisión aumentó un 3,3 %, 3,3 % y 1,1 %, respectivamente, y mAP@0,5 aumentó un 0,5 %, 1 % y 0,2 %, respectivamente. La combinación final de los tres módulos de optimización logra los mejores resultados y la precisión alcanza el valor máximo, [email protected] y [email protected]:0.95, que son un 5,7 %, 1,6 % y 0,1 % más altos que el modelo de referencia, respectivamente. A través de la fusión de información de canales cruzados e información espacial, el mecanismo de atención CBAM puede resaltar características importantes mientras suprime características irrelevantes.

Además, el módulo Transformer utiliza el mecanismo de autoatención para crear canales de características de largo alcance con características de enfermedades. El módulo BiFPN fusiona las características anteriores a través de escalas para mejorar el reconocimiento de objetos superpuestos y ambiguos. El modelo BTC-YOLOv5s logra el mejor rendimiento debido a la combinación de tres módulos.
inserte la descripción de la imagen aquí

3.3 Análisis del Mecanismo de Atención

Para evaluar la efectividad del módulo del mecanismo de atención CBAM, conservamos otras estructuras del modelo BTC-YOLOv5s como configuración de parámetros experimentales, y solo reemplazamos el módulo CBAM con otros mecanismos de atención convencionales como SE[37], CA[38] , módulos ECA[39] para comparación.

En la Tabla 5, podemos ver que el mecanismo de atención puede mejorar significativamente la precisión del modelo. El [email protected] de los modelos SE, CA, ECA y CBAM alcanzó el 83,4 %, 83,6 %, 83,6 % y 84,3 %, respectivamente, que fueron 0,4 %, 0,6 %, 0,6 % y 1,3 % superiores a los YOLOv5s + Modelo BF+TR. Cada mecanismo de atención mejora [email protected] en diversos grados, entre ellos, el modelo CBAM es el que mejor se comporta alcanzando un 84.3%, que es 0.9%, 0.7% y 0.7% superior a los modelos SE, CA y ECA respectivamente. 0,95 es también cuatro El más alto entre los mecanismos de atención. Los mecanismos de atención de SE y ECA solo consideran la información del canal en los mapas de características, mientras que los mecanismos de atención de CA usan información posicional para codificar las relaciones de los canales. Por el contrario, el mecanismo de atención CBAM combina la atención espacial con la atención del canal, enfatizando la información sobre las características de la enfermedad en los mapas de características, lo que es más propicio para el reconocimiento y la localización de la enfermedad.

inserte la descripción de la imagen aquí
Además, el módulo de atención no aumenta el tamaño del modelo ni los FLOP, lo que indica que es un módulo liviano. El modelo BTC-YOLOv5s con el módulo CBAM mejora la precisión del reconocimiento manteniendo el mismo tamaño de modelo y costo computacional.

3.4 Comparación con modelos de última generación

Seleccione el modelo de detección de dos etapas convencional actual Faster R-CNN y los modelos de detección de una etapa SSD, YOLOv4 Tiny y YOLOx-s para experimentos comparativos. El conjunto de datos ALDD se usa para entrenamiento y prueba, y los parámetros experimentales son los mismos para todos los modelos. Los resultados experimentales se muestran en la Tabla 6

inserte la descripción de la imagen aquí

En todos los modelos, las puntuaciones [email protected] y F1 de Faster R-CNN son inferiores al 50 % El tamaño del modelo es grande y el cálculo pesado, lo que da como resultado un FPS de solo 0.16, que no es adecuado para la detección en tiempo real de enfermedades de la hoja de manzano. El valor [email protected] del modelo SSD de detección de etapa única es 71.56 % y el tamaño del modelo es de 92.1 MB, lo que no cumple con los requisitos de detección en términos de precisión y complejidad del modelo. En la serie de modelos YOLO, la tasa de precisión [email protected] de YOLOv4-tiny es solo del 59,86 %, lo cual es demasiado bajo. YOLOx-s logra 80,1 % mAP@0,5, pero FLOP es 26,64 G, solo 4,08 imágenes por segundo. Tampoco son buenos para implementaciones móviles. El modelo BTC-YOLOv5s propuesto tiene los puntajes [email protected] y F1 más altos entre todos los modelos, que son 12.74 %, 48.84 %, 24.44 % y 4.2 % más altos que SSD, Faster R-CNN, YOLOv4-tiny, yoloox-s, y YOLOv5s, respectivamente, % y 1,6%. El tamaño del modelo y los FLOP son similares al modelo de referencia, y el FPS alcanza los 8,7 fotogramas por segundo, lo que cumple con la detección en tiempo real de enfermedades de la hoja de manzana en escenas reales.

Como se muestra en la Figura 11, el modelo BTC-YOLOv5s supera a los otros cinco modelos en términos de precisión de detección. Además, el tamaño del modelo, la cantidad de cálculo y la velocidad de detección del modelo BTC-YOLOv5s son comparables a otros modelos livianos. En resumen, el rendimiento general del modelo BTC-YOLOv5s es excelente y puede completar con precisión y eficiencia la tarea de detección de la enfermedad de la hoja de la manzana en escenarios reales.
inserte la descripción de la imagen aquí

3.5 Prueba de robustez

En la producción real, la detección de enfermedades de la hoja del manzano puede verse interferida por varios factores ambientales objetivos, como la sobreexposición, la poca luz y la baja resolución de la imagen. En este estudio, las imágenes del conjunto de prueba se simularon mediante métodos como mejorar el brillo, reducir el brillo y agregar ruido gaussiano, y se obtuvieron un total de 1191 imágenes (397 imágenes para cada caso). Evaluamos la solidez del modelo BTC-YOLOv5s optimizado en varios entornos de perturbaciones para determinar su eficacia de detección. Además, probamos la capacidad del modelo para detectar enfermedades concurrentes agregando 50 imágenes que contienen múltiples enfermedades. Los resultados experimentales se muestran en la Figura 12.

inserte la descripción de la imagen aquí
A partir de los resultados de la detección, el modelo puede detectar con precisión imágenes de la mancha foliar del ojo de rana, la roya y el mildiu polvoriento en condiciones de luz intensa, poca luz y ruido borroso, y faltan pocas detecciones. Las costras también se identificaron correctamente, pero se produjo cierto grado de error en condiciones de poca luz y borrosas. Esto se debe principalmente a que las lesiones de gibberella aparecen negras y el fondo general de la imagen es similar en color a las lesiones con poca luz. Como se muestra en la quinta fila de la Figura 12, el modelo también demuestra la capacidad de detectar imágenes concurrentes, aunque algunas detecciones faltantes ocurren en condiciones borrosas. Los resultados experimentales han conseguido un mAP superior al 80%. En general, el modelo BTC-YOLOv5s aún exhibe una gran robustez en condiciones extremas, como imágenes borrosas y poca luz.

4. Discusión

4.1 Detección multiescala

Dado que las enfermedades de la hoja del manzano varían en tamaño, la detección a múltiples escalas es una tarea desafiante. En este estudio, la mancha foliar ojo de rana, la sarna y la roya eran generalmente pequeñas y densas, mientras que el mildiú polvoroso era una lesión completa distribuida en las hojas.

La escala del tamaño de la mancha que debe detectarse en relación con la imagen completa puede variar mucho entre imágenes e incluso dentro de la misma imagen. Para resolver este problema, este estudio introduce BiFPN en YOLOv5s basado en la idea de fusión de características de múltiples escalas para mejorar la capacidad del modelo. BiFPN apila todo el marco de la pirámide de características varias veces, lo que proporciona una poderosa capacidad de representación de características para la red. También realiza la fusión de características ponderadas, lo que permite que la red aprenda la importancia de las diferentes características de entrada. En el campo de la detección agrícola, la detección multiescala ha sido un tema de investigación candente. Por ejemplo, Li y otros [21] realizaron la detección de enfermedades de múltiples escalas en pepino al agregar un conjunto de anclas que coincidían con instancias pequeñas. Cui y otros [40] adoptaron una red piramidal de características inspirada en la compresión para fusionar información de múltiples escalas, y solo mantuvieron cabezales de detección de 26 × 26 para la detección de piñas. Sin embargo, la investigación actual aún enfrenta el desafío de una caída significativa en la precisión de detección de objetos muy grandes o muy pequeños. La investigación futura se centrará en explorar cómo aplicar el modelo a los puntos de enfermedad en diferentes escalas.

4.2 Mecanismo de atención

El mecanismo de atención asigna pesos a las características de la imagen extraídas por el modelo, lo que permite que la red se enfoque en las regiones de destino con información importante, mientras suprime otra información irrelevante, lo que reduce la interferencia del fondo irrelevante en los resultados de la detección. La introducción del mecanismo de atención puede mejorar efectivamente la capacidad de aprendizaje de características de los modelos de detección, y muchos investigadores lo incorporan en sus estudios para mejorar el rendimiento del modelo. Por ejemplo, Liu y otros [41] agregaron el módulo de atención SE a YOLOX para mejorar la extracción de los detalles de las características de las cápsulas de algodón. Bao y otros [42] agregaron la atención mixta bidimensional (DDMA) al modelo de detección Neck, que paraleliza la atención coordinada, la atención del canal y la atención espacial para reducir las fugas debido a la distribución densa de la detección de hojas y la detección falsa. En este estudio, el mecanismo de atención CBAM se utiliza para mejorar la capacidad de extracción de características del modelo BTC-YOLOv5s. CBAM consta de dos módulos, SAM y CAM, y la precisión del uso de estos dos submódulos solos es del 83,2 % y 83,1 %, que es inferior al rendimiento del modelo que utiliza CBAM. Dado que SAM y CAM son solo módulos separados de atención espacial y de canal, y CBAM combina los dos, considera la información útil de los canales característicos y las dimensiones espaciales al mismo tiempo, lo que hace que el modelo sea más propicio para la localización e identificación de lesiones.

4.3 Perspectiva

Aunque el modelo propuesto puede identificar con precisión las enfermedades de la hoja de manzano, todavía hay algunos problemas que merecen atención e investigación adicional. Primero, el conjunto de datos utilizado en este estudio contiene imágenes de solo cuatro tipos de enfermedades, de un total de aproximadamente 200 enfermedades de la manzana. Por lo tanto, los estudios futuros incluirán imágenes de más especies y diferentes etapas de la enfermedad. En segundo lugar, en el caso de enfermedad densa, la precisión del modelo no es buena y la precisión del modelo cae significativamente en comparación con el rendimiento en el caso disperso. Los resultados de la detección mostraron que la costra tenía la tasa de error más alta, principalmente debido a su forma irregular y su límite indistinto, lo que interfería con la detección del modelo. En el futuro, la enfermedad de la sarna se considerará como un tema de investigación independiente para mejorar la precisión de detección del modelo.

conclusión V

Con el objetivo de resolver los problemas de las diferentes formas, las escalas múltiples y la distribución densa de las manchas de la enfermedad de la hoja del manzano, se propuso un modelo de detección mejorado BTC-YOLOv5s basado en YOLOv5s. Para mejorar el rendimiento de detección general del modelo YOLOv5s original, este estudio presenta el módulo BiFPN, que aumenta la fusión de características de múltiples escalas y proporciona más información semántica. Además, se agregan módulos de atención Transformer y CBAM para mejorar la capacidad de extraer características de la enfermedad. Los resultados muestran que la precisión del modelo BTCYOLOv5s en el equipo de prueba ALDD es mAP@0,5, alcanzando el 84,3 %, el tamaño del modelo es de 15,8 M y la velocidad de detección en el dispositivo de CPU de ocho núcleos es de 8,7 FPS. Además, sigue manteniendo un buen rendimiento y robustez en condiciones extremas. El modelo mejorado tiene alta precisión de detección, alta velocidad de detección y baja carga de cálculo, y es adecuado para su implementación en dispositivos móviles para el monitoreo en tiempo real y el control inteligente de las enfermedades de las manzanas.

Nota: El texto original del documento proviene de Detección en tiempo real de enfermedades de la hoja de manzana en escenarios naturales
basado en YOLOv5. Este documento es solo para uso académico. Si hay alguna infracción, comuníquese con nosotros por mensaje privado para eliminarlo.

Supongo que te gusta

Origin blog.csdn.net/MacWx/article/details/132020098
Recomendado
Clasificación