Preparativos de reclutamiento de otoño: visión por computadora

¿Cuáles son las mejoras de Tensorflow 2.0 en comparación con 1.0 y cuál es la diferencia entre Pytorch y Tensorflow 2.0?

Respuesta: (1) Tensorflow1.0 tiene problemas como documentos e interfaces confusos, ocupando toda la memoria de todas las GPU de forma predeterminada, uso engorroso y dificultad para depurar; Tensorflow2.0 no necesita ejecutar sesiones, variables, marcadores de posición, uso operaciones gráficas dinámicas y depuración El proceso es simple y se puede diferenciar automáticamente.

Diferentes implementaciones: programación simbólica y programación imperativa

Tensorflow es una programación puramente simbólica con alta eficiencia operativa.

Pytorch es una programación imperativa pura, que es conveniente de implementar, pero la eficiencia de operación es baja.

Los gráficos se definen de manera diferente: definiciones dinámicas y estáticas

Tensorflow es un cálculo gráfico estático

Pytorch es un cálculo gráfico dinámico, que define, cambia y ejecuta nodos en cualquier momento. \\Más fácil de depurar, flexible

Visualización de entrenamiento de red

Una de las partes más atractivas de TensorFlow es TensorBoard, que puede ver claramente el gráfico de cálculo y la arquitectura de la red;

Pytorch no tiene herramientas como TensorBoard, pero Pytorch puede importar kits de herramientas como TensorBoardx o matplotlib para la visualización de datos.

¿Mejora de Yolov5 en comparación con yolov3, detalles y su estructura?

Yolov5 tiene cinco versiones de n, s, m, l, x, reducción de resolución de 32 veces, n6, s6, m6, l6, x6 para superresolución de 1280 × 1280, reducción de resolución de 64 veces.

backbone: El nuevo módulo de enfoque CSP-Darknet53 ha sido reemplazado por una convolución de 6×6, que es más eficiente;

CSP (Cross-Stage Partial Network) alivia los problemas computacionales

cuello: SPPF Nuevo módulo CSP-PAN SPP (módulo de agrupación de pirámide espacial)

SPP se convierte en SPPF, que pasa a través de múltiples grupos máximos de diferentes tamaños en paralelo y luego se fusiona; serializa múltiples capas de MaxPool de tamaño 5×5 y luego se fusiona; además, se agrega CSP a la estructura PAN.

cabeza: salida YOLOv3head, diferentes capas de características de salida predicen objetivos de diferentes tamaños

Escalado de imagen adaptativo

Mejora de datos: mosaico (mosaico), cuatro imágenes se combinan en una sola imagen; copiar pasado: pegar aleatoriamente algunos objetos en la imagen, los datos deben tener información de segmentación de instancia; zoom y panorámica; dos imágenes se fusionan de acuerdo con un cierto grado de transparencia Juntos.

Cálculo de caja de anclaje adaptable, entrenamiento multiescala

Funciones de activación: funciones de activación Leaky ReLU y Sigmoid.

Función de pérdida: CIOU se utiliza como función de pérdida de cuadro delimitador y solo calcula la pérdida de posicionamiento de muestras positivas;

BCE calcula la pérdida de probabilidad de la categoría de muestra positiva;

BCE calcula la pérdida de puntuación objetivo, que calcula la pérdida objetivo para todas las muestras.

Predicción de red cruzada (nuevo método de cálculo de pérdida)

¿Cómo se compara el vector propio de Seetaface, la distancia del coseno, qué más, cómo calcular la función de pérdida?

distancia coseno, distancia angular;

¿Cuáles son la poda de Yolov3, yolov3-tiny network, adelante y atrás de la red neuronal BP?

La red se divide en backbone: estructura de red Darknet-53, que consta de una serie de capas convolucionales de 1×1 y 3×3, cada capa convolucional incluirá una capa BN y LeakyReLu, la red tiene 53 capas convolucionales y la final A capa totalmente conectada es también una capa convolucional.

Cuello: use FPN para fusionar entidades de entrada multiescala; ninguna entidad profunda se fusiona con entidades poco profundas (PAN).

Cabeza:

Sin fusión de información de dimensiones relativamente bajas, es adecuado para predecir objetivos con tamaños relativamente grandes;

Combina información de dimensiones relativamente bajas y es adecuado para predecir objetivos de tamaño mediano;

Integra información de dimensiones relativamente bajas, retiene información más detallada en la imagen y es adecuada para predecir algunos objetivos de tamaño pequeño.

Parte perdida:

Sus pérdidas incluyen la pérdida de confianza (si hay un objetivo, pérdida de entropía cruzada binaria, Sigmoid), pérdida de clasificación (si pertenece a una categoría determinada, aún usa pérdida de entropía cruzada binaria, para tratar con escenas más complejas, Sigmoid), pérdida de posicionamiento (verdadero La suma de los cuadrados del valor de desviación y el valor de desviación previsto).

La red podada tiene una estructura más simple y solo dos salidas;

La dirección hacia adelante de la red neuronal de BP es multiplicar los pesos y sumar el desplazamiento, y la propagación hacia atrás es encontrar la derivada parcial.

Poda: Se divide en poda sináptica y poda neuronal de neuronas, y reentrenamiento tras poda.

¿Qué son los optimizadores?

El optimizador introducido para el procesamiento por lotes: SGD (susceptible al ruido de la muestra, puede caer en la solución óptima local); agrega impulso Momentum para suprimir de manera efectiva la influencia del ruido de la muestra.

Optimizador para la tasa de aprendizaje: Optimizador Adagrad (tasa de aprendizaje adaptable), la tasa de aprendizaje cae demasiado rápido y se detiene antes de que converja; luego se introduce el optimizador RMSProp para evitar que la tasa de aprendizaje caiga demasiado rápido y se agrega un coeficiente de atenuación; el El optimizador de Adam es más Una buena optimización de la tasa de aprendizaje adaptativo, agregando el impulso de primer orden y el impulso de segundo orden.

Pérdida de clasificación:

Hay pérdida de binarización (sigmoide), pérdida de entropía cruzada multivariada (SoftMax)

Qué función de pérdida usar para problemas de regresión:

Error cuadrático medio, error de valor absoluto medio.

Maneras de suprimir el sobreajuste:

Abandono, regularización, mejora de imagen (aumento de varios estilos de conjunto de entrenamiento, volteo, rotación, ruido)

El papel de la regularización: cuando se sobreajusta, el coeficiente de la función suele ser muy grande, y la regularización consiste en restringir la norma del parámetro para que no sea demasiado grande, por lo que reduce el sobreajuste hasta cierto punto. Regularización L1, distancia de valor absoluto; Regularización L2, distancia de diferencia cuadrática.

Mecanismos de atención comúnmente utilizados:

Atención de dominio espacial: la atención de área espacial se puede entender como dónde dejar que mire la red neuronal. A través del mecanismo de atención, la información espacial de la imagen original se transforma en otro espacio y se conserva la información clave.

Atención del canal: la atención del canal se puede entender como lo que está mirando la red neuronal, y el representante típico es SENet. Cada capa de la red convolucional tiene muchos núcleos de convolución, y cada núcleo de convolución corresponde a un canal de características.En comparación con el mecanismo de atención espacial, la atención del canal consiste en asignar recursos entre los canales de convolución, y la granularidad de asignación es mayor que la del mecanismo de atención espacial. anterior Un nivel más arriba.

SE, CA, CBAM, ECA

SE: Incluye principalmente dos partes de compresión y excitación,

Compresión: agrupación promedio global

Incentivo: Dos capas totalmente conectadas + función de activación, entre las que destaca SERadio como parámetro de escalado para reducir el número de canales.

Operación de escala: multiplicar los pesos de los canales aumentará la cantidad de cómputos y parámetros, pero la suma de los cómputos no es grande en la capa completamente conectada en comparación con la capa convolucional.

Gradientes que desaparecen y gradientes explosivos

Después de derivar la función de activación, se multiplica por el peso, cuando el resultado es mayor a 1, la explosión del gradiente ocurre cuando aumenta el número de capas, cuando el resultado es menor a 1, el gradiente desaparece cuando aumenta el número de capas . Función de activación sigmoidea, la prevalencia de la desaparición del gradiente.

solución:

a) Relu, leakrelu, elu y otras funciones de activación, la parte positiva siempre es igual a 1, y no habrá desaparición de gradiente y explosión; pero la parte compleja siempre es 0, lo que hará que algunas neuronas no se activen.

b) Normalización por lotes Normalización por lotes, a través de la normalización por lotes, la señal de salida se normaliza a una distribución normal con un valor medio de 0 y una varianza de 1, asegurando la estabilidad de la red y eliminando el impacto del escalado de peso.

c) Pre-entrenamiento más ajuste fino

La evolución de CNN

Lenet: 2 circunvoluciones y 3 capas totalmente conectadas, utilizadas por primera vez para el reconocimiento digital

AlexNet: El campeón de imagenet en 12 años, 5 circunvoluciones y 3 capas totalmente conectadas, múltiples circunvoluciones pequeñas en lugar de grandes, activación de relu, resuelve el problema del gradiente decimal, introduce abandono para evitar el sobreajuste del modelo y maximiza la agrupación.

ZF-net: campeón de Imaget en 2013, el kernel de convolución cambió de 11 a 7 y el tamaño de paso cambió de 4 a 2.

Vggnet: segundo lugar en Imagenet en 2014, red más profunda, apilamiento de múltiples núcleos de convolución pequeños

Googlenet: No. 1 en Imagenet en 2014, se introduce el módulo de inicio, diferentes núcleos de convolución tienen diferentes campos receptivos, el empalme significa la fusión de características de diferentes escalas, se usa agrupación promedio en lugar de la capa totalmente conectada, para evitar la desaparición de gradiente, agregar 2 Softmax auxiliares para gradiente de conducción directa

Resnet: introduce una estructura residual para resolver el problema de degradación de la extracción de características de red profunda; resuelve de manera efectiva el problema de la desaparición y explosión de gradientes durante el entrenamiento.

DenseNet: enlaces densos; propagación de mejora de funciones, reutilización de funciones, lo que reduce en gran medida la cantidad de parámetros.

Detección de objetivos

R-CNN más rápido, SSD, serie Yolo, Retainnet

Cuantización del modelo

La cuantificación del modelo se refiere a la compresión de parámetros, el aumento de la velocidad, la reducción del uso de memoria y la pérdida de precisión; aritmética cuantificada: convertir el modelo de Int32 a Int8 y usar Int8 para la inferencia. TensorFlow Lite implementa redes cuantificadas.

operador de convolución

El tamaño de la imagen de salida es W×W, el tamaño del kernel de convolución es F×F, el tamaño de paso es S y la cantidad de píxeles para el relleno es P, por lo que podemos obtener N=(W-F+2P )/S + 1 La matriz de características de salida es N×N. Agrupamiento: máximo, mínimo, media, mediana (menos utilizado).

Cálculo del campo receptivo

Puede pensar en la red VGG, que puede reemplazar el kernel de convolución de 5×5 al apilar dos kernels de convolución de 3×3, y reemplazar el kernel de convolución de 7×7 al apilar tres kernels de convolución de 3×3. F(i) = (F(i+1)-1)×Stride + Ksize, el campo receptivo de la capa i+1 menos 1 multiplicado por el tamaño del paso más el tamaño del kernel de convolución. Las formas de mejorar el campo receptivo son: 1. Apilamiento de múltiples núcleos de convolución, 2. Convolución de agujeros: use la tasa de expansión de convolución a para representar el grado de expansión de convolución. K = K+(k-1)*(a-1). Campo receptivo: 2^(a+2) -1 = 5. Función: Ampliar el campo receptivo y obtener información de contexto multiescala (superposición de núcleos de convolución dilatados con diferentes tasas de expansión), lo que puede reducir la cantidad de cálculo.

Introducción del proyecto de entrevista:

Solo se presentan dos proyectos de posgrado: reconocimiento del comportamiento de aseo de insectos, lectura de medidores de agua del barco

Semejanza del coseno, calcula la similitud de dos vectores, cuanto menor es el ángulo, mayor es la similitud, más cerca está el valor del coseno de 1.

Presente los puntos innovadores del documento:

1. Lectura del indicador de agua del barco: detección de la línea de flotación (detección de Yolov3), reconocimiento de caracteres del indicador de agua (Yolov3), innovación de aplicaciones, mejora de Yolov3

2. Reconocimiento del comportamiento de insectos: innovación de aplicaciones, detección de Yolov5, adición de mecanismo de atención, extracción de características espaciotemporales, clasificación ResNet. Innovación aplicada

3. Clasificación de piezas de carne de cerdo: innovación de aplicaciones, mejora de la red: principalmente para la mejora del mecanismo de atención agregado a la red de clasificación ResNet

4. Detección de entrada de plagas de botellas de insectos: tres métodos, flujo óptico denso, U-Net mejorado, mecanismo de atención Yolov5 plus mejorado (ECA funciona mejor). Aplicación innovadora, conteo de trampas para insectos.

5. Predicción del comportamiento y seguimiento de la trayectoria de las plagas de granos almacenados: hay detectores y rastreadores en DeepSort. El detector original es Faster R-CNN, que se puede mejorar a Yolov5. El rastreador contiene el algoritmo húngaro
y el filtro de Kalman. El primero es rastrear, y el último es El otro es actualización de ubicación (filtro de Kalman). ①La predicción del filtro de Kalman y la detección coinciden con éxito. Cada cuadro de imagen en el video se somete al filtro de Kalman para generar los cuadros delimitadores de la trayectoria predicha de todos los objetivos en el cuadro actual. De acuerdo con los resultados del detector, la detección está asociada con datos los cuadros delimitadores del cuadro actual Para obtener los resultados de detección correspondientes, haga coincidir los resultados de predicción del filtro de Kalman para actualizar el cuadro delimitador de la trayectoria de seguimiento estimada, y luego realice un seguimiento del siguiente cuadro y ejecute el proceso de observación, predicción y actualización coincidente en un bucle ② Fallo de coincidencia: el detector perdió la detección, lo que resultó en una falla de coincidencia; si se bloquea durante mucho tiempo y supera el número de coincidencias consecutivas, se perderá la pérdida de coincidencia y el seguimiento. Su solución: el IOU se calculará nuevamente para el segundo partido, lo que reduce la detección y el seguimiento heredados. Si falla la segunda coincidencia, se creará una nueva pista. Después de tres inspecciones coincidentes, si es un resultado coincidente, se agregará a la colección de pistas; de lo contrario, se marcará como una pista irreal y la pista se eliminará. si la coincidencia falla al final del ciclo de vida.

Resumen de la experiencia de la entrevista con el algoritmo de imagen Vivo:

La diferencia entre C y C++

(1) C es un lenguaje de programación estructurado orientado a procesos y C++ es un lenguaje orientado a objetos. C++ tiene tres características: encapsulación, herencia y polimorfismo. Agrega conversión de tipo obligatoria y admite clases de plantilla y funciones de plantilla.

(2) Estructura: C solo puede definir variables pero no funciones, sino punteros de funciones, y C++ puede definir funciones, modificadores, funciones virtuales y herencia.

(3) El lenguaje C tiene una biblioteca de funciones estándar, y aquellas con las mismas funciones se colocan en un archivo de encabezado. C++ tiene una estrecha integración con la mayoría de las funciones y tiene funciones API disponibles.

pensamiento orientado a objetos

OOP es un modelo de lenguaje de programación creado alrededor de objetos. Utiliza objetos y datos como componentes centrales. Los datos se dividen en campos de datos de objetos, y el contenido y el comportamiento de los objetos se pueden describir a través de declaraciones de métodos de clase.

La diferencia entre proceso e hilo.

(1) Un proceso es la unidad más pequeña de asignación de recursos y un subproceso es la unidad más pequeña de ejecución del programa.

(2) El proceso tiene su propio espacio de direcciones independiente. Cada vez que se inicia un proceso, el sistema asignará automáticamente un espacio de direcciones y establecerá una tabla de base de datos para mantener el segmento de código, el segmento de pila y el segmento de datos; los subprocesos comparten datos en el proceso y usa el mismo espacio de direcciones, por lo que el costo de CPU cambiando un subproceso es menor, y el costo de crear un subproceso también es menor.

(3) La comunicación entre hilos es más conveniente, los hilos bajo el mismo proceso comparten datos tales como variables globales y variables estáticas, y la comunicación entre procesos se lleva a cabo en forma de comunicación. Multithreading necesita resolver problemas de sincronización y exclusión mutua;

(4) Los programas multiproceso son más robustos. Mientras un subproceso muera en un programa multiproceso, todo el proceso morirá y la muerte de un proceso no afectará al otro proceso.

NMS suave

En el algoritmo NMS, la puntuación del marco de detección cuya IOU supera el umbral se establece directamente en 0, mientras que Soft-NMS atenúa su puntuación. Existen dos métodos de atenuación. El primero es usar el producto de 1-IOU y el puntaje como el valor atenuado, pero este método es ligeramente más bajo que el umbral o más alto que el umbral. Después del decaimiento de la penalización, el puntaje de clasificación se estropeará. Debe activarse. en IOU Función de penalización, IOU bajo tiene una función de penalización baja, y transiciones graduales en el medio, y se propone una función de penalización gaussiana.

detector de extremo a extremo

Puede referirse a un proceso de evolución de Faster R-CNN: el RCNN inicial se divide en cuatro pasos: selección de cuadro de candidatos (algoritmo de búsqueda de selección), extracción de características, clasificación SVM, regresión de cuadro delimitador; y luego Fast RCNN se divide en dos pasos : selección de caja de candidatos, extracción de características, proyección de caja de candidatos al mapa de características para obtener la matriz de características, y luego escalado al mismo tamaño a través de la capa de agrupación de ROI; y luego al entrenamiento conjunto final Faster RCNN, RPN y Fast RCNN para lograr un algoritmo de detección de objetivos de extremo a extremo. 6. Regresión lineal y regresión logística

(1) Regresión lineal para predicción, regresión logística para clasificación

(2) El primero se ajusta a una función modelo adecuada, el segundo predice el valor de salida de la función;

(3) Actualización de parámetros, el primero es el método de mínimos cuadrados, el segundo es el descenso de gradiente;

(4) Variable dependiente: la primera es un dato continuo, la segunda es una etiqueta discreta;

Por ejemplo: el impacto de la dieta en el peso, si el dato de entrada es el valor específico del peso predicho (género, hábitos alimenticios, altura, edad, etc.), es una regresión lineal; si es una forma corporal predicha, como grasa, normal, etc., es un problema de regresión logística.

Truco de detección de objetivos pequeños

1. Mejora de datos

2. Remuestreo de objetivos pequeños

3. Ajuste el ancla de acuerdo con la distribución de pequeños objetivos en el conjunto de datos (guía-ancla, k-medias)

4. Múltiples campos receptivos: FPN, convolución variable

5. Agregue un mecanismo de atención, como SENET, para que la red preste más atención a los objetivos pequeños

6. Red troncal de ultra alta resolución HRnet.

7. La diferencia entre LN y BN:

LN es la normalización de capas, que es "horizontal" para una muestra, y es normalizada por todas las neuronas en la misma capa.

BN es la normalización por lotes, BN es "vertical", después de que se normalizan todas las muestras de una neurona, por lo que está relacionado con el tamaño del lote.

Detección de bordes astutos:

(1) Aplique filtrado gaussiano para suavizar la imagen y eliminar la influencia del ruido. (2) Calcule el gradiente del eje x y el eje y de la imagen, y calcule la dirección combinada del gradiente. (3) Use supresión no máxima para suprimir esos puntos de pseudolímite. (4) Aplicar min_max a la imagen obtenida arriba (5) Rastrear bordes por retraso: la detección de bordes se realiza suprimiendo todos los demás bordes que son débiles y no están conectados a bordes fuertes.

Qué sabe sobre el aprendizaje automático tradicional: Qué sabe sobre el aprendizaje automático tradicional: Algoritmo de clasificación: Naive Bayes

Ventajas: (1) La lógica del algoritmo es simple y fácil de implementar; (2) La sobrecarga de tiempo y espacio en el proceso de clasificación es pequeña; Desventajas: Es de mala educación pensar que los atributos son independientes entre sí. En realidad, el más atributos, mayor es la correlación entre ellos, por lo que el rendimiento de clasificación real a menudo no es bueno.

También existe la máquina de vectores de soporte SVM: propuesta en 1963, es el método de clasificación más popular y el más clásico. La esencia es la clasificación lineal, y el clasificador lineal que maximiza el intervalo en el espacio de características es un modelo de clasificación único que resuelve el problema de la clasificación binaria.

[Falló la transferencia de la imagen del enlace externo, el sitio de origen puede tener un mecanismo anti-leeching, se recomienda guardar la imagen y subirla directamente (img-ndord9Qa-1662292749380)(en-resource://database/1117:1)]

[Falló la transferencia de la imagen del enlace externo, el sitio de origen puede tener un mecanismo anti-leeching, se recomienda guardar la imagen y cargarla directamente (img-7r8uQgca-1662292749382)(en-resource://database/1115:1)]

Función del núcleo SVM:

Las funciones del kernel de las máquinas de vectores de soporte incluyen principalmente: kernel lineal, kernel polinomial y función kernel de base radial (también llamada función kernel gaussiana), que se utilizan para mapear datos no lineales de baja latitud en un espacio de alta dimensión, convirtiéndose así en datos separables linealmente. . .

PCA, descomposición SVD:

El análisis de componentes principales de PCA es un método muy utilizado en la reducción de dimensionalidad. Un vector espacial puede representarse mediante una base vectorial. La reducción de dimensionalidad de PCA se refiere a reducir la dimensión d a la dimensión d', y los datos son (a1, a2, a3 ,...
SVD: descomposición en valores singulares, se requiere una matriz cuadrada para la descomposición propia, pero no se requiere una matriz cuadrada para la descomposición en valores singulares

Hough transformar

(Qué) La transformación de Hough es un método de extracción de características que se utiliza para extraer límites de forma (línea, círculo, etc.). (por qué) Se supone que el límite de la forma es una línea recta, que es una colección de muchos puntos. Tratar con este conjunto es más complicado que tratar con un punto. En pocas palabras, la transformada de Hough consiste en procesar una línea recta con puntos, de modo que sea más fácil extraer el límite. (Cómo) Como se mencionó anteriormente, el proceso de reemplazar líneas con puntos en realidad se realiza a través de la transformación del espacio. El espacio transformado es el espacio de Hough.

Sobreajuste:

La precisión del conjunto de entrenamiento aumenta, mientras que la precisión del conjunto de prueba disminuye y se produce un sobreajuste. La solución es aumentar el conjunto de datos, el abandono, la regularización de L2 del núcleo L1 (agregar algunas reglas a la función de pérdida, reducir el espacio de la solución, reduciendo así la posibilidad de encontrar una solución de ajuste excesivo), BN y terminar la iteración antes.

L1, L2 norma, L1 tiende a 0, pero L2 no, ¿por qué?

La suma de los valores absolutos de cada elemento en el vector L1 y la raíz cuadrada de cada elemento en el vector L2. Es más probable que la norma L1 produzca pesos dispersos, y la norma L2 es más probable que produzca pesos dispersos.

¿Qué son las regularizaciones y cuáles son sus funciones?

Tanto la norma L0 como la norma L1 pueden lograr el propósito de hacer que los parámetros sean dispersos, pero la norma L0 es más difícil de optimizar y resolver.La norma L1 es la aproximación convexa óptima de la norma L0, y es más fácil de optimizar y resolver. resolver que la norma L0. La norma L2 no solo puede evitar el sobreajuste y mejorar la capacidad de generalización del modelo, sino también hacer que nuestra solución de optimización sea estable y rápida. La norma L2 es más sensible a números grandes y valores atípicos.

Sesgo, varianza, ruido:

Sesgo: el sesgo es la diferencia entre el promedio de la salida de todos los modelos entrenados con todos los conjuntos de datos de entrenamiento posibles y el valor de salida del modelo verdadero.
Varianza: Para diferentes conjuntos de entrenamiento, describe la varianza entre modelos entrenados en diferentes datos.
Ruido: Su existencia es un problema que los algoritmos de aprendizaje no pueden resolver, y la calidad de los datos determina el límite superior del aprendizaje. Suponiendo que se hayan dado los datos, el límite superior se ha establecido en este momento, y lo que tenemos que hacer es acercarnos lo más posible a este límite superior.

La diferencia entre inicio v2 y v3:

Hable principalmente sobre inceptionv3: ① Use el optimizador RMSprop; ② Regularización de suavizado de etiquetas; ③ Descomponga la convolución 7×7; ④ La capa FC del clasificador auxiliar usa BN.

beneficios de resnet:

①La red es más fácil de aprender la transformación de identidad en algunas capas; ②La red residual es una integración de muchas redes superficiales, y el número de capas es exponencial; ③La red residual facilita que la información fluya entre capas, incluida la función Provides anterior reutilización durante la propagación directa y alivia la desaparición de la señal de gradiente durante la retropropagación.

Por qué usar LR, no 0-1:

Tome la segunda categoría como ejemplo. La etiqueta de clasificación en el modelo LR es para hacer que los datos sean fáciles de expresar en forma de Bernoulli, lo cual es conveniente para la expresión de la función de verosimilitud subsiguiente y el cálculo del gradiente descendente. Este es el SVM, y el perceptrón es lo mismo que dejar que las etiquetas se dividan en {-1,1}. Es conveniente.

Ventajas y desventajas sigmoideas:

Ventajas: la función es continua en todas partes, lo que es conveniente para la derivación; el valor de la función se puede restringir a [0, 1], los datos se pueden comprimir y la amplitud permanece sin cambios; es conveniente para la transmisión directa. Desventajas: en el lugar donde tiende al infinito, el valor de la función cambia muy poco y es fácil perder el gradiente, lo que no conduce a la transmisión de retroalimentación de la red neuronal profunda; la función de potencia aún es relativamente difícil de calcular ; el valor promedio de la función no es 0, cuando la salida es mayor que 0, la dirección del gradiente será mayor que 0, lo que significa que la siguiente operación inversa continuará actualizando la actualización positiva; de manera similar, cuando la salida es menor que 0, la siguiente operación de dirección continuará actualizando la dirección negativa.

Hablemos de LSTM:

Red de memoria a largo plazo, que pertenece a la categoría RNN

¿Cuáles son los algoritmos para la extracción de características de imagen?

Tres algoritmos principales: ①Algoritmo HOG, histograma de gradientes orientados, utilizado para la detección de objetos; ②Función LBP, modo binario local, es un operador que describe características de textura local, con invariancia de rotación e invariancia de gris; ③La característica Haar se divide en tres categorías: características de borde , entidades lineales, entidades centrales y entidades diagonales.

¿Entiendes la norma L1 L2? la diferencia:

La norma L1 es la suma de los valores absolutos de los elementos del vector, la norma L2 es la raíz cuadrada de la suma de los cuadrados de todos los elementos del vector. L1 puede realizar una selección de características, de modo que el coeficiente de características sea 0; L2 puede evitar el ajuste excesivo y mejorar la capacidad de generalización del modelo.

¿Diferencia entre la distancia de similitud del coseno y la distancia euclidiana?

Ambos miden la magnitud de las diferencias interindividuales. La medida de la distancia euclidiana se verá afectada por diferentes escalas unitarias de los indicadores, por lo que generalmente debe estandarizarse primero, y cuanto mayor sea la distancia, mayor será la diferencia entre los individuos. La medida de similitud del ángulo del coseno del vector espacial no se verá afectada por la escala del índice, el valor del coseno cae en el intervalo [-1,1], cuanto mayor sea el valor, menor será la diferencia.

¿Qué pasa si los datos no son buenos, cómo lidiar con datos desequilibrados y cómo lidiar con solo una pequeña cantidad de etiquetas?

Análisis específico de problemas específicos, como cribado de datos, ampliación de datos, mejora de datos, reetiquetado, etc.

Supongo que te gusta

Origin blog.csdn.net/hallobike/article/details/126693637
Recomendado
Clasificación