Entrevista de algoritmo: compilación de preguntas básicas de la entrevista de aprendizaje profundo (a partir del 29.8.2023)

1. Correlación no supervisada (agrupación, detección de anomalías)

1. ¿Cuáles son los métodos comunes de medición de distancias? Anota la fórmula de cálculo de la distancia.

1) Cálculo de distancia para datos continuos:

Familia lejana Minkowski:

Cuando p = 1, es la distancia de Manhattan; cuando p = 2, es la distancia euclidiana; cuando p ->∞, es la distancia de Chebyshev.

Distancia del coseno:

 Entre ellos, A y B son los dos vectores a comparar, ⋅ representa el producto escalar (producto interno) de los vectores, ∥A∥ y ∥B∥ representan la norma euclidiana (también llamada norma L2) de los vectores A y B. respectivamente. número). El rango de valores de la distancia del coseno es [0,2]. Cuanto menor sea el valor, más similares serán los dos vectores. Cuanto mayor sea el valor, menos similares serán los dos vectores. Si los dos vectores tienen la misma dirección, la distancia del coseno es 0, lo que significa que son completamente similares; si los dos vectores tienen direcciones opuestas, la distancia del coseno es 2, lo que significa que son completamente diferentes. Tenga en cuenta que a veces la similitud de los vectores también se puede medir mediante la similitud del coseno, que es el complemento de la distancia del coseno, es decir, la distancia 1-coseno. El rango de valores de similitud del coseno es [-1, 1]. Cuanto mayor sea el valor, más similares serán los dos vectores. Cuanto menor sea el valor, menos similares serán los dos vectores.

2) Cálculo de distancia de datos discretos.

Distancia de Jaccard: intersección de los conjuntos A y B/unión de los conjuntos A y B

Distancia de Hamming: representa el número de caracteres diferentes en las posiciones correspondientes de dos cadenas de igual longitud.

 2. ¿Cuáles son los algoritmos de agrupación comunes?

Existen principalmente agrupaciones jerárquicas basadas en división, basadas en densidad, basadas en redes, etc. Además, hay muchos campos cruzados que se combinan con otros campos, como agrupación semisupervisada, agrupación profunda, agrupación de conjuntos, etc. .

3. ¿Cuál es el principio de Kmeans?

Kmeans es un clustering basado en división. La idea central es mantener la distancia dentro de una clase lo más pequeña posible y la distancia entre clases lo más grande posible. El proceso principal del algoritmo es el siguiente:

  • Los K centroides iniciales sirven como puntos centrales de los K grupos iniciales, y K es un hiperparámetro establecido artificialmente;
  • Las distancias entre todos los puntos de muestra n y los centroides K se calculan por separado. La distancia aquí se define manualmente y se puede calcular utilizando diferentes métodos de cálculo de distancia. Cada punto de muestra y el centroide más cercano entre los k centroides se dividen en grupos de tipo 1;
  • Vuelva a calcular el centroide realizando cálculos de agregación en conglomerados. En kmeans, se utiliza un método de promedio simple para los cálculos de agregación, y también se pueden usar medianas y otros métodos para los cálculos;
  • El proceso anterior se repite hasta que se alcanza un número predeterminado de iteraciones o el centro de masa ya no cambia significativamente.
  • La función de pérdida de kmeans es:

 Entre ellos, ||xi - cj|| representa la distancia euclidiana desde el punto de datos xi hasta el centro del grupo cj, e I (condición) es una función indicadora, que es 1 cuando la condición es verdadera; de lo contrario, es 0. Cuanto menor es J, mayor es el grado de agregación de la muestra.

4. ¿Cómo elegir el punto inicial de Kmeans? ¿Cuáles son las desventajas de diferentes selecciones de puntos iniciales? ¿Cómo resolverlo?

  • Inicialización aleatoria: seleccione aleatoriamente K puntos de muestra como centroides iniciales. La desventaja es que si los centroides seleccionados están muy cerca de caer dentro del mismo grupo, los resultados de la iteración pueden ser deficientes, porque los puntos centroides iterados finales caerán dentro del grupo. . El estado más ideal es que K centroides sean exactamente grupos K. Debido a la aleatoriedad de la inicialización aleatoria, se pueden considerar múltiples inicializaciones aleatorias y se puede seleccionar la que tenga el mejor resultado de agregación.
  • Inicialización aleatoria: a todos los puntos de muestra se les asigna aleatoriamente un número de grupo, luego todos los puntos de muestra finalmente tendrán K números y luego se realiza el promedio grupal, es decir, el centroide inicializado se obtiene promediando las muestras en el mismo grupo. En comparación con la inicialización aleatoria, el centroide inicializado será más robusto, pero todavía existen deficiencias en la inicialización aleatoria, que solo se alivia.

5. ¿Kmeans agrega características o muestras? ¿Cómo calcular la distancia de las entidades?

Generalmente, las muestras están agrupadas. Si las características están agrupadas, el método de procesamiento es simple y la salida original se transpone. El propósito es similar al coeficiente de correlación: si dos características están altamente correlacionadas, como el nivel de ingresos y activos, la distancia entre las dos características es relativamente pequeña, pero generalmente no es factible porque la dimensión después de la transposición es muy alta, por ejemplo , hay 1 millón de muestras. Luego hay 1 millón de dimensiones, lo cual es computacionalmente poco realista. La medición de distancia de datos de alta dimensión tampoco es válida. Es mejor calcular directamente el coeficiente de correlación.

6. ¿Cómo sintonizar Kmeans?

  • Ajuste de parámetros de estrategia de inicialización
  • El ajuste del parámetro de tamaño de k está representado por el método manual y el método del codo.
  • Normalización de datos y procesamiento de muestras anormales.

7. Introduzca el método del codo.

El eje vertical del método del codo es el índice de evaluación del efecto de agrupamiento. Depende del problema específico. Si el agrupamiento existe como una tarea separada, utilice una métrica como SSE (función de pérdida) o coeficiente de silueta como eje vertical. y luego encuentre la métrica. El mejor resultado con la k más pequeña, y la k correspondiente es la elección final. Al automatizar el método del codo, solo necesita calcular la pendiente entre k = n y k = n + 1. Cuando la pendiente n y n-1, la diferencia entre la pendiente n + 1 y la pendiente n, la pendiente n + 2 y la pendiente n+1 se detendrá cuando los valores sean menores que el umbral fijo.

 8. ¿Cómo solucionar las deficiencias de kmeans?

  • Es muy sensible a muestras anormales y el centro del grupo se alejará debido a muestras anormales. Las muestras anormales se refieren a muestras con valores particularmente grandes o pequeños en ciertas dimensiones. En la distancia euclidiana, todas las características son independientes entre sí de forma predeterminada y las muestras anormales tendrán un impacto. La solución es realizar un preprocesamiento para eliminar o corregir muestras anormales.
  • El valor K es difícil de determinar. La solución es ajustar los parámetros para k.
  • Solo puede adaptarse a grupos esféricos. Para grupos irregulares, como grupos múltiples, puede haber problemas de superposición de grupos y el efecto es pobre. Es posible que esta situación ya no se aplique al algoritmo Kmeans; considere el algoritmo de conversión.
  • No se pueden manejar funciones discretas, faltan funciones.
  • No hay garantía de optimización global. La solución es ejecutarlo varias veces y aprovechar los diferentes óptimos locales.

9. ¿Cuál es la diferencia entre la distancia del coseno y la distancia euclidiana?¿En qué escenarios se debe utilizar la similitud del coseno?

  • La distancia euclidiana refleja la diferencia absoluta en valor numérico y la distancia coseno refleja la diferencia relativa en dirección.
  • Por ejemplo, al contar el comportamiento de visualización del usuario de dos dramas, el vector de visualización del usuario A es (0, 1) y el vector de visualización del usuario B es (1, 0). En este momento, la distancia coseno entre los dos es muy grande, mientras que la distancia euclidiana es muy pequeña; analizamos Las preferencias de dos usuarios por diferentes videos están más preocupados por las diferencias relevantes, por lo que es obvio que se debe usar la distancia coseno. Al analizar la actividad del usuario, que se caracteriza por el número de inicios de sesión y el tiempo promedio de visualización, la distancia coseno pensará que los dos usuarios (1, 10) y (10, 100) están muy cerca uno del otro, pero obviamente hay una diferencia en la actividad de estos dos usuarios. , es necesario utilizar la distancia euclidiana.

10. ¿Es la distancia del coseno una distancia estrictamente definida? ¿Qué requisitos se deben cumplir para que una métrica cuente como distancia?

  • Definición de distancia: en un conjunto, si cada par de elementos puede determinar de forma única un número real tal que se cumplan los tres axiomas de distancia (certeza positiva, simetría y desigualdad triangular), entonces el número real se llama distancia entre el par de elementos. .
  • La distancia del coseno satisface la certeza positiva y la simetría, pero no satisface la desigualdad del triángulo, por lo que no es una distancia estrictamente definida.

11. En Kmeans, quería agruparlos en 100 categorías, pero descubrí que solo podía agruparlos en 98 categorías. ¿Por qué?

  • Aparecen grupos vacíos durante el proceso de iteración porque K es demasiado grande y el número real de grupos es menor que K;
  • La estrategia de inicialización no causa el problema de los conglomerados vacíos, porque incluso la inicialización aleatoria más simple selecciona algunos puntos de muestra como centroides de los puntos de muestra originales. Si hay un grupo vacío, puede introducir una muestra anormal en el centroide inicial. Este punto anormal formará un grupo por sí solo sin el problema de los grupos vacíos.

12. ¿Cuál es la relación entre Kmeans, GMM y EM?

  • Kmeans es un algoritmo de agrupación basado en particiones, GMM es un algoritmo de agrupación basado en modelos y EM es un algoritmo de optimización utilizado para estimar los parámetros de GMM.
  • Kmeans puede considerarse como un caso especial de GMM: la agrupación de Kmeans es esférica y la agrupación de Kmeans es elipsoidal.
  • Kmeans usa EM duro para resolver y GMM usa EM suave para resolver.

13. ¿Cuál es la idea central del modelo de mezcla gaussiana GMM? ¿Cuál es la diferencia entre GMM y gaussiano multivariado? ¿Cuál es la expectativa de una función gaussiana multivariada?

  • GMM es una suma ponderada de múltiples gaussianos multivariados relacionados.
  • El modelo de mezcla gaussiana GMM es un concepto basado en la distribución gaussiana multivariada. Él cree que los datos del mundo real se componen de la suma acumulativa de múltiples modelos gaussianos multivariados relacionados con diferentes parámetros y diferentes pesos. (El modelo gaussiano multivariado independiente puede considerarse como un caso especial del modelo gaussiano multivariado correlacionado)

14. ¿Cómo calcula GMM de forma iterativa? ¿Por qué kmeans, GMM y EM satisfacen la forma descrita anteriormente?

  • Principio del algoritmo EM: el algoritmo EM, al igual que el descenso de gradiente, se puede utilizar para optimizar la función de máxima verosimilitud. Cuando hay variables ocultas en la función de máxima verosimilitud, el algoritmo EM es un algoritmo de optimización de uso común. El algoritmo EM (algoritmo de maximización de expectativas) generalmente se divide en dos pasos, el primero es el paso de expectativa (paso E) y el otro es el paso máximo (paso M).

15. ¿Tiene el algoritmo KNN una función de pérdida?

No existe KNN es un algoritmo de aprendizaje perezoso, correspondiente al aprendizaje ansioso.

  • Aprendizaje diferido: solo almacena el conjunto de datos sin aprender de él, no se requiere entrenamiento del modelo; después de recibir los datos de prueba, comience a clasificar o retroceder los datos de acuerdo con el conjunto de datos almacenado;
  • Aprendizaje entusiasta: aprender de los datos recopilados requiere entrenamiento del modelo; la clasificación o regresión se completa directamente después de recibir los datos de prueba.

2. Aprendizaje desequilibrado

1. ¿Cómo resolver el desequilibrio de datos y cómo convertir la precisión de clasificación obtenida mediante el muestreo en la precisión original?

Aumente o disminuya las categorías predichas después del muestreo de acuerdo con la proporción de muestreo. Por ejemplo, si la categoría A se reduce en un 50%, entonces el número de categorías predichas A en el resultado de la predicción es m, sea m = m / 0,5 = 2 m, y luego Calcule la precisión de la clasificación; este método de procesamiento de datos es inexacto y un método razonable debería ser calcular directamente los indicadores de evaluación sobre los datos originales.

2. Si el conjunto de entrenamiento desequilibrado (muestras positivas y negativas 1:3) se equilibra mediante una reducción de resolución, ¿qué pasará con el valor AUC equilibrado y la probabilidad predicha?

  • La curva ROC_AUC no es sensible a cambios en el número de categorías, por lo que el resultado general del cálculo de AUC no cambiará significativamente;
  • El número de muestras positivas aumenta encubiertamente mediante el equilibrio de muestreo reducido, el límite de decisión de clasificación está lejos de las muestras positivas y la probabilidad de predicción general aumenta.

 3. ¿Cuál es la idea de class_weight?

El método de ponderación simple correspondiente a class_weight es el método más simple de aprendizaje sensible a los costos. La idea es ponderar muestras de clases pequeñas para que su proporción en la pérdida sea mayor.

4. ¿Cuál es el principio del aprendizaje desequilibrado?

El actual aprendizaje desequilibrado se debe principalmente al desequilibrio en los problemas de clasificación. La llamada clasificación desequilibrada se refiere al fenómeno de que cuando el número de diferentes categorías de muestras es cada vez más diferente, el modelo se vuelve cada vez más sesgado en la predicción de grandes categorías de muestras, por lo que el rendimiento de clasificación del modelo empeora cada vez más.

Simplemente desde la perspectiva del desequilibrio de la muestra (sin considerar los cambios de distribución, el aprendizaje de muestras pequeñas, la dificultad de los problemas de clasificación y otros problemas), las razones por las que las categorías desequilibradas afectan el modelo:

  • El método de optimización de la función objetivo, el modelo que utiliza el descenso de gradiente para optimizar la función objetivo, es más sensible al problema de desequilibrio, mientras que el método de división del modelo de árbol basado puramente en la estrategia codiciosa no es sensible a esto;
  • El uso de funciones objetivo, pérdida de bisagra y entropía cruzada tienen diferentes sensibilidades al desequilibrio.

5. ¿Cuál es la diferencia entre muestreo ascendente (sobremuestreo) y generación de muestras?

El muestreo ascendente no significa necesariamente generar muestras. Por ejemplo, el muestreo ascendente de estilo repetido simple no implica el proceso de generación de muestras mediante replicación, pero generar muestras debe ser un tipo de muestreo ascendente.

3. Función de pérdida, índice de evaluación y método de optimización del modelo.

1. ¿Cómo evaluar la calidad de los resultados de la agrupación? ¿Cuál es el coeficiente de silueta?

  • Puede utilizar la función SSE para evaluar la calidad de los resultados de la agrupación:

  • El coeficiente de silueta se define para cada muestra y consta de dos puntuaciones: a es la distancia promedio entre la muestra y todos los puntos en el mismo grupo; b es la distancia promedio entre la muestra y todos los demás puntos en el siguiente grupo más cercano. Para una sola muestra, el coeficiente de silueta es el siguiente: para la evaluación del modelo, el valor medio de los coeficientes de silueta de todas las muestras se toma como índice de evaluación del efecto de agrupación del modelo:

2. ¿Cuáles son las limitaciones de la precisión?

  • La precisión cambiará bajo diferentes umbrales de clasificación, lo que dificultará la evaluación;
  • Es particularmente sensible al problema del desequilibrio de muestras. Por ejemplo, cuando las muestras negativas representan el 99%, el clasificador aún puede lograr una precisión del 99% al predecir todas las muestras como muestras negativas.
  • Fórmula: número de muestras correctamente clasificadas/número total de muestras

3. ¿Cómo dibujar la curva ROC? Las similitudes y diferencias entre ROC y PRC, las definiciones y defectos de exactitud, precisión y recuperación; el dibujo de la curva PR, cómo usar la curva PR para juzgar la calidad del modelo; la abscisa y la ordenada de la curva ROC significado.

  • TP, FP, TN y FN son componentes de la matriz de confusión, una herramienta utilizada para medir el desempeño del modelo de clasificación en diferentes categorías. TP ejemplos verdaderos, representa el número de muestras en las que el modelo predice correctamente muestras de categorías positivas como categorías positivas; FP ejemplos falsos positivos, representa el número de muestras en las que el modelo predice incorrectamente muestras de categorías negativas como categorías positivas; TN ejemplos verdaderos negativos, representa el número de muestras en las que el modelo predice correctamente muestras de categorías negativas. El número de muestras de categorías negativas predichas como muestras de categorías negativas; los contraejemplos falsos de FN indican que el modelo predice incorrectamente muestras de categorías positivas como categorías negativas.
  • Tasa de precisión acc=(TP+TN)/Total, el número de muestras clasificadas correctamente/el número total de muestras.
  • El numerador de la tasa de precisión pre=TP/(TP+FP) es el número de muestras que se predicen correctamente como muestras positivas, y el denominador es el número de muestras que se predicen como muestras positivas.
  • Tasa de recuperación = TP/(TP+FN).El numerador es el número de muestras positivas predichas correctamente y el denominador es el número de todas las muestras.
  • Tasa de homicidio involuntario: FP/(FP+TN) El numerador es el número de muestras positivas predichas incorrectamente y el denominador es el número de todas las muestras negativas.
  • Defectos: ① Cuando la cantidad de datos está extremadamente desequilibrada, si el modelo predice todas las muestras como categorías principales, la precisión mejorará; ② Si el umbral de clasificación es cercano a 0, entonces el modelo predecirá todas las muestras como muestras positivas, el la tasa de recuperación será cercana al 100%; Clasificación Si el umbral es cercano a 1, el modelo predecirá muy pocas muestras como muestras positivas y la precisión será cercana al 100%; es decir, la tasa de recuperación y la tasa de precisión se ven muy afectadas por el umbral de clasificación.

  • La curva PR del modelo toma la tasa de recuperación como abscisa y la tasa de precisión como ordenada. Si la curva PR de un modelo está completamente cubierta por la curva PR de otro modelo, se puede considerar que el rendimiento de este último es mejor que el del primero, como se muestra en la figura siguiente, IG es mejor que AC.

  •  El punto de equilibrio se utiliza generalmente para evaluar situaciones que no se pueden comparar directamente, como IT y MZ en la figura anterior. El punto de equilibrio (BEP) es el valor cuando P = R. Si este valor es mayor, significa que el modelo el rendimiento es mejor. Y F1 = 2*recordar*precisión/(recordar+precisión), cuanto mayor sea el valor de F1, mejor será el rendimiento del modelo en nuestra opinión.
  • La curva ROC es similar a la curva PR: su ordenada es la tasa de precisión, pero la abscisa es la tasa de homicidio involuntario. La primera fila ab en la figura siguiente son todas figuras de los datos originales, con la curva ROC a la izquierda y la curva PR a la derecha. La segunda fila cd es el gráfico de las dos curvas después de aumentar la muestra negativa 10 veces. Se puede ver que la curva ROC básicamente no ha cambiado, pero la curva PR oscila violentamente. Por tanto, en un escenario donde el número de muestras positivas y negativas está muy desequilibrado, la curva ROC será un indicador más estable que puede reflejar la calidad del modelo.

4. La diferencia entre la curva ROC y la curva PR, escenarios aplicables y sus respectivas ventajas y desventajas.

  • La curva ROC no es sensible a la proporción de muestras positivas y negativas. Debido a que la ordenada de la curva ROC es la tasa de precisión y la abscisa es la tasa de homicidio involuntario, después de cambiar la distribución de categorías en la etiqueta, el número de muestras positivas predichas correctamente/muestras predichas como positivas cambiará en la misma dirección al mismo tiempo. tiempo, y el número de muestras negativas incorrectas predichas cambiará en la misma dirección. El número de muestras / todas las muestras negativas también cambiará en la misma dirección, es decir, el cálculo de las coordenadas horizontales y verticales de la República de China es independiente, y Se calcula de forma independiente para muestras positivas y muestras negativas. Los cálculos de las dos coordenadas no se afectarán entre sí, por lo que la relación de categorías La República de China no temblará violentamente cuando ocurran cambios.
  • La ordenada de la curva PR es la tasa de precisión y la abscisa es la tasa de recuperación. Los resultados del cálculo de las coordenadas horizontales y verticales de PR están relacionados entre sí. Todos se calculan para muestras positivas. Los cálculos de las dos coordenadas se afectan entre sí, lo que hace que la curva PR sea muy sensible a los cambios en las categorías.
  • ROC se centra en la capacidad predictiva general del modelo de clasificación binaria para muestras positivas y negativas, por lo que es adecuado para evaluar el rendimiento general del modelo; si el enfoque principal está en la capacidad predictiva de muestras positivas y no se preocupa por la capacidad predictiva capacidad de muestras negativas, la curva PR es más apropiada.

5. ¿Cuál es el significado de AUC y la fórmula de cálculo de AUC?

  • AUC es el área bajo la curva ROC.

  • El significado práctico de AUC: comparación de los valores de rango de los resultados predichos en pares de muestras positivas y negativas. Suponga que hay x1 muestras positivas y x0 muestras negativas. Luego, en el par de muestras de muestras positivas * muestras negativas, las predichas La probabilidad de las muestras positivas es mayor que la de las muestras negativas. El número de muestra z de la probabilidad predicha de la muestra, y luego use z/x0*x1 para obtener el AUC. La complejidad temporal del cálculo es O(N^2) , donde n se refiere al número total de muestras. Es decir, AUC representa la probabilidad de que se seleccione arbitrariamente un par de muestras positivas y negativas, y el resultado de la predicción de la muestra positiva sea mayor que el resultado de la predicción de la muestra negativa.

5. ¿Cuáles son los valores de F1, F2...Fn y cómo calcular Fβ?

Cuando β es igual a 1, Fβ es igual a F1, y cuando β es igual a n, Fβ es igual a Fn. β se utiliza para definir la importancia relativa del recuerdo y la precisión. Cuanto mayor es, más importante es el recuerdo. Cuando β tiende al infinito, Fβ es igual al recuerdo; cuanto más pequeño es, más importante es la precisión. Cuando β**2 tiende a 0, Fβ es igual a precisión.

6. ¿Cuáles son las funciones de pérdida comunes?

  • Función de pérdida 0-1, función no convexa, difícil de optimizar directamente.
  • Logloss (entropía cruzada), función de pérdida de clasificación múltiple, la función de pérdida más utilizada, es más sensible al ruido que la pérdida de bisagra. El ruido se refiere a muestras duras sin sentido.
  • Entropía cruzada (entropía cruzada binaria), un caso especial de pérdida de registro en la clasificación binaria. Cuando se usa sigmoide como función de activación, a menudo se usa la función de pérdida de entropía cruzada en lugar de la función de pérdida de error cuadrático medio, porque puede resolver perfectamente la Función de pérdida de cuadrados Actualización de peso El problema lento tiene la buena característica de "cuando el error es grande, la actualización de peso es rápida; cuando el error es pequeño, la actualización de peso es lenta".

  • La pérdida exponencial es sensible al ruido, se ha utilizado en adaboost y rara vez se utiliza en otras situaciones.

  • pérdida de bisagra, que es resistente al ruido.
  • MSE, MAE, RMSE, MAPE, SMAPE. ① Entre ellos, MSE, MAE y RMSE son menos robustos para muestras con valores de etiqueta Y particularmente grandes, y MAE y RMSE están relativamente aliviados; ② El rango de MAPE es [0, +∞), y un MAPE de 0% indica una modelo perfecto. MAPE mayor que 100% indica un modelo inferior, y MAPE significa MAE con una letra extra; ③ Cuando el valor real tiene datos iguales a 0, hay un problema de división del denominador por 0, y se requiere suavizado; ④ MAPE es robusto para muestras con valores de etiqueta Y particularmente grandes. Más fuerte, porque la pérdida de una sola muestra anormal se escala dividiéndola por la etiqueta real (es decir, el término denominador); el defecto es que la robustez de las muestras con valores de etiqueta y cerca de 0 es muy pobre y una pequeña desviación hará que el resultado del cálculo de pérdida de MAPE para una sola muestra sea muy grande; ⑤ SMAPE se corrige para el problema de la poca robustez de MAPE para muestras anormalmente pequeñas, lo que puede evitar mejor el cálculo. resultado de que mape sea demasiado grande porque el valor real yi es pequeño problema; al mismo tiempo, también es más robusto a muestras anormalmente grandes; ⑥ Tanto MAPE como SMAPE se pueden optimizar como funciones de pérdida.

7. ¿Cómo resolver el problema de la escasa robustez del error cuadrático medio de MSE ante muestras anormales?

  • Si las muestras anormales no tienen sentido, las muestras anormales se pueden suavizar y procesar en muestras normales. Si las muestras anormales son muy raras, se pueden eliminar directamente.
  • Si las muestras anormales son significativas, como las ventas de Double Eleven, y el modelo necesita tener en cuenta estas anomalías significativas, considere usar un modelo más expresivo, un modelo compuesto o un modelado grupal desde el lado del modelo.
  • Elija una función de pérdida más sólida, como SMAPE.

8. ¿Por qué utilizar la entropía cruzada binaria para la clasificación binaria? ¿Por qué no utilizar MSE?

Bajo la condición de que sigmoide comprima la salida del modelo al intervalo (0, 1), la fórmula de actualización de gradiente obtenida según la entropía cruzada binaria no contiene el término de derivación de sigmoide, pero la fórmula de actualización de gradiente obtenida según MSE sí.

  • La cantidad de actualización de gradiente derivada usando MSE es la siguiente: debido a la naturaleza del sigmoide, σ′(x) será muy pequeña cuando z tome la mayoría de los valores (los dos extremos de la figura a continuación son casi planos), lo que hará η(a− y)σ′(z) es muy pequeño, lo que hace que los parámetros w y b se actualicen muy lentamente.

  • La fórmula de actualización de gradiente derivada de la entropía cruzada binaria es la siguiente: no incluye el término de derivación de sigmoide y no tiene este problema:

 9. ¿Qué representan respectivamente la cantidad de información, la entropía de información, la entropía relativa (divergencia KL), la entropía cruzada, la entropía condicional, la información mutua y la entropía conjunta?

  • Cantidad de información: La cantidad de información se utiliza para medir el grado de incertidumbre de un evento. Cuanto mayor es la incertidumbre, mayor es la cantidad de información. La incertidumbre generalmente se define por la probabilidad de que ocurra un evento. La cantidad de información se basa en el registro basado en función de densidad de probabilidad Operación, la fórmula es la siguiente, donde p (x) puede ser la probabilidad de datos discretos o la función de densidad de probabilidad de datos continuos:

  •  Entropía de información: mide el grado de incertidumbre de un conjunto de eventos, que es la expectativa incierta de todos los eventos en el conjunto de eventos, la fórmula es la siguiente:
  • Entropía relativa (divergencia KL): la divergencia KL, desde la perspectiva de las estadísticas de probabilidad, representa una medida asimétrica de la diferencia entre dos distribuciones de probabilidad. La divergencia KL también se puede derivar desde la perspectiva de la teoría de la información. Desde esta perspectiva, la divergencia KL es También llamada entropía relativa, que en realidad describe la diferencia en la entropía de la información de dos distribuciones de probabilidad. La divergencia de KL se puede utilizar para definir distribuciones de variables aleatorias tanto discretas como continuas. KL, al igual que la distancia del coseno, no cumple con la definición estricta de distancia y tiene no negatividad y asimetría.
  • Entropía cruzada: la entropía cruzada es la suma de la entropía de información de la distribución del valor verdadero y la divergencia KL. La entropía del valor verdadero se determina y no tiene nada que ver con los parámetros del modelo θ. Por lo tanto, al derivar el descenso del gradiente, optimice la entropía cruzada y optimizar la divergencia KL es lo mismo.

  • Entropía conjunta: la entropía conjunta en realidad mide la entropía de la información de un nuevo conjunto de eventos grande formado después de que se combinan dos conjuntos de eventos.
  • Información mutua: Información mutua = entropía de información del conjunto de eventos X - entropía condicional del conjunto de eventos X bajo el conjunto de eventos conocido Y = entropía de información del conjunto de eventos Y - entropía condicional del conjunto de eventos Y bajo el conjunto de eventos conocido X.

10. ¿Cómo medir la diferencia entre dos distribuciones? ¿Cuál es la diferencia entre divergencia KL y pérdida de entropía cruzada? ¿Cuál es la relación?

  • La divergencia KL y la divergencia js se pueden utilizar para medir la diferencia entre dos distribuciones.
  • Entropía cruzada = entropía de información de la distribución de etiquetas real + entropía relativa (divergencia KL)

11. ¿Cuál es la definición de distancia? ¿Qué medidas no cumplen con la definición de distancia?

  • Definición: En un resumen combinado, si cada par de elementos puede determinar de forma única un número real tal que se cumplan los tres axiomas de distancia (certeza positiva, simetría y desigualdad triangular), entonces el número real puede denominarse distancia entre el par de elementos. . ①Definición positiva: d (x, y)> = 0. El signo igual de desigualdad se cumple solo cuando x = y. Si la distancia entre la muestra A y la muestra B es 0, entonces la muestra A y la muestra B pueden considerarse como la misma muestra; ② Simetría: d(x,y)=d(y,x), la distancia de la muestra A a la muestra B es igual a la distancia de la muestra B a la muestra A; ③d(x,y)<d(x,z) +d(z,y), es decir, la distancia de la muestra A a la muestra B es menor que la distancia de la muestra A a la muestra C + la distancia de la muestra B a la muestra C.
  •  La distancia del coseno no satisface la desigualdad del triángulo y la divergencia KL no satisface la simetría. Ninguna de las dos es la definición de distancia en sentido estricto.

12. ¿Cuál es la idea de diseño de la entropía cruzada?

Optimizar la entropía cruzada es equivalente a optimizar la divergencia KL , donde p es la distribución verdadera y su entropía de información H(p) es un valor fijo. Es un término constante no optimizable para el modelo. Puede reemplazarse por 1, Cualquiera las constantes que incluyen Π no tienen ningún efecto sobre la optimización. La optimización de la entropía cruzada y la optimización de la divergencia KL son equivalentes en este tipo de problemas. En problemas de clasificación múltiple, los dos son completamente consistentes, porque para las etiquetas onehot , la entropía cruzada es esperar que los resultados de predicción del modelo puedan ser lo más consistentes posible con la distribución de etiquetas.

13. Expresión de descenso de gradiente.

  • Descenso de gradiente por lotes:
  • descenso de gradiente estocástico

14. ¿Qué son los problemas de optimización convexa en el aprendizaje automático? ¿Qué son los problemas de optimización no convexos? Por favor dé ejemplos.

  • La definición de función convexa es que la función L(.) es una función convexa si y sólo si para dos puntos cualesquiera x, y en el dominio, \lambda\en [0,1]la suma

Una explicación intuitiva de esta desigualdad es que cualquier punto en un segmento de línea formado por dos puntos cualesquiera en una superficie funcional convexa y un segmento de línea formado conectando dos puntos cualesquiera en ella no estará debajo de la superficie funcional.

  • Los problemas de optimización convexa incluyen modelos lineales como máquinas de vectores de soporte (SVM) y regresión lineal.
  • La optimización no convexa incluye modelos de bajo rango (como la factorización matricial), modelos de redes neuronales profundas, etc.

15. ¿Qué son el sesgo y la variación?

  • Desviación: la diferencia entre el promedio de la salida de todos los modelos entrenados en un conjunto de datos de entrenamiento de tamaño m y la salida real del modelo. El sesgo suele ser causado por suposiciones erróneas que hacemos sobre el algoritmo de aprendizaje. Por ejemplo, el modelo real es una función cuadrática, pero asumimos que el modelo es una función lineal. El error causado por el sesgo generalmente se refleja en el error de entrenamiento. .
  • Varianza: la varianza de los resultados de todos los modelos entrenados en todos los conjuntos de datos de entrenamiento muestreados de tamaño m. La varianza generalmente se debe a que la complejidad del modelo es demasiado alta en relación con el número de muestras de entrenamiento m. Por ejemplo, hay 100 muestras de entrenamiento y asumimos que el modelo es una función polinómica con un orden de no más de 200. El error causado por la varianza generalmente se refleja en la prueba El error es relativo al incremento del error de entrenamiento.

16. ¿Cuáles son los métodos de selección de funciones?

Selección de funciones filtradas, envueltas e integradas. La selección de características del filtro utiliza principalmente indicadores de evaluación independientes del modelo para evaluar la calidad de las características. Es rápido en el cálculo y puede detectar características fácil y rápidamente. La desventaja es que el cálculo de los indicadores de evaluación está desacoplado del modelo y la precisión a menudo es pobre.

 17. ¿Qué son el sobreajuste y el desajuste?

  • Desajuste: el modelo funciona mal tanto durante el entrenamiento como durante la predicción.
  • Sobreajuste: el modelo sobreajusta los datos de entrenamiento y funciona bien en el conjunto de entrenamiento, pero funciona mal en el conjunto de prueba y en los datos nuevos.

18. ¿Cómo solucionar los problemas de sobreajuste y desajuste?

  • Sobreajuste: ①Nivel de datos: aumentar muestras para aliviar el sobreajuste; ②Nivel de característica: reducir características para aliviar el sobreajuste; ③Nivel de modelo: restringir la complejidad del modelo, como l1, l2, limitar la profundidad del árbol, escalar la tasa de aprendizaje, parada temprana, abandono, BN regularización, integración de modelos.

19. ¿Por qué necesitamos normalizar las características de tipo numérico?

Los modelos resueltos por el método de descenso de gradiente generalmente necesitan normalizarse, incluidos los modelos basados ​​​​en la perspectiva del método de descenso de gradiente, incluida la regresión lineal, la regresión logística, las máquinas de vectores de soporte, las redes neuronales, la razón principal es que la normalización puede acelerar enormemente el proceso. Método de descenso de gradiente Velocidad de convergencia. Debido a que las características con tamaños similares pueden ayudar a que el descenso del gradiente converja mejor y más rápido, las características con diferentes grados de magnitud y rango darán como resultado diferentes tamaños de paso para cada característica. Para garantizar que el descenso del gradiente converja de manera más fluida y rápida, debemos escalar nuestras funciones para que compartan dimensiones similares.

20. ¿Por qué se agrega 1/N a la función de pérdida de regresión logística?

1/N (N representa el número de muestras) se puede integrar en la tasa de aprendizaje para comprender. La función de pérdida de la antorcha también está diseñada para promediar la pérdida y sumar la pérdida. La diferencia entre promediar y no sumar radica en los parámetros de cada paso. La diferencia en la cantidad de actualización de gradiente de W es N (número de muestras) veces. Cuando la cantidad de datos es grande, la cantidad de actualización de gradiente será muy grande, los cambios de peso serán muy drásticos y la convergencia será difícil Cuando la tasa de aprendizaje se reduce n veces, el efecto logrado es el mismo. El término constante en forma de multiplicador delante de la expresión del gradiente no tiene ningún impacto en la convergencia del método de descenso del gradiente y, esencialmente, puede entenderse como un cambio en la tasa de aprendizaje.

21. ¿Cuál es la condición de parada cuando la regresión logística utiliza el descenso de gradiente?

  • Número máximo de iteraciones alcanzado
  • Los valores de actualización de gradiente de todos los pesos son inferiores al umbral preestablecido.
  • Deténgase temprano

22. ¿Es la regresión logística un modelo lineal o no lineal?

  • Tratamos la regresión logística como un modelo lineal.
  • El resultado de la regresión logística es un valor lineal antes de ingresar a la función sigmoidea. Sigmoide asigna el resultado del modelo a un valor no lineal, por lo que desde el plano de decisión, la regresión logística es un modelo lineal y, desde el resultado, la regresión logística es un modelo no lineal. Sin embargo, la linealidad y la no linealidad generalmente se definen desde el plano de decisión, por lo que la regresión logística todavía se considera un modelo lineal.

23. ¿Qué significan las normas L0, l1 y l2 respectivamente?

  • Norma L0: el número de elementos distintos de cero en el vector
  • Norma L1: la suma de los valores absolutos de cada elemento del vector
  • Norma L2: suma los cuadrados de cada elemento en el vector y luego encuentra la raíz cuadrada.
  • Entre ellos, L0 y L1 pueden hacer que los parámetros sean escasos, pero la norma L0 es difícil de optimizar. La norma L1 es la aproximación convexa óptima de la norma L0 y es más fácil de optimizar y resolver que la norma L0; la norma L2 No solo puede evitar el sobreajuste, mejorar la capacidad de generalización del modelo y también hacer que nuestra solución de optimización sea estable y rápida.

Supongo que te gusta

Origin blog.csdn.net/qq_43687860/article/details/132533483
Recomendado
Clasificación