Un centenar de cara notas de aprendizaje automático -4

Evaluación del modelo

  curva ROC

  pregunta: ¿ cómo calcular AUC?

  responder: En primer lugar, el tamaño de la AUC se refiere al área bajo la curva ROC, el valor de cuantificación puede ser reflejada en la curva ROC para medir el rendimiento del modelo. Los valores de AUC se calcula solamente tienen que hacer la integración a lo largo del eje horizontal ROC en él. Dado que la curva ROC generalmente se encuentra por encima de esta línea recta y = x (si no, siempre que la predicción del modelo de probabilidad se invierte a 1-p puede conseguir un mejor clasificador), el AUC valores generalmente 0,5 entre ~ 1. Cuanto mayor sea el AUC, la explicación más probable clasificador a las mejores muestras verdaderas positivas de pie en la parte delantera, el rendimiento de la clasificación.

  : Pregunta curva ROC comparación con PR ( https://wordpress.aberttsy.cn/index.php/2020/04/01/machine-learning-3/ curva) ¿Cuáles son las características?

  Respuesta: Hay PR en comparación con la curva, una curva característica ROC, cuando se cambia la distribución de muestras positivas y negativas, la forma de la curva ROC puede ser sustancialmente sin cambios, mientras que la forma de la curva de PR son generalmente ocurren cambios más drásticos. 

 

  Como puede verse, se produjo la curva de PR cambios significativos, la forma de la curva ROC sustancialmente sin cambios. Esta característica permite curva ROC puede minimizar la interferencia causada por las diferentes unidades de prueba, de manera más objetiva medir el rendimiento del propio modelo. ¿Cuál es el significado real de la misma? En muchos problemas prácticos, el número de muestras positivas y negativas a menudo son desiguales. Por ejemplo, para publicidad calcular a menudo implica la conversión del modelo, el número de muestras positivas tienden a ser número par negativo de muestras 1/1000 1/10000. Si selecciona un conjunto de prueba diferente, el cambio PR curva será muy grande, y la curva ROC es más estable refleja la calidad del propio modelo. Así, las escenas más adecuadas curva ROC, es ampliamente utilizado en la clasificación, recomendaciones, publicidad y así sucesivamente. Pero tenga en cuenta que la elección de la curva de relaciones públicas o curva ROC se debe a los problemas prácticos varían, si los investigadores quieren ver más modelo de rendimiento en un conjunto de datos en particular, PR curva puede ser más directamente refleja su rendimiento.

  distancia del coseno

  pregunta: ¿Por qué son algunos de los escenarios que se utilizarán coseno similitud en lugar de la distancia euclídea?

  respuesta: Para dos vectores A y B, que se define como el coseno similitud es decir dos vectores coseno del ángulo, la relación angular entre los vectores en cuestión, que no se preocupan con el tamaño absoluto de los cuales está en el intervalo [- 1,1]. Mientras que si entre los mismos similitud coseno, entonces, cuando una gran parte de la longitud de la similitud de texto brecha, pero los contenidos son similares, si la palabra o palabra frecuencia que el vector de características, que la distancia euclidiana en el espacio de características es generalmente grande el ángulo puede ser pequeño, y por lo tanto una alta similitud. Además, en el campo de texto, imágenes, vídeo, dimensiones funcionales que ofrece el objeto de estudio es a menudo alta, restos coseno de similitud en un caso de alta dimensión, "Lo mismo es 1, 0 es ortogonal, opuesta a -1" la naturaleza, mientras que un valor de la distancia euclidiana se ve afectada por las dimensiones de la gama no es fijo, y el significado más bien ambigua.

  En algunos escenarios, por ejemplo Word2Vec en el que la matriz longitud del vector se normalizó a través de, esta vez con una distancia coseno distancia euclidiana tiene una relación monótona, es decir,

Donde || A-B || 2 representa la distancia euclidiana, cos (A, B) representa una similitud del coseno, (1-cos (A, B)) representado por la distancia del coseno. En este escenario, si se selecciona desde el mínimo vecinos (máxima similitud), a continuación, utilizar los resultados de similitud del coseno y la distancia euclidiana es la misma.

  En general, el valor absoluto de la diferencia refleja la distancia euclidiana, y las diferencias relativas reflejan la distancia de cosenos directores. Por ejemplo, estadísticas de dos juegos de usuario que está viendo el comportamiento, el usuario A está viendo vector (0,1), el usuario B es (1,0); este gran distancia de tiempo de coseno entre los dos, y la distancia euclidiana es pequeño; nos para el análisis de dos preferencias de usuario de vídeo diferentes, están más preocupados por la diferencia relativa, es obvio que debe ser usado cuando la distancia coseno. Y cuando se analiza la actividad del usuario a los tiempos de aterrizaje (unidad: segundos) y la duración media de tiempo para ver: tiempo (en minutos) como una característica, se considerará que la distancia coseno (1, 10), (10, 100) dos usuarios están muy cerca, pero obviamente, estas dos actividades de los usuarios tiene una gran diferencia, en este momento estamos más preocupados por el valor absoluto de la diferencia se debe utilizar la distancia euclídea.

  pregunta: si la distancia coseno es la distancia estrictamente definido?

  contesta: En primer lugar, vistazo a la definición de la distancia: en un conjunto, si cada uno puede identificar de forma única los elementos de un número real, haciendo tres del axioma (definitud positivo, la simetría, la desigualdad del triángulo) se cumple, entonces el número real puede ser llamado en este elemento la distancia entre. satisface distancia coseno definitud positiva y la simetría, pero no satisface la desigualdad triangular, la distancia no es estrictamente definido.

  Una trampa de prueba / B

  pregunta: Después de que el modelo había sido evaluado completamente fuera de línea, por qué en la línea de prueba A / B?

  responder:

  (1) modelo de evaluación en línea no puede eliminar por completo los efectos de exceso de ajuste, por lo tanto, los resultados de evaluación obtenidos fuera de línea no pueden sustituir totalmente a evaluación en línea.
  (2) evaluación fuera de línea no se puede reducir por completo la línea de ingeniería ambiental. En general, la evaluación fuera de línea a menudo no tienen en cuenta el entorno de línea de retardo, pérdida de datos, pérdida de etiquetas de datos y así sucesivamente. Por lo tanto, los resultados de la evaluación fuera de línea está bajo entorno de ingeniería ideal.
  Algunos indicador comercial (3) sistema en línea no se puede calcular en la línea evaluada. evaluaciones sin conexión se evaluaron generalmente contra el modelo en sí, mientras que otros indicadores relacionados con el modelo, especialmente los indicadores de negocio, a menudo no se pueden obtener directamente. Por ejemplo, en línea un nuevo algoritmo de recomendación, sin conexión evaluar tienden a centrarse en es mejorar la curva ROC, curva de PR, y la evaluación en línea puede comprender plenamente el método recomendado proporciona a los usuarios el porcentaje de clics, la duración de la retención, los cambios en las visitas fotovoltaicos, etc. . Estos tendrán que llevar a cabo una evaluación exhaustiva de las pruebas A / B.

  pregunta: ¿ cómo hacer una prueba en línea / B?

  responder: para los medios primarios de kit de prueba de A / B de las piezas es un usuario, es decir, el usuario dividido en grupo experimental y el grupo control, el grupo experimental de los usuarios para imponer el nuevo modelo, el usuario del grupo de control se somete a la antigua modelo. En el proceso de división de la bañera, la muestra que se observó que la independencia y el modo de muestreo imparcial para asegurar que el mismo sólo puede ser asignado a un usuario con un cubo, el cubo en un proceso de separación seleccionado user_id necesita un número aleatorio , con el fin de asegurar que el cubo de la muestra es imparcial.

  pregunta: ¿ cómo dividir el grupo experimental y el grupo control (modelo desarrollado recientemente A, pero los usuarios existentes están utilizando un modelo B, pregunte cómo dividido, puede validar el modelo A)?

  Respuesta: El user_id divide en grupos de prueba y control, respectivamente, utilizando el modelo A, el modelo B, con el fin de verificar el efecto de la modelo A.

método de evaluación del modelo

  pregunta: ¿ En el proceso de evaluación del modelo, lo que son el principal método de verificación, para decir las ventajas y desventajas.

  responder:

  (1) Prueba Holdout es el método más simple y más directo de la verificación, el conjunto original de muestras se dividieron aleatoriamente en un conjunto de entrenamiento y un conjunto de validación de dos partes. Por ejemplo, un clic de tarifa para el modelo de predicción, que escala muestra de 70% a 30% dividido en dos partes, 70% de las muestras para la formación del modelo; 30% de las muestras se usan para la validación del modelo, incluida la elaboración de la curva ROC, para calcular una precisa y la tasa de recuperación y otros indicadores para evaluar el desempeño del modelo. deficiencias de inspección no aceptantes es obvio que el índice calculado en la última evaluación conjunto de validación y el paquete original tiene un montón. Con el fin de eliminar la aleatoriedad, los investigadores introdujeron la idea de "control cruzado" de.

  (2) k-veces la validación cruzada: En primer lugar, toda la muestra se divide en k subconjuntos de muestras de igual tamaño; recorrer secuencialmente los subconjuntos K, cada subconjunto del conjunto actual de verificación como todos los subconjuntos restantes del conjunto de entrenamiento para modelos de formación y evaluación; la media del último índice de evaluación k como el índice de evaluación final. En el experimento real, k se toma a menudo 10. Deja una validación: cada uno ha dejado una muestra como un conjunto de validación, todas las otras muestras como un conjunto de prueba. El número total de muestras N, N muestras atravesadas secuencialmente, n veces verifica, entonces promediados para dar el índice final de evaluación índice de evaluación. En el caso de que el número total de muestras están disponibles, dejando un gran validación de la sobrecarga de tiempo. De hecho, dejando una verificación es un caso especial de la estancia de verificación p. La validación es un tiempo de estancia muestras p p dejado como un conjunto de validación, y elegir los elementos p de n elementos de una clase que es probable, por lo que es tiempo de sobrecarga es mucho más alta que la licencia de una verificación, y por lo tanto rara vez funciona en la práctica se aplica.

  补充:不管是Holdout检验还是交叉检验,都是基于划分训练集和测试集的方法进行 模型评估的。然而,当样本规模比较小时,将样本集进行划分会让训练集进一步 减小,这可能会影响模型训练效果。

  (3) 自助法是基于自助采样法的检验方法。对于总数为n的样本集合,进行n次有 放回的随机抽样,得到大小为n的训练集。n次采样过程中,有的样本会被重复采 样,有的样本没有被抽出过,将这些没有被抽出的样本作为验证集,进行模型验 证,这就是自助法的验证过程。

  question: 在自助法的采样过程中,对n个样本进行n次自助抽样,当n趋于无穷大时, 最终有多少数据从未被选择过?

  answer:

因此,当样本数很大时,大约有36.8%的样本从未被选择过,可作为验证集。

Supongo que te gusta

Origin www.cnblogs.com/tsy-0209/p/12629699.html
Recomendado
Clasificación