[Compartir tecnología] Seis: Introducción y selección del índice de clasificación de búsqueda

Este autor original del artículo: Peng Jiangjun liberado después de la autorización.

Enlace original: https://cloud.tencent.com/developer/article/1532635

Introducción

Esta sección se centrará en cómo localizar la diferencia entre los indicadores en línea y fuera de línea, alinear los indicadores en línea y fuera de línea, y obtener una relación aproximada. Optimice qué indicadores fuera de línea, correspondientes a qué indicadores se pueden mejorar en línea. Esto puede evitar el riesgo de que el modelo se conecte. Por lo tanto, el análisis de los indicadores también es un tema muy importante.

1: introducción del indicador

En esta serie de artículos 1, se enumeran varios indicadores comunes, y el proceso de análisis y cálculo se muestra aquí.

1.1 : NDCG

Nombre completo: ganancia acumulada normalizada con descuento. El índice de medición utiliza este descuento normalizado para garantizar la precisión del pedido de los encabezados .

Comencemos con la fórmula de cálculo de NDCG (no hay forma de usar la fórmula):

Esta fórmula se puede dividir en tres partes, CG, DCG y NDCG.

Permítanme hablar primero sobre CG, que significa ganancia acumulativa, que generalmente se usa junto con la ubicación. Debido a que la posición no está limitada, el CG es el mismo sin importar cómo se ordena una secuencia. Como se muestra a continuación:

Suponiendo que el puntaje está por encima de 0.8, la etiqueta está etiquetada con 2, 0.5 a 0.8 se registra como 1 y 0-0.5 se registra como 0. (Es extraño verlo aquí. En general, el puntaje entre 0-1 es 0.5 como el umbral, y la etiqueta se divide en dos categorías de 0 y 1. De hecho, la selección del umbral es diferente y la proporción de muestras positivas y negativas finalmente se divide. Diferente, y AUC evita la selección del umbral, que se discutirá más adelante. Este es solo un ejemplo de mi propia construcción, que es conveniente para explicar el concepto de NDCG)

Ejemplo 1: hay 5 documentos en una búsqueda y clasificación, la etiqueta real y la etiqueta pronosticada se muestran arriba:

Si son los primeros 5 CG.

El orden de la verdad fundamental es: Doc_1, Doc_2, Doc_5, Doc_4, Doc_3

El orden de Predict es: Doc_2, Doc_1, Doc_5, Doc_4, Doc_3

El calculo es:

verdad fundamental: CG = (2 ^ 1-1) + (2 ^ 2-1) + (2 ^ 1-1) + (2 ^ 0-1) + (2 ^ 0-1) = 5

Predecir: CG = (2 ^ 1-1) + (2 ^ 2-1) + (2 ^ 1-1) + (2 ^ 0-1) + (2 ^ 0-1) = 5

Aquí hay tres puntos:

1: El cálculo de la ganancia de cada muestra aquí es en forma de índice, principalmente para abrir la diferencia entre las etiquetas. Por supuesto, también podemos usar directamente el valor de la etiqueta como la ganancia para obtener el CG.

2: Al calcular CG, se calcula en función de la etiqueta de verdad fundamental, por lo que, aunque se predice que doc_1 y doc_2 se invierten, todavía se calculan en función de la etiqueta de verdad fundamental al calcular CG.

3: Cuando el CG se usa junto con la posición, la diferencia puede reflejarse, como

Verdad fundamental: CG @ 1 = 2 ^ 2-1 = 3

Predecir: CG @ 1 = 2 ^ 1-1 = 1

Es por eso que Ground es mejor que predecir (Esto es obviamente Groundtruth).

A continuación, estoy hablando de DCG, que es más D que CG. Recuerde en la primera sección que NDCG presta más atención a la evaluación de la cabeza, que se basa en esta D.

Para hacer que el valor de la etiqueta sea más grande en la parte delantera, o para castigar el valor de la etiqueta más grande en la parte posterior, DCG hace un descuento correspondiente en la posición, es decir, hace que el descuento de las diferentes posiciones sea diferente, las penalizaciones por más hacia atrás El mas grande.

Aquí puedes calcular:

Predecir: DCG = (2 ^ 1-1) / 1 + (2 ^ 2-1) /1.58+ (2 ^ 1-1) / 2 + (2 ^ 1-1) /2.32+ (2 ^ 0-1 ) /2.58=1.551

Verdad: DCG = (2 ^ 2-1) / 1 + (2 ^ 1-1) /1.58+ (2 ^ 1-1) / 2 + (2 ^ 0-1) /2.32+ (2 ^ 0-1 ) /2.58=3.148

Aquí hay tres puntos:

1: El divisor después de cada ganancia es el valor de log (i + 1) más el rango de la fórmula anterior

2: La razón por la cual se calcula el DCG de Groundtruth es para el servicio posterior de NDCG

Finalmente llegó a NDCG, porque solo DCG se cuenta, la mayor longitud de la lista de permutación es obviamente dominante, porque la acumulación es mayor, por lo que debe dividirse por Groundtruth DCG. Para normalizar

Por lo tanto, el valor NDCG del resultado de clasificación previsto es finalmente:

NDCG = 1.551 / 3.1486 = 0.4925

1.2 : MAPA

El nombre completo es Precisión media promedio. MAP es el promedio de la precisión promedio de cada tema.

MAP es un índice de valor único que refleja el rendimiento del sistema en todos los documentos relevantes. Cuanto más altos sean los documentos relevantes recuperados por el sistema (mayor será el rango), mayor será el MAP. Si el sistema no devuelve documentos relacionados, la tasa de precisión por defecto es 0.

Ejemplo: Un tema 1: hay cuatro documentos relacionados, que se clasifican en 1, 2, 4, 7 respectivamente. Entonces MAP = (1/1 + 2/2 + 3/4 + 4/7) /4=0.83.

1.3 : MRR

El nombre completo es Rango recíproco medio. Toma el recíproco de la clasificación de las respuestas estándar en los resultados dados por el sistema de evaluación como su precisión, y hace un descuento para la clasificación de los mejores para asegurar la cabeza.

Ejemplo: Un tema 1: hay cuatro documentos relacionados, que se clasifican en 1, 2, 4, 7 respectivamente. Entonces MRR = (1/1 + 1/2 + 1/4 + 1/7) /4=0.475.

1.4: AUC

El AUC es en realidad un indicador de evaluación extremadamente utilizado e incluso puede explicarse por separado. Para completar la estructura del artículo, lo colocamos bajo el índice de evaluación de clasificación de búsqueda para elaborar.

El AUC en sí mismo no presta atención a si el valor predicho es menor que un cierto valor umbral. Se utiliza para resolver el valor umbral en sí mismo, por lo que AUC puede predecir el valor AUC incluso si el valor predicho es mayor que 0.5 en el siguiente código. No tiene nada que ver con elegir un cierto umbral.

El AUC se describe a continuación.

AUC: El nombre completo es Área bajo curva, donde Curva se refiere a la curva ROC.

Curva ROC: la abscisa indica la tasa de falsos positivos (tasa de falsos positivos). El eje y es la tasa de verdaderos positivos. Calcule la conexión de (x, y) bajo diferentes umbrales. Por lo tanto, la curva ROC se puede transformar en dibujar aleatoriamente un par de muestras (una muestra positiva y una muestra negativa), y luego usar el clasificador entrenado para predecir estas dos muestras. La probabilidad de predecir la muestra positiva es mayor que la probabilidad de la muestra negativa.

Por lo tanto, en combinación con las definiciones de AUC y ROC, podemos obtener que AUC resuelve el problema de la precisión de cálculo tradicional (precisión), que primero debe establecer un umbral y convertir la probabilidad en una categoría para calcular la precisión. Porque cuando la muestra es uniforme, el umbral está bien determinado. Para el problema de clasificación 2, es mejor elegir 0.5; pero cuando la muestra no está equilibrada, el umbral es difícil de definir y se requiere una selección manual, lo que significa riesgo. El AUC intenta directamente todos los umbrales uno por uno para generar la curva ROC. Por lo tanto, AUC es más adecuado para la medición de muestras sesgadas.

De hecho, cuando calculamos, en lugar de intentar todos los umbrales directamente para calcular el área bajo el ROC, calculamos los pares de muestras positivas y negativas y calculamos los pares de muestras positivas y negativas. La relación del total. Convertido a la fórmula:

El cálculo estadístico de la curva ROC AUC y la equivalencia calculada de esta manera se pueden encontrar en: https://blog.csdn.net/chjjunking/article/details/5933105 .

Ejemplo: la etiqueta real y la etiqueta predicha son las siguientes:

Dibuje la tabla de verdad de la siguiente manera:

Establezca los umbrales uno por uno y dibuje la curva ROC

De hecho, podemos calcular directamente AUC construyendo pares de muestras positivas y negativas.

Los números de muestra son: doc1-doc8, doc1-dc4 son muestras positivas y doc5-doc8 son muestras negativas.

Hay 4 * 4 = 16 pares de muestras positivas y negativas, y el número de pares de predicción en los pares de muestras positivas y negativas es 10, que se puede obtener como AUC = 0.625.

2: Análisis de alineación de indicadores en línea y fuera de línea

El siguiente es un proyecto reciente para analizar un problema común en el aprendizaje automático que predice la desalineación fuera de línea y en línea.

Vea los antecedentes de proyectos específicos y modelos de aprendizaje automático:

2.1: el problema

En el proceso de hacer el modelo, se encontró el problema de desalineación entre los indicadores en línea y fuera de línea. Los resultados experimentales de los dos modelos bajo una plataforma se muestran en la figura a continuación:

Aquí, al calcular NDCG, MAP, MRR, usamos 0-3 (sin clic, clic corto, clic medio, clic largo) cuatro tipos de etiquetas para calcular. Al calcular el AUC y el GAUC de los clics largos, la etiqueta se calcula según la presencia o ausencia de clics largos; de manera similar, al calcular el AUC y el GAUC de los clics, la etiqueta se calcula según si hay clics (incluidos los clics cortos, medios y largos) . El indicador en línea CTR significa tasa de clics, CVR significa tasa de conversión y LCVR significa tasa de conversión larga. Se establecen diferentes prefijos para diferentes comparaciones, pero todos se basan en tasas de conversión largas.

Se puede encontrar que al calcular cuatro tipos de cálculos de etiquetas, se encuentran los siguientes dos fenómenos:

1: El MAP, NDCG y MRR del Modelo 1 son más altos que los del Modelo 2, pero no pueden aumentar la tasa de conversión, y los en línea y fuera de línea no están alineados.

2: Desde el punto de vista del valor de AUC, si el AUC de clic largo o el AUC de clic del Modelo 1 es mucho más alto que el del Modelo 2, ¿por qué el clic largo del Modelo 1 no ha mejorado después de conectarse?

2.2: ubicación del problema

Después de posicionarme durante mucho tiempo, más tarde pensé en usar la posición promedio predicha por el modelo para explicar. Como se muestra a continuación:

En respuesta a la pregunta 1 en 2.1: Encontramos que el modelo 1 tiende a predecir mejor el clic general (la cifra promedio de clics en la figura correspondiente), mientras que el punto promedio predicho para clics largos es de hecho más bajo que el del modelo 2. Entonces, en términos de la posición promedio predicha, podemos ver que el Modelo 1 tiene un mejor efecto de predicción en los clics, por lo que el AUC de los clics es mayor. ¿Cree que la posición promedio prevista también se puede utilizar como un indicador para medir la clasificación (creo que en realidad es posible, pero este indicador es discreto, desde el punto de vista de la optimización, no es bueno optimizar, pero la evaluación fuera de línea debería ser utilizable De).

En este momento, veremos el mapa de distribución de la muestra.

Se encontrará que en los cuatro tipos de muestras que construimos, la proporción de clics largos no es alta en el total de clics, lo que resulta en un modelo que predice bien los clics, entonces el valor general de NDCG será alto, que es el mismo que el NDCG en la tabla de indicadores , MAP, MRR y otros indicadores son consistentes con el AUC en el que se puede ver.

La pregunta 1 se puede responder hasta ahora, porque en la construcción de la etiqueta, la cantidad total de clics largos no es dominante, lo que da como resultado que el valor de NDCG no refleje el efecto de los clics largos establecidos por esta etiqueta.

Pregunta 2: En la tabla anterior, no he hablado acerca de tener un indicador GAUC. Después de reflexionar durante mucho tiempo, encontré GAUC. Más tarde, cuando me preparaba para escribir esta serie de artículos, descubrí que la compañía ya había mencionado en varias publicaciones de blog y usó GAUC como indicador de evaluación.

En la figura anterior, encontraremos que GAUC puede ser consistente con el en línea, pero AUC no es válido. Esto responde a la segunda pregunta. A continuación, pasaré un breve párrafo que detalla la diferencia entre GAUC y AUC.

3 : GAUC

GAUC se llama Grupo AUC. Su cambio relativo al AUC no es calcular el AUC general, sino calcular el AUC en cada grupo y luego calcular el valor promedio de AUC.

La fórmula de CAUC es la siguiente:

En los algoritmos de aprendizaje automático, en muchos casos, consideramos que el AUC es el índice de evaluación más utilizado, y el AUC refleja la capacidad general de clasificación de la muestra, pero a veces el AUC puede no explicar completamente el problema, y ​​el AUC realmente no refleja La calidad del modelo.

Tomando el método de estimación previa de CTR (el algoritmo de clasificación generalmente toma esto como un indicador muy importante) como ejemplo, la muestra en la que el usuario hace clic se considera una muestra positiva, y la muestra que no se hace clic se considera una muestra negativa. El resultado final del modelo es la probabilidad de si se hizo clic en la muestra.

Mezcle todas las muestras de usuarios en diferentes momentos para calcular la exactitud del modelo para la muestra positiva en la que hizo clic el usuario y la predicción de muestra negativa para obtener el valor de AUC, que no se ajusta muy bien al efecto de clasificación en la búsqueda de palabras, porque esta búsqueda puede ser El resultado que muestra el usuario es solo A (clic), B, C, el siguiente resultado de búsqueda muestra D, E (clic), F. Los resultados de estas dos búsquedas se fusionan para predecir, y es posible que el AUC no refleje muy bien el efecto de una sola búsqueda. Por lo tanto, en los resultados de una sola búsqueda, el usuario solo ve los resultados de la siguiente búsqueda, otras veces El orden de clasificación de los resultados de búsqueda no debe evaluarse para los resultados de esta clasificación.

Da un ejemplo específico:

El resultado de la clasificación es:

En este caso, los modelos A y B no tienen diferencia en la experiencia de dos búsquedas para los usuarios A y B. Porque en sus respectivas situaciones de búsqueda, el documento en el que hicieron clic se clasifica frente a los que no se hicieron clic. Bajo las AUC, la diferencia será grande.

Entonces, al final, GAUC fue elegido como el índice para evaluar y optimizar.

En cuanto a la relación cuantitativa entre el aumento de GAUC y el aumento de los indicadores en línea, lleva mucho tiempo observarlo.

Artículos de la serie de historia:

 

[Compartir tecnología] 1: Clasificación de búsqueda: descripción general

[Compartir tecnología] 2: Búsqueda de clasificación-Proceso industrial

[Uso compartido de tecnología] Tres: Búsqueda de modelos de modelado de aprendizaje automático

[Uso compartido de tecnología] 4: Búsqueda, clasificación, recopilación y construcción de datos

[Compartir tecnología] Cinco: Búsqueda Clasificación-Análisis de características

Tencent Cloud One-Stop Machine Machine Platform Titanium inteligente TI-ONE se ha abierto oficialmente al público, invitamos a todos a usar.

Plataforma inteligente de aprendizaje automático de titanio TI-ONE cloud.tencent.com

 

Comunidad profesional de desarrolladores de IA, ¡esperamos su visita!

Smart Titan AI Developer-Cloud + Community-Tencent Cloud cloud.tencent.com

 

Para obtener más artículos técnicos de alta calidad, preste atención a la cuenta pública oficial de WeChat:

Supongo que te gusta

Origin blog.csdn.net/qq_42933419/article/details/104948858
Recomendado
Clasificación