#Reading Paper# 【曝光偏差】WWW 2022 UKD: Eliminación del sesgo de la estimación de la tasa de conversión a través de la incertidumbre regularizada

#Título de la tesis: [Sesgo de exposición] UKD: Estimación de la tasa de conversión de eliminación de sesgo a través de la destilación de conocimiento regularizada por incertidumbre (UKD: Estimación de la tasa de conversión de eliminación de sesgo (CVR) a través de la destilación de conocimiento regularizada de incertidumbre) #Dirección de la tesis: https: //
arxiv.org/pdf/ 2201.08024.pdf
#Código fuente en papel Dirección de fuente abierta: aún no
#Conferencia de afiliación en papel: WWW 2022
#Unidad de afiliación en papel: Ali
inserte la descripción de la imagen aquí

1. Introducción

Este artículo es un método de mejora relacionado para el problema de sesgo de selección de muestra en publicidad.El mismo sistema de recomendación común también tiene problemas de SSB, por lo que tiene importancia de referencia.
Los modelos tradicionales de estimación de la tasa de conversión posterior al clic (CVR) se entrenan utilizando muestras de clics. Sin embargo, una vez que el modelo está activo, debe estimarse para todos los anuncios gráficos, lo que genera un problema de sesgo de selección de muestra (SSB). Por lo tanto, se necesitan señales de supervisión confiables para los anuncios en los que no se ha hecho clic para aliviar el problema de la SSB.
Este documento propone un marco de Destilación Regularizada del Conocimiento de la Incertidumbre (UKD):

  • Elimina el sesgo de las estimaciones de CVR extrayendo información de los anuncios en los que no se ha hecho clic. El modelo de profesor aprende representaciones adaptables a los clics y genera etiquetas de pseudoconversión en los anuncios en los que no se ha hecho clic como señales de supervisión.
  • Luego, el modelo de estudiante se entrena en anuncios en los que se hizo clic y en los que no se hizo clic a través de la destilación del conocimiento , con modelos de incertidumbre para mitigar el ruido inherente en las pseudoetiquetas .

2. Método

inserte la descripción de la imagen aquí
Como se muestra en la figura, se muestra el proceso general del modelo Haga clic en el modelo de maestro adaptativo para generar un modelo de estudiante regularizado para etiquetas e incertidumbres para destilar conocimiento.

2.1 Haga clic en Modelo de profesor adaptativo

El objetivo del modelo de profesor es generar pseudoetiquetas para los datos en los que no se ha hecho clic D unclick dado solo el acceso a las etiquetas de conversión para los datos en los que se ha hecho clic D click . Hay una diferencia en la distribución de características de las muestras en las que se hizo clic y las muestras en las que no se hizo clic. Para tener capacidades de inferencia precisas para los anuncios sin hacer clic, el modelo de maestro necesita aprender representaciones adaptables al clic. La generación de etiquetas de pseudotransición se aborda desde la perspectiva de la adaptación de dominios no supervisados, donde los dominios de origen/destino son espacios para pulsar/deshacer clic. De esta forma, el problema se formula como la generación de etiquetas de pseudo-conversión confiables para anuncios no etiquetados sin hacer clic (D sin hacer clic como dominio de destino), dados anuncios etiquetados con clic (D haciendo clic como dominio de origen).

2.1.1 Haga clic en Aprendizaje de representación adaptable

2.1.1.1 Estructura del modelo

El modelo de maestro es la parte izquierda de la Figura 2, que incluye principalmente la representación de características del alumno TTT f( ), predictor de RCVTTT p( ), golpee el discriminadorTTTd (). Característica Representación AprendizTTT f( ) toma características de muestra como entrada para aprender su representación densahhh (T),TTT f( ) contiene una capa de incrustación y una capa densa multicapa. El período de predicción de CVR se utiliza para predecir la puntuación de CVRinserte la descripción de la imagen aquí
, que incluye principalmente la capa densa y la función softmax.

Para hacer la representación de características hhh (T)Mejor adaptación de clics para facilitar la generación de etiquetas de pseudoconversión en anuncios sin clics, el modelo de maestro introduce un discriminador de clicsTTT d( ) clasifica el dominio (es decir, se hizo clic o no se hizo clic) de cada muestra. Si un discriminador de clic fuerte no puede predecir correctamente la etiqueta de dominio de un ejemplo, su representaciónhhh (T)se adapta al clic. La fórmula se expresa de la siguiente manera, donde pconves la distribución prevista de cvr y pdes la distribución prevista del dominio.
inserte la descripción de la imagen aquí

2.1.1.2 Aprendizaje adversario

Para aprender la representación adaptable al clic, dado un anuncio, por TTT f( ) se representa con la esperanza de confundir el discriminador de clics y maximizar la pérdida de clasificación del dominio, mientras que el discriminador de clics ( ) en sí tiene como objetivo minimizar la pérdida de clasificación del dominio para ser un clasificador fuerte. El modelo de profesor se optimiza mediante el aprendizaje adversarial:
inserte la descripción de la imagen aquí
el primero minimiza la pérdida estimada por CVR para optimizar ( ) y ( ). El segundo significa que el alumno ( ) hace que las representaciones de los anuncios en los que se hizo clic y los que no se hicieron clic sean indistinguibles, mientras que el discriminador de clics ( ) está optimizado para distinguir mejor entre los anuncios en los que se hizo clic y los que no.

2.1.2 Generar pseudo-etiquetas para anuncios sin hacer clic

Introduzca los datos sin hacer clic en el modelo del profesor y prediga su distribución de CVR inserte la descripción de la imagen aquícomo pseudoetiquetas. Se usarán inserte la descripción de la imagen aquícomo muestras sin hacer clic para modelos posteriores.

2.2 Modelo de estudiante regularizado de incertidumbre

Basado en las etiquetas de pseudo-conversión de los anuncios en los que no se hizo clic aprendidas por el modelo de maestro adaptable al clic, el marco UKD construye un modelo de estudiante basado en la destilación de conocimiento que aprende de los anuncios en los que se hizo clic (con etiquetas reales) y anuncios en los que no se hizo clic (usando pseudoetiquetas) para Estimación del CVR de todo el espacio. Este modelo alivia el problema de SSB al considerar explícitamente las muestras sin hacer clic durante el entrenamiento en comparación con los modelos entrenados usando solo muestras con clic.

La estrategia de destilación puede guiar al modelo de estudiante para extraer el valioso conocimiento aprendido por el modelo de maestro. Debido al ruido inherente a las predicciones del profesor, las pseudoetiquetas para los anuncios en los que no se ha hecho clic son menos seguras que las etiquetas de conversión verdaderas para los anuncios en los que se ha hecho clic. Para abordar este problema, se propone un modelo de estudiante con incertidumbre regularizada para reducir el impacto negativo del ruido mediante la simulación de la incertidumbre de las pseudoetiquetas durante la destilación.

2.2.1 Modelo básico de Student: destilación de etiquetas

2.2.1.1 Estructura del modelo

El modelo de estudiante base se basa en un modelo de tareas múltiples y consta de dos estudiantes de representación de características (es decir, SSS vf( ) para la tarea CVR,SSS cf( ) para la tarea CTR). Los dos alumnos de representación comparten una capa de incrustación de características, y cada alumno tiene varias capas densas para aprender su respectiva representación h. Y cada uno de los dos predictores contiene una densa capa de función softmax. El proceso de avance del modelo base de estudiante es:
inserte la descripción de la imagen aquí

2.2.1.2 Destilar conocimiento de anuncios sin hacer clic

Con etiquetas de pseudoconversión de anuncios sin hacer clic aprendidas por el maestro, el modelo de estudiante se optimiza en todo el espacio para aliviar el problema de SSB. El objetivo de la tarea de estimación de CVR es:
inserte la descripción de la imagen aquí
la función de pérdida general se expresa como
inserte la descripción de la imagen aquí

2.2.2 Regularización de la incertidumbre

Se espera que la confianza de las etiquetas de pseudoconversión de los anuncios en los que no se ha hecho clic sea menor que la de las etiquetas de conversión reales de los anuncios en los que se ha hecho clic, ya que la última se obtiene de los registros de comentarios de los usuarios, mientras que la primera la genera el modelo del profesor. Debido al ruido inherente en las predicciones del profesor, las muestras sin hacer clic con pseudoetiquetas ruidosas pueden inducir a error en el proceso de formación del modelo de estudiante. Para una destilación efectiva del conocimiento de los anuncios en los que no se ha hecho clic, hay dos aspectos clave:

  • (i) identificar muestras ruidosas y poco confiables sin hacer clic,
  • (ii) Reducir los efectos negativos durante la destilación.

Este artículo refleja el ruido mediante la estimación de la incertidumbre de las pseudoetiquetas de las muestras no seleccionadas , donde los valores más altos de incertidumbre indican una peor confiabilidad. Al usar una alta incertidumbre como medida de muestras ruidosas sin hacer clic, el impacto negativo de dichas muestras se puede reducir simplemente asignando pesos bajos a su pérdida de CVR, evitando así confundir el proceso de destilación del modelo de estudiante. Por lo tanto, se propone un modelo de estudiante con regularización incierta. Estima la incertidumbre de las pseudoetiquetas para cada anuncio en el que no se hace clic y ajusta dinámicamente el peso de la pérdida de CVR para los anuncios en los que no se hace clic según el nivel de incertidumbre, lo que reduce el impacto negativo del ruido .

2.2.2.1 Modelización de la incertidumbre

El modelo de estudiante regularizado por incertidumbre contiene dos predictores CVR SSS vp( ) ySSS vp'( ) para estimar simultáneamente las puntuaciones de CVR (que se muestran en el lado derecho de la Figura 2), y luego modelar la incertidumbre como su inconsistencia. vamospppconv yp'p'pag' convrepresenta la distribución de predicciones de dos predictores CVR. La incertidumbre se expresa como la divergencia KL de dos predicciones, donde el propósito de la deserción es mejorar la diferencia entre las dos predicciones.
inserte la descripción de la imagen aquí

2.2.2.2 Regularización de la incertidumbre

En función de la incertidumbre estimada de cada muestra sin clicar, el impacto negativo de las muestras ruidosas sin clicar durante la destilación se reduce ajustando dinámicamente los pesos basados ​​en la incertidumbre y la pérdida de CVR. En comparación con el modelo de estudiante base, el proceso de destilación de los anuncios en los que no se hizo clic ahora está regularizado por la incertidumbre de la pseudoetiqueta, lo que mitiga el ruido inherente presente en las predicciones del maestro.
Para cada muestra sin hacer clic, utilícela inserte la descripción de la imagen aquícomo regularización de incertidumbre para ponderar su pérdida de CVR original. Este factor es inversamente proporcional a la incertidumbre (es un hiperparámetro). Por lo tanto, la pérdida LLL CVR_unclickse puede definir como la siguiente fórmula,
inserte la descripción de la imagen aquí
si una muestra tiene una incertidumbre alta, el factor devuelve un valor más pequeño para reducir el peso de su pérdida de CVR. Si la incertidumbre se aproxima a 0, el factor tiende a 1 y dicho modelo de estudiante se transfiere al modelo base de estudiante.

3. Resultados

inserte la descripción de la imagen aquí
Referencia: https://zhuanlan.zhihu.com/p/471138795

Supongo que te gusta

Origin blog.csdn.net/CRW__DREAM/article/details/127669706
Recomendado
Clasificación