Plan técnico del campeón de la competición Debiasing de la Copa KDD 2020 y su práctica en la publicidad de Meituan

ACM SIGKDD (Conferencia Internacional sobre Minería de Datos y Descubrimiento del Conocimiento, KDD para abreviar) es la principal conferencia internacional en el campo de la minería de datos.

 

Basado en sus propios escenarios comerciales, el equipo de algoritmos de publicidad de búsqueda de la plataforma de publicidad Meituan en la tienda ha estado optimizando e innovando continuamente tecnologías de vanguardia. La fuerza del equipo, Hu Ke, Qi Yi, Qu Tan, Ming Jian, Bo Hang, Lei Jun y Tang Xingyuan de la Academia de Ciencias de la Universidad de China formaron conjuntamente el equipo Aister, participaron en Debiasing, AutoGraph y Multimodalities Recall tres- problemas en la pista, y finalmente ganó el campeonato en el circuito Debiasing (1/1895), también ganó el campeonato (1/149) en la pista AutoGraph, y ganó el tercer lugar en la pista Multimodalities Recall (3/1433).

Este artículo presentará las soluciones técnicas de las preguntas de competencia de Debiasing, así como la aplicación e investigación del equipo en la eliminación de desviaciones en el negocio publicitario.

antecedentes

La Copa KDD es un evento internacional de primer nivel en el campo de la investigación de minería de datos organizado por SIGKDD. Se lleva a cabo anualmente desde 1997 y actualmente es el evento más influyente en el campo de la minería de datos. La competencia está orientada tanto a los círculos empresariales como académicos, reuniendo a los mejores expertos, académicos, ingenieros y estudiantes de la industria de minería de datos del mundo para participar, proporcionando a los profesionales de la minería de datos una plataforma para intercambios académicos y visualización de resultados de investigación. KDD Cup 2020 tiene un total de cinco preguntas de competencia (cuatro pistas), que involucran sesgo de datos (Debiasing), recordatorio de multimodalidades (Multimodalities Recall), aprendizaje automático de gráficos (AutoGraph), problemas de aprendizaje por adversarios y problemas de aprendizaje por refuerzo.

Figura 1 Conferencia KDD 2020

En el sistema de publicidad, cómo eliminar la desviación de datos es uno de los problemas más desafiantes, y también es un punto clave de investigación en el círculo académico en los últimos años. Con la evolución continua de la forma del producto y la tecnología de algoritmos, el sistema continuará acumulando desviaciones. El equipo de algoritmos de publicidad de búsqueda ha logrado un gran avance en el problema de la desviación de datos, lo que ha traído una mejora significativa en los resultados comerciales. Especialmente en la competencia Debiasing, basada en la acumulación técnica del problema de eliminación de la desviación, el equipo ganó el primer lugar de la feroz competencia de 1895 equipos en todo el mundo, y el índice de evaluación final (ndcg_half) lidera el segundo lugar en un 6.0%. A continuación, presentaremos las soluciones técnicas de las preguntas de la competencia de Debiasing, así como la aplicación e investigación del equipo sobre la eliminación de desviaciones en el negocio de la publicidad. Esperamos ser útiles o inspiradores para los estudiantes involucrados en investigaciones relacionadas.

Adjunto: Código fuente abierto de solución técnica

Figura 2 Lista de los 10 TOP 10 de la competencia de debiasing de la KDD Cup 2020

Introducción de preguntas de competencia y análisis de problemas

Descripción general de los problemas de eliminación de desviaciones

La mayoría de las empresas minoristas y de comercio electrónico utilizan cantidades masivas de datos para implementar sistemas de búsqueda y recomendación en sus sitios web para promover las ventas. Con el desarrollo de esta tendencia y el aumento masivo del tráfico, se han creado varios desafíos para los sistemas de recomendación. Uno de los desafíos que vale la pena explorar es el tema de la equidad de la inteligencia artificial en el sistema de recomendación [1,2], es decir, si el sistema de aprendizaje automático está equipado con objetivos a corto plazo (como clics, transacciones a corto plazo), simplemente la optimización para objetivos a corto plazo conducirá a un grave "efecto Mateo", es decir, los productos populares recibirán más atención y los productos menos populares serán cada vez más olvidados, lo que resultará en una desviación popular en el sistema [3], y la mayoría Los modelos y sistemas son iterativamente dependientes Según los datos de Pageview, los datos de exposición son un subconjunto de los candidatos reales seleccionados por el modelo. Depender continuamente de los datos y la retroalimentación seleccionados por el modelo para el entrenamiento formará un sesgo selectivo [3].

La acumulación del sesgo de popularidad y el sesgo de selectividad antes mencionados harán que el "efecto Matthew" en el sistema se vuelva cada vez más serio. Por lo tanto, la equidad de la inteligencia artificial es crucial para la optimización continua del sistema de recomendación, y esto tendrá un impacto profundo en el desarrollo del sistema de recomendación y el entorno ecológico.

Dado que no es un problema de optimización bien definido, la eliminación de sesgos es un problema muy desafiante en los sistemas de recomendación actuales, y también es un punto clave de investigación en los círculos académicos actuales. Esta competencia KDD también se basa en el problema de la desviación, basado en el problema de la predicción del siguiente elemento (Predicción del siguiente elemento) en el comercio electrónico para la estimación no sesgada.

El funcionario del concurso proporciona datos de clics del usuario, datos multimodales de productos y datos de características del usuario. Entre ellos, los datos de clic del usuario proporcionan el producto en el que el usuario hizo clic en el historial y la marca de tiempo del clic. Los datos multimodales del producto son principalmente el vector de texto y el vector de imagen del producto, y los datos de características del usuario incluyen al usuario edad, sexo, ciudad, etc. Los datos involucraron más de 1 millón de clics, 100.000 productos y 30.000 usuarios. Según la ventana de tiempo, las etapas de datos se dividen en diez etapas, la puntuación final se basa en las últimas tres etapas.

Para enfocarse en eliminar el problema del sesgo, los indicadores de evaluación proporcionados en esta pregunta de competencia incluyen NDCG @ 50_full, NDCG @ 50_half, hitrate @ 50_full, hitrate @ 50_half. Para la evaluación se utilizan dos indicadores, NDCG @ 50_full y NDCG @ 50_half.

  • NDCG @ 50_full : De acuerdo con el índice de evaluación del sistema de recomendación regular NDCG, el efecto de clasificación promedio de las 50 listas de productos principales recomendadas por cada solicitud de usuario se evalúa en todo el conjunto de datos de evaluación. Este conjunto de evaluación se denomina conjunto de evaluación completo.

  • NDCG @ 50_half : Centrándonos en el problema del sesgo, la mitad de los productos en los que se hizo clic con poca exposición histórica se toman del conjunto completo de datos de evaluación y la lista recomendada de estos productos se evalúa mediante el índice NDCG. El conjunto de evaluación se denomina medio conjunto de evaluación.

La puntuación selecciona primero a los mejores equipos del 10% a través de NDCG @ 50_full, y luego utiliza NDCG @ 50_half entre estos equipos para la clasificación final. En la evaluación final, NDCG @ 50_half evaluará la diferencia en las clasificaciones Top, y el método de evaluación más importante en la predicción de datos de cola larga puede evaluar mejor la optimización de los jugadores de la desviación de datos. A diferencia del problema tradicional de estimación de la tasa de aciertos del conjunto de datos cerrados (estimación CTR), las características de los datos y los métodos de evaluación anteriores se centran en la optimización de las desviaciones.

Análisis de datos y comprensión de problemas

Análisis de datos y problemas : Hay un total de 35444 usuarios en los datos de características del usuario, pero solo 6789 usuarios tienen características, por lo que la tasa de cobertura de características es solo del 19,15%. Debido a que la tasa de cobertura es baja y solo hay tres características de la edad, género y ciudad, encontramos. Estas características son inútiles para toda nuestra tarea. Hay un total de 117720 productos en los datos de características del producto, 108,916 productos tienen vectores de texto y vectores de imagen, y la tasa de cobertura es tan alta como 92.52%. La similitud de texto y la similitud de imagen entre productos se pueden calcular en función del vector. a la diferencia en la información del usuario y la información del producto La falta, cómo hacer un buen uso de estos vectores multimodales de productos básicos es extremadamente importante para toda la tarea.

Análisis de sesgo selectivo : como se muestra en la Tabla 1, comparamos los conjuntos de candidatos de productos retirados en función de la co-ocurrencia de clics de i2i (item2item) y la similitud del vector i2i según los dos métodos de filtrado colaborativo basados ​​en elementos. Debido a las limitaciones de rendimiento del sistema, Limitamos la longitud máxima del conjunto candidato a 1000, y encontramos que los dos métodos de recuperación tienen una tasa de aciertos más baja en el conjunto de evaluación, y no importa qué método se use, el sistema tiene un sesgo de selectividad mayor, es decir, recomendación La Las muestras dadas al usuario se seleccionan de acuerdo con el sistema, no todos los conjuntos de candidatos El conjunto de candidatos verdaderos excede en gran medida las muestras recomendadas al usuario, lo que genera un sesgo selectivo en los datos de entrenamiento.

Además, descubrimos que según los clics de i2i, hay una tasa de aciertos más alta en el conjunto de evaluación completo en comparación con el conjunto de evaluación medio, lo que indica que prefiere productos populares, y los índices de aciertos en los conjuntos de evaluación completa y media basados ​​en la similitud del vector i2i son iguales. Significa que no tiene preferencia por la popularidad. Al mismo tiempo, el conjunto de candidatos recordado por los dos métodos tiene solo una tasa de repetición del 4%. Por lo tanto, debemos combinar las dos relaciones de productos de co-ocurrencia de clics y similitud de vectores para generar un conjunto de entrenamiento más grande, aliviando así el sesgo de selectividad.

Tabla 1 Tasa de aciertos de recuperación de la co-ocurrencia de clics i2i y similitud del vector i2i

Como se muestra en la Figura 3, analizamos la popularidad de los productos básicos, donde la abscisa es la frecuencia de los clics de los productos básicos, es decir, la popularidad de los productos básicos, y la ordenada es el número de productos básicos. En la figura, truncamos la popularidad y la abscisa máxima debería ser 228. Puede verse que la popularidad de la mayoría de los productos básicos es baja, lo que se ajusta a la distribución de cola larga. Los dos diagramas de caja de la figura son la distribución de la popularidad del producto en el conjunto de datos de evaluación completo y la distribución de la popularidad del producto en la mitad del conjunto de datos de evaluación. A partir de estos dos diagramas de caja, se puede ver que existe un sesgo de popularidad en el conjunto de datos. La mitad de los datos de evaluación en todo el conjunto de evaluación completo se basan en productos con menor popularidad, mientras que la otra mitad de los productos de datos de evaluación tienen mayor Popularidad. Hacer clic en un producto para construir una muestra dará como resultado productos positivos más populares en los datos, lo que resultará en una desviación popular.

Figura 3 Desviación de la popularidad de los productos básicos

Desafío del problema

El principal desafío de esta competencia es eliminar el sesgo en el sistema de recomendación Del análisis de datos anterior, se puede ver que hay dos tipos principales de sesgos, el sesgo de selección y el sesgo de popularidad.

  • Sesgo selectivo: los datos de exposición son seleccionados por el modelo y el sistema, y ​​son inconsistentes con todos los conjuntos candidatos en el sistema [4,5].

  • Desviación de popularidad: el número de clics históricos en un producto presenta una distribución de cola larga. Por lo tanto, existe una desviación de popularidad entre el producto principal y el producto final. Cómo resolver la desviación de popularidad es también uno de los principales desafíos de la competencia [ 6,7].

Sobre la base de las desviaciones anteriores, el uso tradicional de Pageview (exposición) -> Haga clic (clic) haga clic en las ideas de modelado de predicción no puede modelar razonablemente los intereses reales de los usuarios. En nuestros intentos preliminares, también encontramos que las ideas de modelado tradicionales son menos efectivas . A diferencia de las ideas tradicionales de modelado de intereses del usuario, en primer lugar, utilizamos la conversión de modelado u2i2i (user2item2item) y utilizamos el modelado i2i en lugar del método de estimación de CTR tradicional u2i (user2item) modelado de intereses. Además, utilizamos recorridos de varios saltos basados ​​en gráficos i2i para generar muestras candidatas en lugar de generar ideas basadas en muestras de páginas vistas. Al mismo tiempo, introdujimos la penalización de popularidad en el proceso de composición y el proceso de modelado i2i. Finalmente, el desafío de desviación anterior se resolvió de manera efectiva.

Solución técnica de competición

Con el objetivo de enfrentar los desafíos de la desviación de la selectividad y la desviación de la popularidad, llevamos a cabo un diseño de modelado para optimizar de manera efectiva la desviación anterior. El método de modelado de CTR existente puede entenderse como el modelado de u2i, que generalmente describe la preferencia del usuario por productos candidatos en un contexto de solicitud específico, y nuestro método de modelado es conocer el historial del usuario de cada producto seleccionado y producto candidato. La relación puede ser entendido como el modelado de u2i2i. Este método de modelado es más útil para aprender una variedad de relaciones i2i y puede extender fácilmente la relación de un salto en el gráfico i2i a una relación de múltiples saltos, y múltiples relaciones i2i pueden explorar datos más imparciales para aumentar el conjunto de candidatos de producto. el conjunto de entrenamiento logra el propósito de aliviar el sesgo de selectividad.

Al mismo tiempo, teniendo en cuenta la desviación de popularidad causada por los productos populares, introdujimos una penalización de popularidad al peso del borde en el proceso de composición, de modo que haya más oportunidades de explorar productos de baja popularidad al realizar saltos múltiples y al mismo tiempo. Al mismo tiempo en el proceso de modelado y posprocesamiento En el proceso, también introdujimos la penalización de popularidad para aliviar la desviación de popularidad.

Al final, formamos un marco de clasificación basado en el modelado i2i. El diagrama del marco se muestra en la Figura 4. En nuestro marco, el proceso de recomendación de productos se divide en tres etapas. La primera etapa es construir un mapa i2i basado en datos de comportamiento del usuario y datos multimodales del producto, y realizar recorridos de varios saltos basados ​​en el mapa i2i para generar el candidato i2i muestras; la primera etapa es dividir la secuencia de clics del usuario, construir un conjunto de muestras de relación i2i basado en las muestras candidatas i2i, realizar ingeniería de características automatizada basada en el conjunto de muestras i2i y usar la función de pérdida ponderada de popularidad para modelar la eliminación de la popularidad sesgo; la tercera etapa De acuerdo con la secuencia de clics del usuario, se agregan las puntuaciones i2i generadas por el modelo i2i y la lista de productos puntuados se somete a un posprocesamiento para eliminar la desviación de popularidad, clasificando así la lista de productos y recomendándola. Presentaremos el plan de tres etapas en detalle.

Figura 4 Marco de clasificación basado en el modelado i2i

Generación de muestras candidatas de i2i basadas en la caminata de varios saltos

Con el fin de explorar más muestras candidatas insesgadas de i2i para el modelado i2i, aliviando así el sesgo de selección, construimos un gráfico i2i con relaciones de aristas múltiples e introdujimos una penalización de popularidad en el proceso de construcción de aristas para eliminar la desviación de popularidad. Como se muestra en la Figura 5 a continuación, la construcción de gráficos i2i y la generación de muestras candidatas i2i de caminata de múltiples saltos se dividen en tres pasos: la construcción de gráficos i2i, caminatas de múltiples saltos i2i y la generación de muestras candidatas de i2i.

Figura 5 Generación de muestras de candidatos de i2i basadas en caminar con varios saltos

El primer paso es la construcción del gráfico i2i. Hay un tipo de nodo en el gráfico, a saber, el nodo básico, y los dos tipos de relaciones de borde son el borde de co-ocurrencia de clic y el borde de vector multimodal. El lado de co-ocurrencia de clics se construye a partir de la secuencia histórica de clics del producto del usuario, y el peso del lado se obtiene mediante la siguiente fórmula. Según la frecuencia de co-ocurrencia de clics histórica del usuario entre los dos productos, el intervalo de tiempo de cada clic la co-ocurrencia se considera un factor, y se agrega penalización por actividad del usuario y penalización por popularidad del producto. El factor de intervalo de tiempo tiene en cuenta que cuanto más corto sea el tiempo de co-ocurrencia entre los dos productos, mayor será la similitud entre los dos productos; la penalización por actividad del usuario considera la equidad de los usuarios activos y los usuarios inactivos, y se mide por el número de Clics históricos del usuario en el producto Penalizar a los usuarios activos, la penalización por popularidad del producto considera la frecuencia histórica de clics del producto, penaliza a los productos populares y alivia la desviación de popularidad [8].

El borde del vector multimodal se construye mediante la similitud del coseno del vector de texto y el vector de imagen entre los dos productos. El método del vecino más cercano K se utiliza para que el vector de un producto encuentre los vecinos K más cercanos. Para este producto y su Los productos K del vecino más cercano se construyen con bordes K respectivamente, y la similitud entre los vectores es el peso del borde.Los bordes vectoriales multimodales no tienen nada que ver con la popularidad, lo que puede aliviar la desviación de popularidad.

El segundo paso es explorar múltiples relaciones i2i a través de recorridos de varios saltos. Enumeramos diferentes combinaciones de relaciones i2i de un salto para formar diferentes tipos de relaciones i2i de dos saltos y eliminamos el primer salto original después de construir el i2i de dos saltos. Relación i2i para evitar redundancias. La relación i2i incluye la construcción de i2i basada en el vecino click-one-hop, la construcción de i2i basada en el vecino vector-one-hop, la construcción de i2i basada en la caminata de dos saltos click-click, la construcción de i2i basado en la caminata de dos saltos de clic-vector, y la construcción basada en la caminata de dos saltos de vector-clic i2i, la puntuación de la relación i2i de un salto se deriva del peso del borde de un salto y el i2i de múltiples saltos La puntuación de la relación se deriva de la siguiente fórmula, es decir, multiplicando los pesos de los bordes de cada ruta para obtener la puntuación de la ruta y promediando las puntuaciones de todas las rutas. A través del modo de recorrido de varios saltos de diferentes tipos de bordes, más productos tienen más oportunidades de construir relaciones de varios saltos con otros productos, expandiendo así el conjunto de candidatos de productos y aliviando el sesgo de selección.

El tercer paso es ordenar y truncar los conjuntos de productos candidatos de todos los productos de acuerdo con la puntuación i2i basada en cada relación i2i. El mapa de calor de similitud entre cada relación i2i se muestra en la Figura 6 a continuación. La similitud se da a través de dos relaciones i2i. Sobre el cálculo del grado de repetición del conjunto de candidatos construido, podemos determinar el número de conjuntos de productos candidatos basados ​​en la similitud entre las diferentes relaciones i2i para obtener el conjunto candidato i2i de cada producto en cada relación i2i para el modelado i2i posterior.

Figura 6 mapa de calor de similitud de relaciones i2i

Modelado I2i basado en la optimización de la desviación de popularidad

Usamos la conversión de modelado u2i2i para convertir el método tradicional de modelado de estimación de CTR basado en u2i al método de modelado i2i, que puede usar fácilmente relaciones i2i de múltiples saltos, e introducimos una función de pérdida con penalización de popularidad para hacer que el modelo i2i Aprenda en el dirección de mitigar el sesgo en la popularidad.

Como se muestra en la Figura 7 a continuación, dividimos la secuencia de comportamiento anterior al clic del usuario y usamos cada producto en el que se hizo clic como un elemento de origen, y extraemos el elemento de destino del conjunto de candidatos de caminata de varios saltos en el gráfico i2i para formar un conjunto de muestra i2i . Para el conjunto de elementos de destino, introduciremos la etiqueta de la muestra de acuerdo con si el producto en el que el usuario hace clic la próxima vez es coherente con el elemento de destino. De esta manera, cambiamos el modelado de secuencia basado en la selección del usuario [9] a un modelado basado en i2i, e introducimos la información de secuencia del usuario desde el lateral a través de la diferencia de tiempo entre dos clics del producto y el intervalo de clics, enfatizando el aprendizaje de i2i a fin de lograr el propósito de eliminar el sesgo de selectividad. La lista de clasificación de productos recomendados por el usuario final puede basarse en la puntuación i2i del usuario para clasificar el artículo de destino.

Figura 7 Generación de muestra de entrenamiento i2i

Como se muestra en la Figura 8, utilizamos la idea de la ingeniería de características automatizada para explorar combinaciones de características de alto nivel, aliviando el problema de abstracción del significado comercial del problema de sesgo. Después de construir artificialmente algunas características básicas como características de frecuencia, características de gráficos, características de comportamiento y características relacionadas con el tiempo, dividimos estos tipos de características básicas en tres tipos, características categóricas, características numéricas y características de tiempo, y hacemos características de alto nivel basadas en estas características. Combinación de características. Las características formadas por cada combinación se agregarán a la siguiente iteración de la combinación para reducir la complejidad de las combinaciones de alto orden. También realizamos una selección rápida de características en función de la importancia de las características y NDCG @ 50_half, por lo tanto, profundiza en el modo y ahorra muchos costos de mano de obra.

Figura 8 Ingeniería de funciones de automatización

En términos de modelos, probamos LightGBM, Wide & Deep, modelos de temporización, etc., y finalmente elegimos LightGBM debido al excelente rendimiento de LightGBM en tabular.

En el entrenamiento de modelos, usamos la pérdida ponderada de popularidad de los productos básicos para eliminar la desviación de popularidad [10], y la función de pérdida L se muestra en la siguiente fórmula:

Entre ellos, el parámetro α es inversamente proporcional a la popularidad, para debilitar el peso de los productos populares y eliminar la desviación de la popularidad. El parámetro β es el peso de la muestra positiva, que se utiliza para resolver el problema del desequilibrio de la muestra.

Clasificación de preferencias del usuario

Finalmente, la clasificación de preferencia de producto del usuario es introducir i2i a través del historial del usuario de hacer clic en el producto, y luego formar el problema de clasificación final para todos los productos introducidos por i2i. En el proceso de clasificación, como se muestra en la Figura 7, el conjunto de elementos de destino es producido por cada elemento de origen por separado, por lo que diferentes elementos de origen y diferentes relaciones i2i errantes de múltiples saltos pueden producir el mismo elemento de destino. Debemos considerar cómo agregar las puntuaciones del modelo del mismo elemento objetivo del mismo usuario. Si la suma de probabilidad se realiza directamente, fortalecerá la desviación de popularidad, mientras que tomar directamente el valor promedio ignorará fácilmente algunas señales fuertes. Finalmente, usamos el método de agrupación máxima para múltiples elementos de destino idénticos de un usuario y luego clasificamos todos los elementos de destino del usuario, lo que puede lograr un buen efecto en NDCG @ 50_half.

Para optimizar aún más el indicador NDCG @ 50_half, posprocesamos la puntuación del artículo objetivo obtenida y suprimimos aún más el producto de alta popularidad al aumentar el peso de puntuación del producto de baja popularidad, y finalmente logramos una mejor en NDCG @ 50_half Efecto, esto es en realidad una compensación entre NDCG @ 50_full y NDCG @ 50_half.

resultado de la evaluación

En el proceso de generar muestras candidatas de i2i basadas en la deambulación de varios saltos, las tasas de aciertos de varias relaciones i2i se muestran en la Tabla 2. Se puede encontrar que mezclar varios métodos con la misma longitud de 1000 tiene una mejora en la tasa de aciertos más alta. Datos más no sesgados se puede introducir para aumentar el conjunto de entrenamiento y el conjunto de candidatos para aliviar el sesgo de selectividad del sistema.

Tabla 2 Hitrates de diferentes relaciones i2i

Al final, Aister, formado por el equipo de publicidad de búsqueda de Meituan, ganó el primer lugar en todos los indicadores de evaluación, incluidos NDCG y hitrate. Como se muestra en la Tabla 3, NDCG @ 50_half es un 6.0% más alto que el segundo lugar, mientras que NDCG @ 50_full It es 4.9% más alto que el segundo lugar Comparado con NDCG @ 50_full, NDCG @ 50_half tiene una ventaja más obvia, lo que demuestra que hemos optimizado mejor el problema de eliminar la desviación.

Tabla 3 Resultados de la evaluación de NDCG de diferentes soluciones de equipos participantes

Aplicación comercial publicitaria

El equipo de algoritmos de búsqueda es responsable de la publicidad basada en búsquedas y la publicidad de listas de selección en las plataformas duales de Meituan y Dianping. Los tipos de negocios incluyen catering, ocio y entretenimiento, belleza y hoteles. Los tipos de negocios ricos brindan un gran espacio y desafíos al algoritmo mejoramiento.

En el problema empresarial de la publicidad basada en búsquedas, el problema del sesgo de datos es un problema importante y desafiante. Hay dos desviaciones de datos importantes en la desviación de ubicación del sistema de publicidad y la desviación selectiva. El equipo del algoritmo de publicidad de búsqueda también ha realizado más optimizaciones para estas dos desviaciones. El problema de la desviación de posición, es decir, la tasa de clics en la posición delantera es naturalmente más alta que en la posición trasera. A diferencia de la forma tradicional de manejar las desviaciones, introducimos la idea del modelado de coherencia y logramos el objetivo de coherencia a través de diseño de red profunda Logre mejores resultados comerciales.

Con respecto al tema de la desviación selectiva, todo el proceso de entrega del sistema de publicidad presenta un diagrama de embudo, como se muestra en la Figura 9. El sistema se divide en las etapas Matching, Creative-Select, Ranking y Auction. Los candidatos para cada etapa son seleccionados por la etapa anterior. Tomando la etapa de clasificación como ejemplo (Clasificación), los candidatos de clasificación del sistema en línea incluyen todos los resultados de los candidatos en la etapa de coincidencia (Emparejamiento), pero los datos de entrenamiento del modelo de clasificación se basan en los datos de exposición (Página vista) seleccionados por el modelo. , que es solo el sistema de clasificación en línea Para un pequeño subconjunto de candidatos, la diferencia entre los datos de entrada en línea y fuera de línea del modelo viola el supuesto de coherencia de la distribución del modelo. La desviación de selectividad mencionada anteriormente causará dos problemas obvios:

  1. Predicción del modelo inexacta: el modelo aprendido de las muestras de exposición está sesgado e inexacto, lo que dará lugar a efectos de predicción en línea deficientes, especialmente para muestras candidatas con grandes diferencias en la distribución de muestras de exposición histórica.

  2. El ciclo de enlace de retroalimentación afecta la ecología de la publicidad: debido a que las muestras seleccionadas por el modelo están expuestas y luego ingresan al entrenamiento del modelo para seleccionar más nuevas muestras de exposición, el modelo continúa aprendiendo en base a muestras sesgadas, lo que hace que el ciclo de retroalimentación general continúe se verá afectado por las desviaciones, y la selección del sistema aumenta. Cuanto más estrecho, se forma el "efecto Mateo".

Figura 9 Diagrama de embudo del sistema publicitario

Para resolver los problemas ecológicos y de estimación anteriores, optimizamos el algoritmo mediante la generación de muestras y el entrenamiento en múltiples etapas. En términos de generación de muestra, llevamos a cabo tres aspectos de generación de datos y selección de muestra. Primero, como se muestra en la Figura 10, utilizamos el algoritmo de exploración basado en la distribución Beta para generar candidatos de exploración a través de tasas de clics históricas y confianza estadística. La suposición detrás del algoritmo es que cuanto mayor es la confianza, menor es la varianza de la tasa de clics.

Como se muestra en la siguiente figura, el eje horizontal representa la tasa de clics estimada y el eje vertical representa la densidad de probabilidad. La distribución de la tasa de clics estimada de la muestra generada por la distribución Beta del parámetro en el cuadro amarillo es cerca de la distribución de la muestra real, que se utiliza para complementar los únicos datos de exposición seleccionados por el modelo; en segundo lugar, combinamos la caminata aleatoria para optimizar las muestras negativas y controlar la precisión a través de algoritmos de muestreo y optimización de etiquetas. Finalmente, la mayoría de las muestras de entrenamiento son seleccionadas por el flujo principal del sistema, y ​​las muestras de entrenamiento seleccionadas después de la siguiente optimización del modelo cambiarán significativamente. Las diferencias anteriores también harán que la precisión del modelo de flujo pequeño en ABTest no cumpla con las expectativas. También abordamos las diferencias anteriores La diferencia de distribución de datos seleccionada por el modelo se utiliza para la selección de datos.

Figura 10 Distribución beta de diferentes parámetros

Además, combinando las diferencias mencionadas anteriormente en la distribución de varias muestras, el modelo se optimiza a través de un entrenamiento de múltiples etapas. Como se muestra en la Figura 11, controlamos la secuencia de entrenamiento y los parámetros basados ​​en la intensidad de la muestra, de modo que los datos de entrenamiento son más coherente con la distribución de candidatos reales en la línea. Al final, los dos módulos del modelo de predicción de CTR (etapa de clasificación) y el modelo de selección creativa (etapa de selección creativa) lograron una mejora más significativa del efecto comercial, y los métodos de modelado más consistentes también hicieron que la expansión del candidato y otras desviaciones fueran más pesadas. El experimento del problema cambió de negativo a positivo, y un método de verificación más sólido también sentó una base sólida para la optimización futura.

Figura 11 Entrenamiento de múltiples etapas basado en la intensidad de la muestra

Resumen y perspectiva

La Copa KDD es una competencia que está muy estrechamente relacionada con la industria. Las preguntas de la competencia anual están estrechamente relacionadas con los temas candentes y prácticos en la industria. La Solución ganadora producida a lo largo de los años también tiene un gran impacto en la industria. Por ejemplo, el programa ganador de la Copa KDD 2012 produjo prototipos de FFM (Máquina de factorización consciente de los campos) y XGBoost, que se han utilizado ampliamente en la industria.

El problema de debiasing de la Copa KDD de este año es también uno de los problemas más desafiantes en el campo actual de la publicidad y las recomendaciones. Este artículo presenta nuestra solución para obtener el primer lugar en la Debiasing de la Copa KDD 2020. La solución es diferente de las estimaciones de CTR anteriores. Usamos el método u2i2i para convertir el modelado u2i al modelado i2i, y construir gráficos heterogéneos para explorar muestras más insesgadas a través de recorridos de varios saltos, aliviando así el sesgo de selección. En el proceso, el proceso de construcción del gráfico, la función de pérdida del modelo y el posprocesamiento del valor estimado introdujo la penalización de popularidad para aliviar la desviación de popularidad y finalmente superar los dos desafíos de la desviación de selección y la desviación de popularidad.

Al mismo tiempo, este artículo también presenta nuestra aplicación comercial sobre el problema de la desviación selectiva de datos en la publicidad de búsqueda de Meituan. Anteriormente, el sistema de publicidad se ha optimizado para el problema de la desviación. Esta competencia también nos da una dirección para la investigación sobre el Problema de desviación Mayor comprensión. Esperamos que en el trabajo futuro, optimicemos aún más el problema de desviación en el sistema de publicidad en función de la experiencia de optimización de desviación obtenida en esta competencia, y hagamos que el sistema de publicidad sea más justo.

referencias

[1] Equidad en los sistemas de recomendación

[2] Singh A, Joachims T. Equidad de exposición en las clasificaciones [C] // Actas de la 24ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos. 2018: 2219-2228.

[3] Los algoritmos de Stinson C. no son neutrales: sesgo en los sistemas de recomendación [J]. 2019.

[4] Ovaisi Z, Ahsan R, Zhang Y, et al. Corrección del sesgo de selección en los sistemas de aprendizaje para clasificar [C] // Actas de la conferencia web 2020. 2020: 1863-1873.

[5] Wang X, Bendersky M, Metzler D, et al. Aprender a clasificar con sesgo de selección en la búsqueda personal [C] // Actas de la 39ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en la recuperación de información. 2016: 115-124.

[6] Abdollahpouri H, Burke R, Mobasher B. Control del sesgo de popularidad en la recomendación de aprender a clasificar [C] // Actas de la undécima conferencia de ACM sobre sistemas de recomendación. 2017: 42-46.

[7] Abdollahpouri H, Mansoury M, Burke R, et al. El impacto del sesgo de popularidad en la equidad y la calibración en la recomendación [J]. preimpresión de arXiv arXiv: 1910.05755, 2019.

[8] Schafer JB, Frankowski D, Herlocker J, et al. Sistemas de recomendación de filtrado colaborativo [M] // La web adaptativa. Springer, Berlín, Heidelberg, 2007: 291-324.

[9] Zhang S, Tay Y, Yao L y col. Recomendación del siguiente elemento con atención propia [J]. preimpresión de arXiv arXiv: 1808.06414, 2018.

[10] Yao S, Huang B. Más allá de la paridad: objetivos de equidad para el filtrado colaborativo [C] // Avances en los sistemas de procesamiento de información neuronal. 2017: 2921-2930.

Sobre el Autor

Strong, Mingjian, Hu Ke, Qu Tan, Lei Jun, etc., provienen del equipo de algoritmos de publicidad de búsqueda de la plataforma de publicidad Meituan.

---------- FIN ----------

Ofertas de trabajo

El equipo de algoritmos de publicidad de búsqueda de la plataforma de publicidad de Meituan se basa en la escena de la publicidad de búsqueda, explorando el desarrollo tecnológico más vanguardista de aprendizaje profundo, aprendizaje por refuerzo, inteligencia artificial, big data, gráficos de conocimiento, PNL y visión por computadora, y explorando la valor del comercio electrónico de servicios de vida local. Las principales direcciones de trabajo incluyen:

Estrategia de activación : reconocimiento de la intención del usuario, comprensión de los datos comerciales de la publicidad, reescritura de consultas, emparejamiento profundo, modelado de correlación.

Estimación de la calidad : modelización de la calidad publicitaria. Tasa de clics, tasa de conversión, precio unitario del cliente y volumen de transacciones estimados.

Diseño de mecanismos : mecanismo de clasificación de publicidad, mecanismo de licitación, sugerencia de licitación, estimación de tráfico, asignación de presupuesto.

Optimización creativa : diseño creativo inteligente. Optimice la creatividad de visualización de imágenes publicitarias, texto, pedidos grupales, información de descuentos, etc.

requisitos de trabajo:

  • Tener más de tres años de experiencia laboral relevante y tener experiencia en aplicaciones en al menos un aspecto de la estimación de CTR / CVR, NLP, comprensión de imágenes y diseño de mecanismos.

  • Familiarizado con los modelos de aprendizaje automático, aprendizaje profundo y aprendizaje por refuerzo de uso común.

  • Excelente capacidad de pensamiento lógico, pasión por resolver problemas desafiantes, sensible a los datos y bueno para analizar / resolver problemas.

  • Maestría o superior en especialidades relacionadas con la informática y las matemáticas.

Se prefieren las siguientes condiciones:

  • Tener experiencia comercial relevante en publicidad / búsqueda / recomendación.

  • Tener experiencia en aprendizaje automático a gran escala.

Los estudiantes interesados ​​pueden enviar sus currículums a: [email protected] (indique el título del correo electrónico: Guangping Search Team).

Tal vez todavía quieras mirar

Mecanismo de clasificación dirigido basado en escenarios de la publicidad de Meituan Dianping Alliance

El diseño e implementación del índice en tiempo real de los anuncios de Meituan Dianping

Diseño e implementación de la plataforma de configuración experimental de publicidad de desempeño Meituan Dianping

Supongo que te gusta

Origin blog.csdn.net/MeituanTech/article/details/108138537
Recomendado
Clasificación