La profundidad de interés en el sistema de red de la recomendación DIN

El aprendizaje profundo modelo de evolución recomendación

Después de que el sistema de recomendación y la publicidad de cómputo en un aprendizaje profundo de las veces, en comparación con el modelo tradicional de la recomendación formulada en los siguientes dos aspectos importantes avances:
(1) En comparación con el aprendizaje tradicional de la máquina, la capacidad de expresar modelo de aprendizaje profundo es más fuerte, capaz de excavar más patrones ocultos en los datos.
La estructura del modelo (2) la profundidad del aprendizaje es muy flexible, basado en escenarios de negocio y datos de cuenta, la flexibilidad para ajustar la estructura del modelo, el modelo escenarios ajuste perfecto.

Evolución del mapa de profundidad modelo sugerido como sigue, un perceptrón multicapa MLP como el núcleo, cambiando la estructura del modelo de red neural construcción de profundidad recomendación de características diferentes de aprendizaje.

ps Esta cifra es una adaptación de Wang Zhe Gangster "aprendizaje profundo sistema de recomendación", aunque la primera vez que tengo el libro, a través volteado tiene que admitir, "la lectura, hacia fuera." Wang Zhe estándar modelo seleccionado es un clásico y al frente de la compañía ha aplicado con éxito, tales como Ali, DIN, DIEN, pero con Ali DSIN, TDM, ESMM no seleccionado, puede ser debido a un libro de las veces o no pero en la práctica la cantidad completa de la solicitud . CS se encuentra todavía en la vanguardia de la ponencia dinámica, pero será superior a más de 1.000 anual de papel realmente deslumbrante.
Aquí Insertar imagen Descripción

DIN profundidad de interés en la red

sobre DIN

La profundidad de interés en la red (Red de profundo interés, DIN) Ali Mama precisa equipo de la publicidad dirigida a KDD 2018 propuesto por el proveedor de electricidad para la siguiente escena CTR conocimiento profundo del modelo de interés del usuario. El modelo básico DIN es combinar mecanismo de Atención con el modelo tradicional de incrustación y MLP, aunque mecanismo de atención se ha logrado un gran éxito en el CV y ​​el campo de la PNL, pero el éxito del mecanismo de Atención al CTR estima el campo gracias a Ali Engineer proveedor de electricidad precisa comprensión del negocio .

A través del análisis de los datos de comportamiento de los usuarios, se encontró que los usuarios interesados ​​Ali tiene dos características importantes:

  • Diversidad: un usuario puede estar interesado en una variedad de categorías de bienes
  • Activación local: Debido a la diversidad de intereses de los usuarios, sólo algunos de los datos históricos actuales ayudará a predecir Haga clic en los productos básicos, no todos los datos históricos.

Incrustación y MLP paradigma tradicional es como sigue: primero por la capa de incrustación en la que la proyección es grande escasa continua vector bajo incrustación dimensional, los vectores a continuación concatenan la entrada a una red completamente conectada, para calcular la meta final estimado. En la escena del negocio eléctrico, siendo estimación precisa hay que aprovechar al máximo el comportamiento histórico de que el usuario entienda los intereses del usuario. Y un usuario existirá para distintos productos están interesados ​​en potencialmente, esto también se reflejará en el comportamiento histórico del usuario. Tradicional incrustación y MLP modelo con un vector de expresión fija a un usuario, éste no es suficiente para caracterizar la diversidad de intereses, es decir, el usuario también puede estar interesado en varios artículos.

Fijo vector de usuario V en V_u Rango límites de dimensión del espacio global de la solución del modelo, y el vector de dimensión de la fuerza por parte del operador y las restricciones generalizadas no pueden ser infinitamente ampliado, por lo que Ali propuso un vector basado en el usuario para expresar los cambios dinámicos de la meta estimada. Específicamente, una predicción de usuario U s e r i User_i el objetivo I t e m i Item_i CTR no es necesaria V u V_u Todos los usuarios expresado interés, pero sólo la expresión del usuario y I t e m i Item_i interés relevante. Tales como el teclado mercancía publicidad dirigida, haga clic sobre la historia de la secuencia de ratón, crema para la cara del usuario y una camiseta, desde el punto de sentido común de vista, la importancia de ratón teclado predictivo porcentaje de clics es mayor que estos dos últimos, desde el punto de modelo de vista, el modelado el proceso se caracteriza en el "atención" ratón debe ser mayor que el segundo.

Así Ali atención mediante la introducción de mecanismos de captura para diferentes usuarios diferentes intereses estatus de mercancía, y con una transformación dinámica de acuerdo con diferentes estimaciones de las materias primas de destino V u V_u Para expresar el interés de los usuarios asociados.

arquitectura modelo DIN

Aquí Insertar imagen Descripción
la estructura del modelo DIN se muestra en la Figura interés mediante la activación de un módulo (unidad de activación), con el Ad estimado información meta Candidato para activar el usuario hace clic en la historia de las mercancías, con el fin de extraer el usuario asociado con el objetivo estimada actual de interés. Elevado peso de la historia muestra que esta parte de la conducta asociada con el interés actual en la publicidad, bajo peso y no está relacionada con la publicidad "ruido interés." Mediante la activación de la activación de los bienes y los pesos se multiplican, a continuación, añadir el estado del interés actual estimado expresado como un objetivo de la EA. Por último, el interés relevante expresado, las características estáticas de usuario y las características sensibles al contexto, así como las funciones relacionadas con Ad que cosen juntos la entrada a la red DNN multi-capa posterior, el usuario hace clic en la probabilidad final previsto de la Ad objetivo actual.

mecanismo de atención

mecanismo de atención es sencillo de entender es que hay diferentes pesos para diferentes funciones, por lo que algunas funciones estarán dirigiendo esta vez de predecir, aunque el modelo para ciertas características prestar atención. Sin embargo, DIN y no directamente con el mecanismo de atención. Debido a diferentes candidato para la publicidad, la representación de los intereses del usuario (vector incrustar) debería ser diferente.

El usuario ya no es un punto de interés, sino más bien una función de una multimodal. Un pico de interés, según un tamaño máximo expresado interés en intensidad. Así que para un anuncio candidato diferente, los usuarios interesados ​​en fuerza es diferente, es decir, con el cambio de la publicidad candidato, la fuerza de los intereses del usuario en constante cambio.

En los modelos DIN para diferentes necesidades ajustar de forma adaptativa Candidato Representación anuncio de usuario, que se Embedding Layer -> Pooling Layerobtiene cuando los intereses del usuario representados, dada diferente comportamiento histórico de diferentes pesos, para lograr la activación local. El último entrenamiento desde la perspectiva inversa se basa en el anuncio candidato actual, para revertir usuario activar historia interés manía, dada diferente comportamiento histórico de diferentes pesos. Desde un punto de vista formal de las matemáticas, excepto que el mecanismo de operación de atención operaciones pasadas medias y reemplazar o añadir una suma ponderada o la operación de promedio ponderado.
Aquí Insertar imagen Descripción
DIN interés en el módulo activado según estimaciones predicen objetivo del comportamiento histórico de los pesos asociados, longitud de la barra de energía de color amarillo indica que cuanto más tiempo cuanto mayor sea el peso de la derecha para activar, y el objetivo estimado más relevante. Intuitiva y puede ser visto en la cubierta de la mercancía relacionada meta estimada se les da un peso relativamente mayor.

función de activación de los dados

PRELU llama Leaky Relu, y la función de activación Relu es una función de paso, el mismo problema es el punto de división es 0, que significa que los cambios de la cara de diferentes puntos de entrada no ha cambiado, pero las neuronas de salida reales distribución es diferente, el punto de división debe ser determinado por los datos. Así Ali pidió a los dados (función adaptativa de datos de activación) la función de activación, para describir la distribución de los datos estadísticos por la varianza media y de las neuronas de salida. Cortar el controlador adaptativamente ajustado de acuerdo a los datos de distribución, y las habilidades generales de aprendizaje se mejoran.
Aquí Insertar imagen Descripción

Visualización DIN

Aquí Insertar imagen Descripción
La figura muestra la distribución de interés del usuario: el más cálidos el color, mayor es el interés del usuario, el usuario puede ver el interés en la distribución de múltiples picos.

resumen

  1. Después de los intereses del usuario tienen la Diversidad, clics en más mercancía / tienda, poniendo en común o un promedio de pérdidas de incrustación suma vectorial de una gran cantidad de información, por lo que la introducción del mecanismo de atención a través de la activación local pesos diferentes asignar para diferentes ID comportamiento, este peso es por el ID de comportamiento actual y Ad Candidato decisión conjunta.
  2. La activación Unidad DIN utiliza para las características de captura de activación local usando suma ponderada Pooling para capturar la estructura de la diversidad.
  3. En el modelo de optimización, DIN Dados propuso función de activación periódica y adaptativa, mejoró significativamente el rendimiento del modelo y la convergencia velocidad.

Referencia

Publicado 11 artículos originales · ganado elogios 2 · Vistas 661

Supongo que te gusta

Origin blog.csdn.net/liheng301/article/details/105338953
Recomendado
Clasificación