SIM (Modelado de interés del usuario basado en búsquedas)

guía

Nuestra comprensión del modelado de intereses en escenarios de comercio electrónico es cada vez más clara: 1. Es una tecnología central y eficaz para buscar y extraer información relacionada con elementos de comportamientos anteriores de los usuarios mediante la estimación de información sobre elementos de destino. 2. La información de secuencia de comportamiento de usuario más larga es muy efectiva y valiosa para el modelado de CTR. Pensando desde la perspectiva de los usuarios, también esperamos prestar atención a los intereses a largo plazo de los usuarios. Sin embargo, los métodos de búsqueda actuales, ni DIN ni DIEN, nos permiten buscar de manera efectiva en línea una secuencia muy larga de comportamientos, como más de 1000. Por lo tanto, nuestro objetivo es relativamente claro: desarrollar un método que pueda buscar el comportamiento del ciclo de vida del usuario de acuerdo con la información estimada del artículo de destino y obtener la información relevante del artículo. 

método

Sin duda, es inaceptable buscar la secuencia de comportamiento completa directamente con un esquema similar a DIN o DIEN, por lo que pensamos si la búsqueda se puede resolver.En este artículo, propusimos un modo de búsqueda en dos etapas: búsqueda general y búsqueda exacta. Desde la perspectiva de la precisión, descomponemos la búsqueda en una búsqueda relativamente aproximada y general y una búsqueda más específica y precisa. Desde la perspectiva del proceso de cálculo, esperamos que la mayoría de los cálculos de la búsqueda general se puedan completar fuera de línea y que la cantidad de comportamientos históricos se pueda reducir al orden de unos pocos cientos, a fin de reservar suficiente espacio de complejidad computacional para el modelado de la parte de búsqueda exacta.

No pusimos demasiada energía en la parte de búsqueda exacta. Se puede considerar como un problema de modelado de secuencia corta y es factible usar DIN/DIEN o alguna otra estructura similar. Por supuesto, en el modelado de secuencia larga, encontramos que la influencia de la información de tiempo, que no fue tan efectiva en los intentos anteriores, se hizo mayor, por lo que se introdujo la información de tiempo en la parte de búsqueda exacta. El método específico se puede encontrar en el SIM de papel divulgada . La dificultad central sigue estando en la parte de búsqueda general. Hay dos ideas en el proceso de investigación y desarrollo: 1. Usando la parametrización, vectorizamos el comportamiento del usuario y los elementos, y luego usamos el vecino más cercano aproximado basado en el producto interno para recuperar el Top_K Comportamientos relacionados, como este artículo Búsqueda interna máxima de productos (MIPS) [5] . Al calcular el CTR en línea, se construye un índice jerárquico de vecinos aproximado basado en la distancia interna del producto para el comportamiento histórico de cada usuario a través del vector, y cada elemento puede recuperar de manera eficiente su comportamiento relacionado. La implementación en línea y fuera de línea de este método se puede ver en el documento, que no se presentará en detalle aquí. 2. En la práctica, encontramos que el sistema de cuenta natural o la estructura de los datos de comercio electrónico facilitan la implementación de la búsqueda general. La mayoría de los objetos de interacción del comportamiento del usuario en escenarios de comercio electrónico también son elementos. Los elementos tienen sus propias categorías de información de categoría. Podemos crear una capa de índice basada en la categoría para el comportamiento histórico de cada usuario, y los comportamientos relacionados con la categoría se pueden montar sin conexión. . Los datos generales del comportamiento del usuario se construirán como una estructura clave1-clave2-valor, el índice principal  [oficial]es el usuario y el índice secundario [oficial] es la categoría categoría, y el valor es la secuencia de comportamiento en esta categoría, o puede extenderse aún más a una secuencia de comportamiento relacionada con la categoría. Cuando esté en línea, realice una búsqueda general basada en la información del usuario y la categoría de cada producto objetivo estimado para obtener una subsecuencia relacionada con el artículo actual. Según nuestras características de datos, los resultados de la búsqueda general se reducirán de decenas de miles de comportamientos originales a cientos.Este nivel puede completar fácilmente la comunicación en línea, los cálculos de búsqueda exactos en tiempo real y los cálculos de CTR. Cabe señalar que tanto los datos almacenados en la estructura del índice como los resultados de la búsqueda general son la información original de la secuencia de comportamiento del usuario, que puede ser la secuencia de identificación original. Esto garantiza que solo filtramos la información en el paso de búsqueda general para seleccionar dimensiones, sin compresión de información como la incrustación, y conservamos la información original en la mayor medida posible.

Por supuesto, el rendimiento de esta búsqueda general simplificada en nuestros experimentos fuera de línea es aún más débil que el de la recuperación basada en vectores, pero su costo de implementación es muy bajo y solo necesita tener una base de datos que admita el almacenamiento clave-clave-valor. realización Al mismo tiempo, la parte de cálculo en línea solo aumenta la sobrecarga de cálculo de la búsqueda exacta, lo que puede facilitar los servicios en línea. Y no agrega mucho costo a más iteraciones del modelo en el futuro. En resumen, elegimos esta versión simplificada de SIM. Utilice la categoría u otra información de descripción de elementos con la granularidad adecuada como una estructura de índice fija. Los comportamientos agregados pueden actualizar el índice de forma incremental. Durante el entrenamiento, la parte del índice no es paramétrica y no cambiará durante el proceso de entrenamiento. Por lo tanto, todos los parámetros se pueden entrenar de principio a fin con los últimos resultados de recuperación, lo que es bastante portátil y muy adecuado para su implementación en escenarios industriales reales. Por supuesto, si el entorno de datos en el que se encuentra no realiza un procesamiento estructurado como categoría para datos de comportamiento, entonces debe encontrar una forma de crear otras estructuras de índice.

En nuestra opinión, la mayor contribución de SIM es proporcionar una idea y dos métodos de implementación específicos. Actualmente estamos utilizando una búsqueda general no paramétrica en línea. La parametrización de la parte de búsqueda general, como el método de uso de vectores propuesto en nuestro artículo, puede mejorar aún más el efecto y ampliar el espacio de iteraciones futuras del módulo. Cómo modelar el índice construido y cómo mejorar aún más la precisión y la eficiencia de la búsqueda general se puede repetir en el futuro. Sin embargo, vale la pena mencionar que la parametrización de la parte de búsqueda general traerá una carga adicional de iteración del sistema. El aprendizaje diario y la actualización de esta parte de parámetros, el olvido del aprendizaje y el almacenamiento de los resultados del aprendizaje son todos desafíos importantes. Por supuesto, esto también deja espacio para la exploración y la investigación.

estructura del modelo

imagen

En el lado izquierdo de la imagen de arriba está la primera etapa, la proyección inicial. Aquí hay dos estrategias, la primera es la búsqueda suave y la segunda es la búsqueda dura. La búsqueda suave consiste en utilizar la incrustación del elemento candidato para hacer el producto escalar con la incrustación de cada elemento en la secuencia de comportamiento del usuario y luego ir a K superior. Algunos métodos eficientes que se pueden usar aquí son ALSH y MIPS, los cuales son métodos existentes Hemos introducido el método MIPS en el algoritmo de búsqueda de producto interno máximo rápido basado en gráficos de Delaunay . La búsqueda estricta utiliza cierta metainformación del artículo, como la categoría del producto, para seleccionar de la secuencia de comportamiento del usuario. Este método no tiene parámetros. Las fórmulas de las dos estrategias son las siguientes:

Los experimentos muestran que, aunque los resultados de búsqueda duros serán ligeramente peores, será mucho más rápido.

Independientemente de que sea soft search o hard search, una vez obtenida la secuencia, se procesa con el mencionado DIN o DIEN para obtener el valor estimado de la tasa de clics.

Preste especial atención a un punto, es decir, aunque hay dos pasos durante el servicio, se entrenan al mismo tiempo durante el entrenamiento. La razón de esto es que las secuencias de usuario requeridas en el primer paso y el segundo paso son diferentes. El primer paso es la secuencia completa del usuario, y el segundo paso es la secuencia seleccionada. Por lo tanto, desea El efecto de incrustación de la secuencia es buena y se debe agregar una pérdida auxiliar en el primer paso.

El primer paso se llama Unidad de Búsqueda General, o GSU para abreviar. El segundo paso se llama Unidad de Búsqueda Exacta, o ESU para abreviar.

Una vez realizada la GSU, se obtiene el subconjunto de secuencia de la secuencia de comportamiento del usuario en relación con el elemento candidato y, a continuación, para cada elemento del subconjunto de secuencia, se extraen dos características, la primera es la incrustación del elemento y la segunda es el elemento La diferencia de tiempo en relación con el elemento candidato, es decir, la información de tiempo. Estos dos tipos de información se empalman y la incrustación obtenida se utiliza como DIEN.

implementación en línea

Requisitos de implementación, cada solicitud debe responderse dentro de los 30 ms, y el número máximo de usuarios es de 1 millón. El diagrama de implementación es el siguiente, incluidos dos módulos clave, nodos informáticos y servidores de predicción en tiempo real.

Tenga en cuenta que los resultados de la búsqueda suave a menudo son similares a los de la búsqueda dura, porque los artículos similares suelen ser de la misma marca y categoría. Por lo tanto, por consideraciones de latencia, se utiliza la búsqueda dura en línea.

Para una indexación rápida, se establece una estructura de árbol, clave-clave-valor, para almacenar secuencias de comportamiento del usuario.La primera clave es la identificación del usuario, la segunda clave es la categoría y el valor es el elemento específico. Esta estructura de árbol tiene 22 TB completos y se coloca en un sistema distribuido.

experimento

Los resultados sobre el conjunto de datos industriales en el experimento fuera de línea son los siguientes:

imagen

Se puede ver que la diferencia entre la búsqueda dura y la búsqueda blanda es bastante pequeña, pero en comparación con el sistema anterior, ambos tienen mejoras obvias.

En línea es un aumento del 7,1% en CTR y un aumento del 4,4% en RPM.

Vale la pena leer las ideas de ensayo del autor.

Perspectiva de modelado de intereses de toda la vida Modelo de estimación de CTR: modelo de interés basado en búsqueda: Zhihu está escrito en el frente: Recientemente, pasé algunos períodos de tiempo clasificando y resumiendo una serie de trabajos anteriores, y entré en una parte del estado de escritura . Aproveche la diversión y escriba una interpretación china de nuestro último trabajo, presentando cómo podemos modelar secuencias de comportamiento de 10,000 niveles en la industria y aplicarlo a C... https://zhuanlan.zhihu.com/p/ 148416488

SIM: Ali Targeted Ads: un modelo ctr de secuencia de comportamiento de usuario ultralargo basado en búsquedas La secuencia de comportamiento histórica del usuario contiene "puntos de interés" de usuario enriquecidos, y la secuencia de comportamiento del usuario tiene un valor enorme https://mp.weixin.qq .com/s/CendW4XAgaL2NCX2jYQtMQ SIM: Modelado de interés del usuario basado en secuencias de comportamiento ultralargas basadas en búsquedas En DIN: Red de interés profundo para la estimación de la tasa de clics de Ali y DIEN: Red evolutiva de interés profundo para la estimación de la tasa de clics de Ali, presentamos Ali Taobao https ://mp.weixin.qq.com/s/2NBeM-WKYaKQY-lpkm5SDw

Supongo que te gusta

Origin blog.csdn.net/u013385018/article/details/120517620
Recomendado
Clasificación