Evolución del modelo de arreglo refinado de recomendación de la comunidad de Dewu

1. Antecedentes

Dewu Community es una comunidad de vida de moda donde una gran cantidad de jóvenes obtienen información de tendencias y comparten su vida diaria. Entre ellas, la distribución personalizada de la información consultada por los usuarios se realiza mediante el sistema de recomendaciones. En la actualidad, múltiples escenarios en la comunidad de Dewu tienen acceso a algoritmos de recomendación, incluida la recomendación de transmisión de dos columnas en la página de inicio, la recomendación de video inmersivo, la transmisión de recomendación de pestaña de categoría y la transmisión de recomendación de transmisión en vivo.Para brindar a los usuarios un mejor servicio y experiencia , se ha realizado una gran cantidad de optimización para los servicios relacionados de toda la dimensión del sistema de recomendación. Ahora, los sistemas de recomendación convencionales se componen de varios módulos, como recuperación, clasificación aproximada, clasificación fina y mecanismo. Este artículo presenta principalmente parte del trabajo y el pensamiento que hemos realizado durante la evolución del nivel de clasificación fina.

1.png

2. Desafío y solución

En el proceso de interacción con el flujo de información, los usuarios generarán comportamientos como hacer clic, leer, gustar, seguir, marcar, comentar y comentarios negativos, que generalmente son los indicadores centrales de la preocupación comercial y también pueden usarse como señales para el algoritmo. estudiantes para modelar. Entre ellos, el clic es el punto de entrada de una serie de trayectorias de comportamiento del usuario, que no es relativamente escasa y, a menudo, es uno de los objetivos más importantes en la etapa inicial de un sistema de recomendación de flujo de información. Cómo modelar con precisión los intereses de los usuarios siempre ha sido un tema candente en el proceso de los sistemas de recomendación en la industria desde que son incipientes hasta que muestran sus talentos a lo largo de los años. Un buen paradigma de modelado de negocios en la industria es hacer una optimización iterativa del sistema que sirva a los objetivos comerciales bajo ciertas limitaciones de recursos.Para los sistemas de recomendación, es necesario considerar el motor del sistema, los recursos informáticos, la iteración del modelo y el mantenimiento.La naturaleza iterativa del ser humano los recursos, sistemas y modelos, y la cooperación de varios equipos impulsan todo el sistema para seguir avanzando hacia los objetivos comerciales. Desmantelando hasta el nivel de ajuste fino, necesitamos resolver los desafíos provocados por múltiples escenarios, múltiples grupos de personas y múltiples objetivos para estimar con precisión los intereses de los usuarios. A continuación, se describen nuestras soluciones específicas para estos desafíos en la comunidad de Dewu desde múltiples direcciones, como características, muestras, modelado de objetivos múltiples y arranque en frío para nuevos usuarios.

2.png

2.1 Características

La evolución técnica del modelo CTR de objetivo único se puede observar desde dos perspectivas diferentes, una dimensión es la ingeniería de características y la otra dimensión es la complejidad de la estructura del modelo. En los primeros días del modelo CTR, limitado por los recursos informáticos, la estructura del modelo a menudo era relativamente simple y el modelo LR era el más utilizado en los primeros días. En esta etapa, los ingenieros de algoritmos dedican más tiempo al diseño manual de funciones, para iterar en diferentes contextos comerciales y obtener beneficios del índice.

El modelo de refinamiento del sistema de recomendación es en realidad un modelo que estima la probabilidad del comportamiento del usuario. Esperamos que el modelo pueda recordar el comportamiento histórico del usuario por un lado (es decir, la capacidad de ajuste), y por otro lado, puede ser razonablemente ampliada sobre la base de datos históricos (es decir, la capacidad de generalización). En el período del aprendizaje automático tradicional, modelos como LR, SVM y GDBT ya tienen buenas capacidades de ajuste y pueden funcionar extremadamente bien en conjuntos de datos de entrenamiento. Pero en los negocios reales, la verdadera dificultad radica en cómo predecir con precisión el comportamiento futuro en función de los datos del pasado. Todo se basa en números Desde una perspectiva matemática, el modelado de modelos es esencialmente la abstracción y simulación de una parte de las leyes operativas del mundo real en el espacio digital. La precisión de la representación del comportamiento real en el espacio digital determina en gran medida el efecto del modelado. Afortunadamente, con el desarrollo del aprendizaje profundo, la tecnología de representación basada en la incrustación se ha vuelto cada vez más madura, básicamente resolviendo el cuello de botella de la representación del modelado. Y esto El espacio de mapeo a menudo se denomina espacio vectorial de características.

Para el modelo de ajuste fino del sistema de recomendación, la unidad básica con un concepto realista en el espacio vectorial es la característica, lo que también revela la importancia del trabajo orientado a características para todo el modelado. El diseño de las características de cada escenario de negocio requiere que los ingenieros de algoritmos tengan un conocimiento suficiente del negocio y una rica experiencia relevante. La ingeniería de características también es una tarea con un gran peso de inversión de recursos en el trabajo del algoritmo, que requiere un pulido y una optimización continuos.

2.1.1 Diseño de funciones

Las características utilizadas por el modelo se pueden dividir de manera diferente según los diferentes ángulos. Según el origen de las funciones, se puede dividir en funciones de usuario, funciones de elementos, funciones de contexto, funciones cruzadas y funciones de modelo en cascada; según la estructura de funciones, generalmente se puede distinguir según Dense y Sparse; según la oportunidad de funciones, a menudo se divide en funciones fuera de línea y funciones en tiempo real. Para escenarios comerciales específicos, puede diseñar las características de cada dominio como un todo según el origen de las características de acuerdo con la tabla a continuación, y optimizar y actualizar continuamente las características en el proceso iterativo.

Feishu 20230111143234.jpg

Cada característica debe diseñarse en conjunto con el negocio. Por ejemplo, las características estadísticas deben considerar la ventana de tiempo de agregación y las características de secuencia deben considerar la longitud de la secuencia. Estas pueden seleccionarse y seleccionarse de acuerdo con la situación real.

3.png

Sobre la base de las características de diseño, los ingenieros de algoritmos también deben promover el upstream y el downstream para abrir enlaces de datos, verificar la calidad de las características e introducirlas en los modelos existentes para la investigación fuera de línea.Si el experimento AB de tráfico pequeño tiene beneficios de confianza, el la nueva versión de las funciones puede entrar en vigor en su totalidad. Un método de minería de características común se basa en algoritmos de comprensión de contenido, utilizando procesamiento de lenguaje natural, visión por computadora, reconocimiento de voz, etc., para extraer contenido en profundidad y producir características de alta calidad, de modo que el modelo pueda capturar más fácilmente los puntos de interés del usuario. De acuerdo con las necesidades comerciales, en el proceso de iteración continua, se agregarán continuamente nuevas funciones efectivas y las funciones antiguas no válidas se desconectarán gradualmente. En nuestro escenario comercial, la cantidad de funciones utilizadas por el modelo también ha aumentado en un 30% en el proceso iterativo. , la eficiencia de distribución del sistema también se ha mejorado considerablemente. La importancia de las características para la estimación del modelo se puede evaluar a través de auc-diff Para la estabilidad del sistema, también es necesario monitorear la cobertura y la distribución del valor de cada característica en línea en tiempo real para evitar que los datos anormales afecten el mercado.

2.1.2 Procesamiento de características

Todas las funciones utilizadas en los sistemas de recomendación se pueden dividir en cuatro categorías según sus diferentes estructuras de funciones y métodos de procesamiento.

Funciones numéricas, el valor original de la función es un valor continuo dentro de un cierto intervalo, como el CTR posterior dinámico, la duración del video, la cantidad de Me gusta, etc., generalmente procesado de la siguiente manera

  • Puede aumentar la solidez para presentar valores atípicos, mejorar las capacidades no lineales, acelerar el rendimiento del procesamiento de algoritmos y facilitar el cruce de características.
  • Se perderá parte de la información y el salto de los valores discretos de límite afectará la estabilidad de la estimación del modelo.
  • Se puede utilizar el agrupamiento de igual ancho, el agrupamiento de grupos, el agrupamiento de igual frecuencia, el agrupamiento de árboles de decisión y el agrupamiento de chi-cuadrado
  • Característica max-min normalización, normalización, etc.
  • Discretización de características continuas
  • Transformación no lineal, como log(x+1) de uso común, etc.

Características discretas de un solo valor, una muestra tiene solo un valor discreto, como el modelo de teléfono móvil, el género del usuario, etc.

  • Codificación One-Hot
  • Consulte la tabla LookUp para obtener la representación vectorial

Funciones fuera de línea de varios valores, una muestra puede tener varios valores discretos, como secuencias de clics de usuario, etiquetas de artículos, etc.

  • Características de intersección generadas artificialmente
  • Consulte la tabla LookUp para obtener un vector multidimensional, que se puede usar para generar una representación vectorial única después de la fusión mediante empalme, agrupación, atención, etc.

Función KV, una clave de muestra puede tener múltiples valores fuera de línea y valores de valor correspondientes

  • Después de discretizar la clave y el valor, uso ponderado
  • Después de unir la clave y el valor, se puede usar la discretización

En el campo de los sistemas de recomendación, entre las diversas funciones de la tabla anterior, hay dos tipos de funciones que son muy recomendables y, en diferentes negocios, los ingenieros de algoritmos suelen invertir mucho en ellas y, básicamente, obtienen buenos rendimientos.

2.1.3 Características de categoría dispersa de alta dimensión

La primera son las características de categoría dispersa de alta dimensión. Debido a su dispersión de alta dimensión, dichas características tienen una mejor separabilidad lineal en el espacio vectorial, por lo que el modelo es más fácil de recordar muestras. Para un sistema de recomendación relativamente maduro, la dimensión de dichas características puede alcanzar cientos de millones de dimensiones, o incluso miles de millones de dimensiones.

Para que el modelo utilice con éxito una característica tan grande y de alta dimensión, es necesario realizar una gran cantidad de trabajo de optimización en profundidad en la ingeniería conjunta de algoritmos. La solución comúnmente utilizada es la función elástica dinámica (EmbeddingVariable), que puede resolver los problemas de dificultad para predecir el tamaño del vocabulario de funciones estáticas, conflictos de funciones, redundancia de memoria y E/S, etc., y puede pasar la admisión de funciones, la salida de funciones, y la tabla hash subyacente sin medidas como el bloqueo y el diseño de memoria de grano fino se utilizan para mejorar la eficiencia de almacenamiento y acceso. Con la introducción de la función EV elástica dinámica, hay buenos beneficios en varios escenarios de la comunidad Dewu.

2.1.4 Característica cruzada

La otra es la famosa función cruzada. La característica cruzada se obtiene a través de la combinación cruzada de múltiples características, que pueden mejorar efectivamente la capacidad expresiva del modelo. Los ingenieros de algoritmos han trabajado mucho en la intersección de características a lo largo de los años, que generalmente se dividen en intersección explícita e intersección implícita.

Las intersecciones explícitas se basan en el conocimiento previo. Los ingenieros de algoritmos construyen de forma artificial las características de las intersecciones. En general, se pueden usar tres tipos de intersecciones. Entre ellos, el producto cartesiano se usa más comúnmente debido a su mejor efecto, pero el producto cartesiano puede explotar en dimensión, por lo que es necesario construir el producto cartesiano de acuerdo con la situación real de análisis de datos comerciales. Por ejemplo, en nuestro escenario, cada usuario tiene diferentes preferencias en diferentes categorías, para que el sistema preste más atención a esto cuando brinda servicios a los usuarios, podemos intentar introducir preferencias de usuario y categorías dinámicas en el modelo. características cruzadas es mejorar la experiencia del usuario.

Feishu 20230111143804.jpg

El cruce implícito permite que el modelo aprenda automáticamente el cruce a través de la estructura de la red. Con el desarrollo de la tecnología de cruce, los ingenieros de algoritmos a menudo usan el cruce implícito, que no solo puede aliviar la dependencia de la experiencia manual, sino que también mejora continuamente el proceso de entrenamiento del modelo. optimizando En los últimos años, los trabajos clásicos en esta área son principalmente FM, FFM, Wide&Deep, DeepFM, DCN y CAN y otras estructuras.Entre ellos, DeepFM puede usarse como un mejor punto de referencia en diferentes escenarios de recomendación debido a su estructura simple y efecto sobresaliente. . .

Como maestro clásico de la estructura cruzada de características, DeepFM puede lograr una fusión cruzada de características de orden alto y bajo de extremo a extremo. Entre ellos, la estructura FM puede realizar la intersección de características de bajo orden para mejorar la capacidad de memoria del modelo; la estructura profunda puede realizar la fusión cruzada de características de alto orden para mejorar la capacidad de generalización del modelo. En los primeros días de la comunidad Dewu, a nivel de clasificación, el modelo de clasificación fina solo modelaba CTR, y la arquitectura del modelo adoptaba el DeepFM relativamente maduro.

4.png

2.2 Muestra

Para un sistema de recomendación, las características y muestras de entrenamiento del modelo determinan el límite superior del efecto del modelo, y un conjunto de muestras de entrenamiento de alta calidad puede mejorar efectivamente la capacidad de predicción del modelo refinado. La generación de muestras debe basarse en registros en línea. Un excelente marco para producir flujos de muestra involucra a muchas partes, incluidos puntos ocultos frontales, motores de recomendación, servicios de estimación, almacenes de datos, etc. Para ser responsables de los resultados comerciales, los ingenieros de algoritmos deben monitorear la calidad de las muestras además de centrarse en el modelo en sí, y trabajar con los procesos ascendentes y descendentes para garantizar la estabilidad de la producción de muestras de alta calidad.

2.2.1 Arquitectura de transmisión de muestras en tiempo real

En los primeros días de la comunidad de Dewu, las muestras de entrenamiento del modelo se empalmaron en función de las tablas de características fuera de línea y las tablas de comportamiento del usuario fuera de línea. Además de los problemas obvios de puntualidad, también pueden ocurrir inconsistencias en línea y fuera de línea en las características de muestra, lo que afecta el rendimiento general. del sistema Eficiencia de distribución y efecto de distribución.

Para resolver el problema de la producción de muestras de alta calidad, hemos creado un marco de transmisión de muestras en tiempo real mediante la coordinación de recursos, el diseño y la promoción de múltiples partes. Las muestras se producen a través del flujo de muestras en tiempo real, y la puntualidad de las muestras mejora considerablemente, de días a minutos, lo que puede respaldar el lanzamiento de modelos en tiempo real y sentar una base sólida para la iteración rápida de modelos de algoritmos posteriores.

La arquitectura de flujo de datos en tiempo real se puede resumir como producción, atribución y empalme de tres flujos de registro.

  • El primer flujo de datos es el flujo de registro del cliente, que se basa en el punto oculto del cliente que informa la información del punto oculto al activar un evento. Los datos del punto oculto incluyen el triplete (reqid, userid, itemid) enviado por el servidor al cliente y otra información. Cuando los usuarios navegan por el flujo de información, activarán continuamente datos de comportamiento como exposición, clics y me gusta, de modo que el flujo de registro del cliente genere datos continuamente.
  • El segundo flujo de datos es el flujo de registro del motor del servidor, que es la información importante que deja el motor durante el proceso de obtener los resultados de la recomendación y devolverlos al cliente a través del servidor y todo el motor de recomendación de acuerdo con la solicitud del usuario iniciada por el cliente También incluye (reqid, userid, itemid) triples, resultados de recomendación e información de clasificación positiva.
  • El último flujo de datos es el flujo de registro estimado descartado por el servicio estimado. Es el motor que envía retratos de usuario y recupera o resultados de clasificación aproximada a la máquina predictiva, y el modelo de clasificación fina en la máquina predictiva se usa para puntuar. En este Durante el proceso, se volcará la información de las características, como las características del elemento y las características del usuario utilizadas por el modelo. El volumen de datos del flujo de funciones también es el más grande entre los tres flujos. A menudo, es necesario reducir la cantidad de elementos descargados en forma de ACK, lo que ahorra recursos de manera efectiva.

Se pueden asociar de manera efectiva tres flujos de registro a través de tripletas (reqid, userid, itemid) para formar una tabla amplia de atribución en tiempo real. Entre ellos, el flujo de registro del cliente proporciona las etiquetas de comentarios reales del usuario, el flujo de registro del motor del servidor proporciona información sobre cada enlace del motor de recomendación y el flujo de registro de servicio estimado proporciona información sobre las funciones utilizadas por el modelo, lo que garantiza la consistencia en línea y fuera de línea. características.

5.jpeg

En el proceso de producción de muestras en tiempo real utilizando un flujo de muestra en vivo, se encontrará un problema clásico, que es la "retroalimentación retrasada del usuario". Esto se debe al hecho de que a menudo hay una cierta diferencia de tiempo entre el informe de datos en el punto de exposición y el clic del usuario en los comportamientos de interacción dinámicos y más profundos. Por ejemplo, cuando un usuario ve un video, le gustará y comentará el video después de verlo durante unos minutos. En este momento, si diseñamos la atribución sin razón, esta muestra en tiempo real será una muestra negativa. En general, al atribuir etiquetas de comentarios de los usuarios, se considerará la ventana de tiempo de atribución. La ventana de atribución de la tabla fuera de línea se puede entender como 1d, pero el cálculo en tiempo real se implementa en la memoria. Debido a la consideración del costo, es difícil configurar una ventana grande. Se puede combinar con el análisis de real datos comerciales para mejorar el costo y la puntualidad Encuentre el equilibrio adecuado entre el rendimiento y la precisión del etiquetado. En nuestro escenario, al seleccionar un umbral apropiado, las etiquetas positivas de la tabla de muestra en tiempo real finalmente alcanzaron el 95 % de la tabla fuera de línea. Para muestras retrasadas, una solución efectiva es diseñar diferentes mecanismos de respaldo de muestra para corregir la distribución de la muestra en función del muestreo de importancia.

6.png

2.2.2 Muestreo

El modelo CTR es un modelo de clasificación binaria para estimar la probabilidad de hacer clic en las exposiciones consultadas por el usuario. Al modelar de forma intuitiva, el clic del usuario se considerará una muestra positiva, y la exposición y la falta de clic se considerarán una muestra negativa. Sin embargo, debido al comportamiento de clic relativamente escaso de los usuarios, este método de construir directamente el conjunto de muestras de entrenamiento provocará un grave desequilibrio entre las muestras positivas y negativas. En algunos escenarios, la proporción puede ser inferior a 1:100 y el efecto de entrenamiento a menudo no es lo suficientemente bueno.

Para resolver el problema del desequilibrio de categorías, una práctica común es muestrear muestras negativas. Solo las muestras negativas muestreadas a través de una determinada estrategia se pueden usar para entrenar el modelo. Hay muchas formas de implementar el muestreo negativo, generalmente de acuerdo con la calidad del muestreo, la desviación del muestreo y la eficiencia del muestreo, y se pueden dividir aproximadamente en muestreo de reglas artificiales y muestreo basado en modelos. Entre ellos, el muestreo de reglas artificiales de uso común es el muestreo negativo aleatorio y el muestreo negativo basado en la popularidad. El muestreo basado en modelos esencialmente optimiza la calidad de las muestras negativas a través de la iteración del modelo. En general, las ideas de Boosting y el aprendizaje de confrontación GAN se usan para extraer constantemente muestras negativas fuertes Un mejor trabajo reciente es SRNS.

En nuestro escenario, el muestreo se logra actualmente descartando aleatoriamente las muestras negativas. Hay una desviación entre el PCTR estimado por el modelo entrenado después del muestreo y el CTR de la tasa de clics posterior real, por lo que cuando utilice el PCTR estimado en línea, debe usar la siguiente fórmula de conversión para corregirlo primero y luego usarla cuando clasificación. Además del muestreo, otra solución que se puede probar es ajustar el peso de la pérdida de diferentes muestras durante el entrenamiento, lo que también puede aliviar el impacto del desequilibrio de categoría. Sin embargo, la tarea de ajuste de peso es relativamente pesada y puede ser difícil de ajustar al ideal por un tiempo El efecto y la puntuación estimada también son difíciles de restaurar.

9.jpeg

Para un escenario comercial, a menudo se involucran múltiples indicadores comerciales Además de los clics, otras preocupaciones importantes son los comportamientos posteriores de los usuarios después de hacer clic. Para escenarios de comercio electrónico, generalmente se trata de comportamientos de usuario de nivel profundo, como recopilar productos y realizar pedidos, mientras que para escenarios de flujo de información, se trata más de comportamientos de interacción del usuario, como el tiempo de visualización, los Me gusta y los comentarios. Estos comportamientos de conversión ocurren después de que el usuario hace clic. Si la interacción se modela en el espacio de muestra del clic, el uso directo en línea generará un sesgo, lo que se denomina sesgo de selección de muestra. Cuando se puede lograr el modelado conjunto multiobjetivo mediante el diseño de una estructura de modelo específica, resuelva .

10.png

En la escena de la comunidad de Dewu, en base a algunos problemas encontrados y descubiertos en línea, también hemos realizado otras exploraciones y prácticas a nivel de muestra.

  • Las señales de conversión del usuario, como los comentarios, la atención y el uso compartido, suelen ser relativamente escasas. Si el modelo no se entrena lo suficiente, es difícil lograr buenos resultados si el modelo se modela solo. El entrenamiento conjunto con clics estará sesgado por señales de clic más densas. Una solución efectiva es agregar señales del mismo tipo y volver a muestrear estas señales para aliviar el impacto de las señales de clic.
  • Las muestras aleatorias negativas no son amigables para los usuarios poco activos e incluso pueden causar la pérdida gradual de usuarios expuestos y sin hacer clic. En el muestreo negativo, es necesario considerar las muestras expuestas y sin hacer clic de los usuarios poco activos y, al mismo tiempo, tratar de agregar las secuencias expuestas y sin hacer clic a nivel de función.
  • La muestra ideal es retener tanto como sea posible y extraer información efectiva de la escena real basada en el conocimiento previo mientras se elimina la interferencia del ruido. Una de las informaciones que puede ser beneficiosa es la sesión de la muestra del usuario, por lo que se recomienda intentar construir una muestra basada en la sesión del usuario.

2.3 Multiobjetivo

En comparación con el modelado de un solo objetivo, el modelado de múltiples objetivos comerciales encontrará más desafíos.Uno de los problemas más comunes es que habrá un fenómeno de vaivén entre múltiples indicadores. Para paliar estos problemas, después de años de práctica y desarrollo tecnológico en la industria, se han acumulado muchos modelos excelentes ESSM, MMOE, PLE y ESCM.Entre ellos, los modelos más importantes y ampliamente utilizados son ESSM y MMOE, que se utilizan en muchos escenarios de negocios Tiene un buen efecto En la escena de la comunidad Dewu, el modelado de objetivos múltiples también se basa en las ideas de modelos relacionados.

11.png

2.3.1 Estructura del modelo

2.3.1.1 Flujo de columna dual de la página de inicio

Con el desarrollo del negocio, el modelo de transmisión recomendado en la página de inicio de la comunidad Dewu se ha actualizado iterativamente, y la capacidad de personalización del modelo se ha mejorado continuamente.En términos generales, se puede dividir en cuatro etapas.

La primera etapa es la etapa temprana, solo se modela la tasa de clics del usuario y la capa refinada solo tiene el modelo CTR. Después de varias iteraciones durante el período, desde la estructura DeepFM inicial hasta la estructura DLRM combinada con las características comerciales, la capacidad de cruce de funciones se mejoró significativamente y se agregó el módulo DIN para extraer los intereses profundos de los usuarios, y se lograron buenos beneficios. .

  • modelo CTR

12.png

La segunda etapa es aumentar el modelado separado de la duración del usuario, con la esperanza de mejorar la capacidad del sistema para estimar la duración del usuario, y la capa de clasificación fina tendrá un modelo CTR y un modelo de duración. La primera versión del modelo de duración adopta una estructura DeepFM relativamente madura, y bajo la condición de que el intercambio de pérdida de CTR sea aceptable, provoca un aumento relativo de +3% en la duración promedio del mercado.

  • modelo de duración

13.png

La tercera etapa es modelar conjuntamente los comportamientos de interacción del usuario, como me gusta, seguidores, favoritos, comentarios y acciones compartidas, y la duración del usuario, y usar señales interactivas para capturar mejor los puntos de interés del usuario. Habrá dos modelos en la capa de refinamiento, que incluyen el modelo CTR y el modelo de torre gemela interactiva Duration. Después de ajustar efectivamente los parámetros de la fórmula de subfusión de objetivos múltiples, cuando otros indicadores son básicamente los mismos, la tasa de penetración de usuarios interactivos en el mercado ha aumentado en un 6%.

  • Duración Modelo Interactivo de las Torres Gemelas

14.png

La cuarta etapa es el modelado unificado multiobjetivo de los clics del usuario, la duración del usuario y la interacción del usuario, y el modelado separado de los comentarios negativos del usuario para integrar mejor la capacidad de modelado de la capa refinada para los intereses del usuario. La capa refinada tendrá dos modelos, que es decir, modelos multiobjetivo como clic, duración e interacción, y modelos de retroalimentación negativa. En comparación con el modelo de dos torres, el modelo multiobjetivo debe poder adaptarse a más objetivos en estructura, especialmente para resolver la interacción entre las tareas de CTR y las tareas dispersas. Mediante la construcción de una función de pérdida basada en los nodos pct_time y pct_inte durante el entrenamiento y el bloqueo de gradiente en el nodo pctr, es posible modelar uniformemente varios objetivos en el espacio de exposición. Use ptime y pinte en línea como la duración estimada y los puntos de interacción, y la fórmula de fusión puede ser consistente en línea y fuera de línea, lo que ayuda a obtener los beneficios de la investigación en línea fuera de línea. Después del lanzamiento, el aumento relativo del ctr del mercado fue del +2,3 %, el aumento relativo del tiempo per cápita fue del +0,33 % y la tasa de penetración relativa de usuarios interactivos fue del +4,5 %. El modelo de retroalimentación negativa surte efecto a nivel de mecanismo a través de una reducción suave del peso, y la tasa de retroalimentación negativa del mercado se reduce relativamente en un 16 %.

  • modelo multiobjetivo

15.png

  • Retroalimentación negativa Peso ligero suave

16.jpeg

  • modelo de retroalimentación negativa

17.png

2.3.1.2 Streaming de vídeo inmersivo de una sola columna

A diferencia del formulario de producto de flujo de dos columnas en la página de inicio, el flujo de recomendación de video inmersivo es un escenario de flujo de una sola columna, y los usuarios ven diferentes videos desplazándose continuamente hacia abajo. De acuerdo con las características de la escena, la idea inicial de modelado es cortar desde la finalización del video. El modelo estimará la proporción pfinish_rate de la duración del video que el usuario verá a la duración del video en sí. Cuando usándolo en línea, combinará la duración del video en sí con videoTime y calculará el videoTime. El límite doble alivia el sesgo causado por la duración del video en sí, y finalmente usa pfinish_rate*truncado (videoTime) como el puntaje de clasificación. Al igual que la escena principal en la página de inicio, en el proceso de iteración posterior, también se agrega el modelado del comportamiento de interacción del usuario.Al integrar el puntaje estimado de interacción pinte y el puntaje estimado de finalización pfinish_rate, no es sorprendente encontrar un fenómeno de vaivén, a través de continuas experimentos e intentos, finalmente se utilizó la forma de clasificación en cascada para obtener beneficios.

A través de la optimización iterativa continua de varias versiones, los indicadores principales de la escena se han mejorado significativamente, el tiempo promedio de visita a la escena uv se ha incrementado en un 46 % y la tasa de interacción de la exposición se ha incrementado en un 15 %. Combinado con la particularidad de los escenarios de video, y a través del análisis de los indicadores comerciales, recientemente estamos considerando modelar los comportamientos de los usuarios de transmisión corta y larga para capturar mejor los puntos de interés de los usuarios y brindarles servicios de transmisión de recomendaciones de video más íntimos.

  • modelo multiobjetivo

18.png

2.3.2 Fusión multiobjetivo

Modelado de objetivos múltiples Además del modelo en sí mismo, otro desafío importante es cómo usar de manera efectiva las puntuaciones de objetivos múltiples en línea. Esperamos que a través de objetivos de clasificación y diseño de mecanismos apropiados, los objetivos en los que se enfoca el negocio pueden ser rentables y se pueden mejorar múltiples objetivos juntos. Para resolver este problema, también hemos realizado varios intentos en nuestros escenarios.

El primer tipo de solución relativamente directa es diseñar una fórmula y usar la fórmula para fusionar múltiples puntajes objetivo como el puntaje de clasificación final. La ventaja de este esquema es que es simple y claro, y puede saber cómo cada puntaje objetivo tiene efecto en la clasificación final según el peso. Una de las técnicas comúnmente utilizadas es que, debido a la gran diferencia en la distribución de puntajes estimados de diferentes objetivos, los cambios en el valor absoluto de los puntajes estimados afectarán los resultados de ajuste, por lo que puede considerar usar el número de secuencia de un solo puntaje objetivo. después de clasificarlo y pasarlo por una normalización razonable. Después de eso, se fusionan varios objetivos. La desventaja es que los diferentes modelos deben ajustarse manualmente, lo que genera una gran carga de trabajo, y la fórmula de fusión no logra una fusión personalizada según los diferentes usuarios, lo que afecta el efecto de clasificación general. En la escena de la comunidad de Dewu, hemos diseñado dos versiones de la fórmula de fusión sucesivamente. La segunda versión de la forma de adición ha logrado mejores rendimientos y la cantidad de parámetros también se ha reducido de manera efectiva.

  • fusión de fórmula artificial

19.jpeg20.jpeg

El segundo tipo de solución es usar el modelo profundo para generar el puntaje de clasificación final de principio a fin, evitar el ajuste manual de parámetros y considerar la personalización durante la fusión. La idea específica es construir algunas características básicas importantes del lado del usuario y del elemento, así como las puntuaciones estimadas de múltiples modelos, utilizarlos como entrada de una red simple y utilizar el modelo entrenado fuera de línea para generar la puntuación de fusión final. . Un punto clave es la construcción de la etiqueta del modelo fuera de línea, que generalmente se agrega ponderando múltiples objetivos. La selección de pesos debe depurarse en combinación con los efectos de los experimentos comerciales y en línea. La desventaja es que la capa de arreglo fino necesita llamar a un modelo más, lo que requiere más recursos. Además, a veces es necesario hacer algunos ajustes ecológicos en el negocio, y la fusión del modelo no es tan rápida como la fórmula.

  • modelo de fusión independiente

21.png

La tercera categoría es la solución que se está probando actualmente, es decir, la arquitectura del modelo multiobjetivo de fusión personalizada. Esperamos que, sobre la base del modelo multiobjetivo, al construir el módulo de fusión, la predicción multiobjetivo y la subfusión de predicción multiobjetivo puedan colocarse en un marco de red completo. La función de pérdida durante el entrenamiento del modelo se puede dividir en dos partes, la pérdida de la red principal y la pérdida de la red de fusión. La pérdida de la red principal es para optimizar la predicción del modelo de cada puntaje objetivo, y la pérdida de la red de fusión es el resultado de la optimización general de clasificación de fusión La forma de entrenamiento y bloqueo de gradiente evita interferir con la red. Teóricamente, esta solución combina la optimización de las dos soluciones anteriores y evita sus deficiencias. Esperamos que después de la depuración, podamos implementar completamente esta solución en nuestro escenario e integrar aún más la capacidad del modelo refinado.

22.jpeg

  • Modelo multiobjetivo de fusión personalizado

Personalidad.png

2.4 Arranque en frío de nuevo usuario

El arranque en frío de nuevos usuarios siempre ha sido una dificultad en la industria, reflejada principalmente en los siguientes tres puntos. Para resolver estos problemas, existen muchos trabajos clásicos en la industria, como los nuevos usuarios MeLU y los modelos FORM basados ​​​​en meta-aprendizaje.Estas soluciones esperan brindar a los nuevos usuarios un valor inicial más confiable y ajustar rápidamente la tasa de aprendizaje dinámico. para converger, pero a menudo es ineficaz en aplicaciones prácticas.

El comportamiento de los nuevos usuarios es escaso y más sensible a los resultados de las recomendaciones.

La distribución de muestras de usuarios nuevos y antiguos en el conjunto de entrenamiento es desigual, y la proporción de muestras de usuarios nuevos suele ser inferior al 1 %.

Las características de los grupos de usuarios nuevos y antiguos son muy diferentes. Debido al dominio de los usuarios antiguos, será difícil que el modelo capture los patrones de comportamiento de los nuevos grupos de usuarios.

También intentamos iniciar en frío a los nuevos usuarios en la escena de transmisión de dos columnas en la página de inicio de la comunidad Dewu para mejorar la eficiencia del inicio en frío de los nuevos usuarios. Basado en el análisis y el juicio de los datos comerciales, desde los grupos empujables, las recuperaciones hasta la clasificación fina, rompiendo el enlace completo y la escena principal para iterar de forma independiente, apuntando a la particularidad de los nuevos usuarios, desde las características hasta las estructuras del modelo a nivel de fino. clasificación de diseño individual.

Para tareas de inicio en frío para nuevos usuarios, personalmente creo que se pueden probar las siguientes técnicas y pueden tener diferentes beneficios en diferentes escenarios comerciales.

Remuestreo de muestras de nuevos usuarios o ponderación de pérdidas para aumentar el poder de expresión de las muestras de nuevos usuarios

Construya características que puedan caracterizar a las nuevas poblaciones de usuarios, como la nueva ID de usuario, la hora de la primera visita del usuario, etc.

Los identificadores de grupos de usuarios reemplazan los nuevos identificadores de usuario para aliviar el aprendizaje insuficiente de los nuevos identificadores de usuario

Resalte las funciones relacionadas con los nuevos usuarios de la estructura del modelo y aumente el poder de discurso de las nuevas funciones de usuario

En nuestro escenario, la primera versión del modelo se basa en el modelo CTR ponderado en el tiempo de los clics efectivos de los nuevos usuarios. El modelo prestará más atención al contenido con un alto consumo de tiempo de los usuarios, para ayudar al modelo a aprender el puntos de interés de nuevos usuarios. Con el fin de mejorar aún más la capacidad del modelo para capturar los intereses de diferentes usuarios nuevos, diseñamos un modelo poso multiobjetivo en la estructura del modelo para aliviar los problemas del comportamiento de los nuevos usuarios y la escasez de muestras. A través de la personalización en el nivel de estructura del modelo, se puede brindar una mejor experiencia a las personas relevantes. Después del volumen completo, el ctr de nuevos usuarios es relativamente +2.69%, el tiempo de recomendación per cápita es relativamente +3.08%, la interacción per cápita es relativamente +18%, y el nuevo usuario se queda por primera vez Relativo +1,23%.

  • Modelo poso multiobjetivo

multiobjetivo.png

3. Perspectiva

Este artículo presenta principalmente algunas soluciones específicas y algunos avances que hemos logrado en los aspectos de características, muestras, modelado multiobjetivo y arranque en frío de nuevos usuarios frente a los desafíos que continúan surgiendo en el negocio. Además de estas tecnologías que se han implementado, también hemos explorado en otras direcciones, incluida la corrección de popularidad, el interés profundo del usuario, FeatureStore y modelos dispersos distribuidos a gran escala. Esperamos liberar más dividendos de algoritmos en el futuro para garantizar y promover el crecimiento del negocio.

4. Cita

[1] Chen Y, Jin J, Zhao H, et al. Estimación asintóticamente imparcial para el modelado de retroalimentación retardada a través de la corrección de etiquetas [J]. 2022.

[2] Lee H, Im J, Jang S, et al. MeLU: Estimador de preferencias de usuario metaaprendidas para la recomendación de arranque en frío [J]. ACM, 2019.

[3] Sun X, Shi T, Gao X, et al. FORMULARIO: siga el Meta-Líder regularizado en línea para la recomendación de arranque en frío [C] // Actas de la 44.a Conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información. 2021: 1177-1186.

[4] Ma X, Zhao L, Huang G, et al. Modelo multitarea de espacio completo: un enfoque eficaz para estimar la tasa de conversión posterior al clic[C]//La 41.ª Conferencia Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información. 2018: 1137-1140.

[5] Ma J, Zhao Z, Yi X, et al. Modelado de relaciones de tareas en el aprendizaje de tareas múltiples con una mezcla de expertos en varias puertas [C] // Actas de la 24.ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos. 2018: 1930-1939.

[7] Guo H, Tang R, Ye Y, et al. DeepFM: una red neuronal basada en una máquina de factorización para la predicción de CTR[J]. preimpresión de arXiv arXiv:1703.04247, 2017.

[8] Naumov M, Mudigere D, Shi HJM, et al. Modelo de recomendación de aprendizaje profundo para sistemas de personalización y recomendación[J]. preimpresión de arXiv arXiv:1906.00091, 2019.

[9] Zhang W, Qin J, Guo W, et al. Aprendizaje profundo para la estimación de la tasa de clics[J]. preimpresión de arXiv arXiv:2104.10584, 2021.

Texto/Zhao junio

Actividades fuera de línea recomendadas : Dewu Technology Salon "The Evolution of Enterprise Collaboration Efficiency" (No. 19)
Hora : 14:00, 16 de julio de 2023 ~ 18:00, 16 de julio de 2023
Ubicación : (Yangpu, Shanghai) 5th Floor, Building C, Internet Treasure Land, No. 221, Huangxing Road (salida 1, estación de metro de Ningguo Road)

Aspectos destacados del evento : En el entorno empresarial cada vez más competitivo de hoy en día, la eficiencia de la colaboración empresarial se ha convertido en la clave del éxito de los equipos empresariales. Cada vez más empresas se dan cuenta de que mediante el apoyo de la construcción y las herramientas de informatización, la eficiencia de la colaboración se puede mejorar en gran medida y se pueden lograr avances en la industria. Este salón cubrirá una serie de temas, lo que brindará a los participantes un rico pensamiento y experiencia, y ayudará a mejorar la eficiencia de la colaboración empresarial.

A través de la plataforma de intercambio de Dewu Technology Salon, tendrá la oportunidad de aprender de los representantes de otras empresas y aprender de la experiencia y las prácticas de los demás. Analice las mejores prácticas de la eficiencia de la colaboración interna empresarial para impulsar la supervivencia y el desarrollo a largo plazo de las empresas. ¡Únase a Dewu Technology Salon y comience un nuevo capítulo de eficiencia colaborativa con pioneros de la industria! ¡Trabajemos juntos para lograr un gran avance en la eficiencia de la colaboración!

Haga clic para registrarseDewu Technology Salon "La evolución de la eficiencia de la colaboración empresarial" (Nº 19)
Este artículo es un artículo original de Dewu Technology.

Autor: Dewu Technology
Enlace: juejin.cn/post/724957…

Los graduados de la Universidad Popular Nacional robaron la información de todos los estudiantes de la escuela para construir un sitio web de puntuación de belleza, y han sido detenidos criminalmente.La nueva versión de Windows de QQ basada en la arquitectura NT se lanza oficialmente.Estados Unidos restringirá el uso de China de Amazon, Microsoft y otros servicios en la nube que brindan capacitación en modelos de IA. Se anunciaron proyectos de código abierto para detener el desarrollo de funciones LeaferJS , el puesto técnico mejor pagado en 2023, lanzado: Visual Studio Code 1.80, una biblioteca de gráficos 2D de código abierto y potente , compatible funciones de imagen de terminal . El número de registros de subprocesos ha superado los 30 millones. "Cambio" deepin adopta Asahi Linux para adaptarse a la clasificación de la base de datos Apple M1 en julio: Oracle aumenta, abriendo el puntaje nuevamente
{{o.nombre}}
{{m.nombre}}

Supongo que te gusta

Origin my.oschina.net/u/5783135/blog/10086324
Recomendado
Clasificación