Sistema de recomendación (9) Aplicación del modelo de torres gemelas SENet en la clasificación aproximada del retiro en el campo de recomendación

En el campo de la recomendación, el modelo de torre gemela es el modelo de algoritmo más utilizado en el enlace de clasificación / recuperación aproximada. Surgen infinitamente varios modelos de torre gemela mejorados. Este artículo presenta un modelo de torre gemela basado en SENet.

1. El creador del modelo de las torres gemelas: el modelo DSSM

El llamado "Modelo de las Dos Torres" se remonta a un artículo publicado por UIUC (Universidad de Illinois en Urbana-Champaign) y Microsoft sobre CIKM en 2013. El artículo mencionaba un método llamado DSSM (Modelos Semánticos Estructurados Profundos). modelo) modelo. La idea central es mapear la consulta y el documento en un espacio semántico de dimensión común y, al maximizar la similitud del coseno entre los vectores semánticos de consulta y documento, se entrena el modelo semántico implícito para lograr el propósito de la recuperación.

Título de tesis propuesto de DSSM: "Aprendizaje de modelos semánticos estructurados profundos para búsquedas web utilizando datos de clics"

Después de años de evolución, DSSM ha sido ampliamente utilizado en muchos campos, tales como: recuperación de motores de búsqueda, relevancia publicitaria, sistemas de preguntas y respuestas, traducción automática, etc. Por supuesto, DSSM se utiliza principalmente en las etapas de recuperación y arreglo preliminar, y básicamente domina la etapa de recuperación / arreglo preliminar, mostrando una "posición de monopolio". La estructura del modelo DSSM de dos torres recomendada se muestra en la Figura 1:
Alt.

Figura 1. Estructura del modelo DSSM de uso común en el campo de recomendación

Como se muestra en la Figura 1, la estructura del modelo de dos torres es muy simple, con la torre del Usuario a la izquierda y la torre del Artículo a la derecha. En el campo de recomendación, podemos dividir las funciones en dos categorías principales: funciones relacionadas con el usuario (información básica del usuario, atributos estadísticos de grupo y secuencias de elementos relacionadas con el comportamiento, etc.) y funciones relacionadas con el elemento (información básica del elemento, atributo información, etc.) En principio, las funciones de contexto se pueden colocar en la torre del lado del usuario. Para las dos torres en sí, es un modelo DNN clásico, desde la característica One-Hot hasta la característica Incrustación, y luego a través de varias capas de capas ocultas MLP (perceptrón multicapa, perceptrón multicapa de red), las dos torres generan Incrustación de usuario respectivamente y codificación de incrustación de elementos. Durante el proceso de capacitación, la incrustación de usuario y la incrustación de elementos realizan un cálculo de similitud del producto interno o del coseno (Nota: el coseno equivale a normalizar la longitud del módulo de los dos vectores según el producto interno de la incrustación de usuario y la incrustación de elementos, manteniendo solo la misma dirección. La propiedad no considera la longitud), acercando el Usuario y el Elemento positivo en el espacio de Incrustación, y la distancia entre el Usuario y el Elemento negativo en el espacio de Incrustación. La función de pérdida puede usar la pérdida de entropía cruzada estándar para tratar el problema como un problema de clasificación, o usar BPR o Hinge Loss similar a DSSM para tratar el problema como un problema de aprendizaje de representación.

Cabe señalar que la incrustación de usuario y la incrustación de elementos se obtienen después de que las funciones del lado del usuario y del elemento pasan por sus propios DNN (generalmente, las dos estructuras DNN son las mismas, pero, por supuesto, pueden ser diferentes). Si las estructuras de User DNN y Item DNN son diferentes, entonces es necesario asegurarse de que las dimensiones de salida sean las mismas, es decir, que el número de unidades ocultas en la última capa completamente conectada sea la misma. Es posible garantizar que las dimensiones de la incrustación de usuario y la incrustación de elementos sean las mismas, porque el siguiente paso es realizar el cálculo de similitud (producto interno o coseno de uso común).

Aunque el modelo DSSM es bueno, según la serie anterior de artículos del autor sobre características, es fácil ver las deficiencias del modelo DSSM: no puede utilizar las características cruzadas de usuario x elemento.

2. Aplicación del modelo de torres gemelas

Hay muchos escenarios de aplicación para el modelo de torres gemelas. Por ejemplo, en el proceso de recuperación de los motores de búsqueda contemporáneos, además del índice invertido clásico común para la coincidencia literal de texto de Consulta y Documento, una estructura de torres gemelas basada en Bert A menudo se agrega un modelo para combinar las consultas del usuario y los documentos de búsqueda, cada uno integrado a través de una estructura de torre, lo que aumenta las capacidades de coincidencia semántica profunda de Consulta y Documento.

Para otro ejemplo, en el campo de control de calidad del procesamiento del lenguaje natural, generalmente en el primer paso de recuperación, la estructura de torres gemelas anterior basada en el modelo de Bert mapea la pregunta y el pasaje que puede contener la respuesta correcta a la misma consulta a través del estructura de torres gemelas Un espacio semántico, y escriba Pregunta y Pasaje en sus propias incrustaciones respectivamente.

En lo que respecta al criterio personal, en el futuro la estructura de las torres gemelas se utilizará en más campos de aplicación, lo que constituye un modelo muy viable. La razón es simple: en el escenario de una selección aproximada de datos de candidatos masivos, su velocidad es demasiado rápida. Incluso si su efecto no es excelente, después de todo es un proceso de aprendizaje supervisado. En términos generales, no es malo. En el combate real El valor es muy alto, esto es fundamental. Si un escenario de aplicación tiene los siguientes requisitos: la aplicación enfrenta una gran cantidad de conjuntos de candidatos, primero debe filtrar un subconjunto del conjunto que cumpla con las condiciones para limitar el alcance de la selección. Entonces, este escenario de aplicación es más adecuado para el modelo de torres gemelas.

Las mencionadas anteriormente son las ventajas del modelo de torres gemelas. Como dice el refrán, " todo tiene dos lados ", aunque se busca alta velocidad, también hay un precio que pagar. Entonces, ¿cuál es el precio? Significa sacrificar parte de la precisión del modelo hasta cierto punto, y este costo es endógeno a la estructura, lo que significa que su estructura inevitablemente enfrentará tales problemas. En cuanto a las razones específicas del problema, hablaremos de ello más adelante cuando presentemos el modelo de torre gemela.

3. Aplicación del modelo de dos torres en el campo de recomendación.

En la Figura 1, con respecto a los módulos DNN de las dos torres, pensamos directamente en ello como una estructura MLP, pero en teoría se puede reemplazar con cualquier estructura modelo que desee utilizar, como Transformer u otros modelos. Modelo de máquinas FM (factorización) (máquina de descomposición de factores), si el modelo FM se usa aquí para recuperación o clasificación aproximada, es equivalente a reemplazar el módulo DNN en la figura anterior con una operación de "Suma" en la función Incrustación. ser un modelo minimalista de torres gemelas. . Por lo tanto, la estructura de las torres gemelas no es una estructura modelo específica, sino un marco modelo abstracto.

Generalmente, cuando se aplica la estructura de doble torre en el proceso de recuperación del modelo recomendado, se divide en dos enlaces: capacitación fuera de línea y aplicación en línea. El proceso de formación offline se ha descrito básicamente anteriormente, en cuanto a las aplicaciones online, generalmente se utiliza así:

  • Paso 1. Utilice los datos de entrenamiento para entrenar los dos modelos de torre en el lado del Usuario y en el lado del Artículo. Lo que queremos es que los dos modelos de torre después del entrenamiento puedan aceptar cada uno la entrada de características del usuario o del Artículo, y puedan producir de forma independiente un Usuario preciso. Incrustación o incrustación de elementos.

  • Paso 2. Para una colección masiva de elementos candidatos, todos los elementos se pueden convertir en incrustaciones sin conexión a través de la torre lateral de elementos y almacenarse en un sistema de recuperación de ANN, como FAISS, para su consulta. ¿Por qué la estructura de las torres gemelas es tan rápida de usar? La razón principal es que los sistemas de recuperación de ANN como FAISS tienen una alta eficiencia de consulta para datos masivos.

  • Paso 3. La incorporación de usuarios de un usuario generalmente requiere actualizaciones en tiempo real para reflejar los intereses más recientes del usuario. Para lograr el propósito de la actualización en tiempo real, existen varios métodos con diferentes dificultades. Por ejemplo, puedes utilizar un modelo en línea para actualizar los parámetros de las torres gemelas en tiempo real para lograrlo. Esta es la forma del modelo en línea; pero en muchos casos, no es necesario adoptarlo. Después de todo, el costo de implementación del modelo en línea es alto, pero los parámetros del modelo de torre del lado del usuario se pueden arreglar y los elementos relacionados con el comportamiento más reciente del usuario ( (como clics y compras) se utilizan como entrada de la torre del lado del usuario en el extremo de entrada y luego se emiten a través de la incrustación de usuario de la torre del lado del usuario, este modo. Esto también puede reflejar cambios en los intereses inmediatos del usuario en tiempo real. Esta es una perspectiva de función en tiempo real y es relativamente simple de hacer.

  • Paso 4. Con la última incorporación de usuario, los elementos con puntuaciones de similitud Top K se pueden extraer de la biblioteca FAISS como resultados de recuperación personalizados.

El contenido anterior presenta la estructura, la capacitación y el proceso de aplicación del modelo de torres gemelas. Al inicio de este artículo se mencionó que la estructura de las torres gemelas tiene un problema de endogeneidad, es decir, su estructura conducirá inevitablemente a una pérdida de precisión, ¿por qué se dice esto?

4. Limitaciones del modelo de las torres gemelas

Echemos otro vistazo a la estructura de las torres gemelas. Su característica más importante es: primero, las características del usuario y las características del elemento están separadas. Los dos conjuntos separados de características se integran cada uno a través de la red DNN. El resultado de la integración es la incrustación del usuario y la Incrustación de Usuario en la parte superior de cada una de las dos torres. Incrustación de Elementos. En comparación con los modelos DNN que normalmente vemos en la etapa de refinamiento, este diseño de separación de características traerá dos problemas:

  • Pregunta 1 : Cuando creamos modelos de recomendación, generalmente hacemos algún trabajo de ingeniería de características, como diseñar algunas características combinadas de las características del lado del usuario y del lado del artículo . En términos generales, este tipo de características combinadas provienen tanto del lado del usuario como del del artículo. Es una señal de juicio muy eficaz. Sin embargo, si adoptamos una estructura de doble torre, esta combinación de funciones seleccionada manualmente de ambos lados no se puede utilizar porque no se puede colocar en el lado del Usuario o en el lado del Artículo. Esto se debe a la ingeniería de funciones. Pérdida de efectividad. Por supuesto, personalmente creo que este problema no es el más importante. Debería haber una manera de solucionarlo, o el modelo tiene fuertes capacidades. Divida las funciones combinadas en dos funciones separadas y coloque cada una en los dos lados correspondientes. para que el modelo pueda capturar este tipo de problemas Características combinadas.

  • Pregunta 2 : Si se trata de un modelo DNN en la etapa de refinamiento, las características del lado Usuario y del lado Elemento pueden tener una interacción de características detallada entre los dos en una etapa muy temprana, como la primera capa oculta de MLP. Sin embargo, para el modelo de dos torres, ¿cuándo interactúan las características de ambos lados? Solo cuando se produce el producto interno de incrustación de usuario e incrustación de elementos, los dos interactúan. En este momento, la incrustación de usuario y la incrustación de elementos ya son características de ambos lados que se han combinado a través de múltiples transformaciones no lineales para representar al usuario o al elemento. La incrustación general Ha terminado, y las características detalladas probablemente estén borrosas en este momento. En otras palabras, el momento para la interacción de las características de ambos lados es demasiado tarde. Sabemos que la interacción entre las funciones del lado del usuario y del lado del artículo es una señal de juicio muy eficaz. Experimentos en muchos campos han demostrado que la interacción de características demasiado tardía en ambos lados de las Torres Gemelas provocará una pérdida de efecto en comparación con la interacción de características en un nivel superficial de la estructura de la red. Este problema es bastante grave.

Por eso decimos que la estructura de las torres gemelas tiene un problema de endogeneidad. En resumen, significa: para ser rápido, las características de Usuario y Elemento deben estar separadas, y la separación de características conducirá inevitablemente a la pérdida de efectos causada por las dos razones anteriores.

5.Modelo de torre gemela SENet

SENet fue propuesto por la empresa de conducción autónoma Momenta en 2017. En ese momento, era una nueva estructura de red aplicada al procesamiento de imágenes. Se basa en la estructura de CNN y mejora la precisión del modelo modelando la correlación entre canales de características y fortaleciendo características importantes. Es esencialmente una operación de atención para las características del núcleo de convolución de la capa intermedia de CNN. SENet es el ganador del concurso ILSVR de 2017. Su tasa de error es un 25% menor que el primer lugar en 2016. El efecto es muy significativo. Incluso hoy en día, SENet sigue siendo una de las mejores estructuras de red para el procesamiento de imágenes.

Alt.

Figura 2 SENet

Sabemos que las funciones en el campo de recomendación se caracterizan por una gran escasez , es decir, una gran cantidad de funciones de cola larga son de baja frecuencia (por ejemplo, el comportamiento de compra, los usuarios pueden navegar más y hacer clic en los productos, pero generalmente hacen mucho pocas compras) y estas características de baja frecuencia, es básicamente inútil aprender una incrustación confiable, pero no puede descartar todas las características de baja frecuencia, porque algunas son efectivas. En este caso, si utilizamos SENet para la incorporación de características, es similar a prestar atención a la característica, debilitando el impacto negativo de la incorporación de características de baja frecuencia poco confiables y fortaleciendo el papel de las características confiables de baja frecuencia y de las características importantes de frecuencia media y media. características de alta frecuencia Desde un punto de vista racional, lo anterior tiene sentido.

Entonces, ¿cómo introducir SENet en el sistema de recomendación? Como se muestra en la siguiente figura, los modelos DNN estándar generalmente tienen una capa de incrustación de características. Podemos colocar SENet encima de la capa de incrustación. El propósito es aprender dinámicamente la importancia de estas características a través de la red SENet ai a_{i }ayo——Es decir, aprender un peso de característica para cada característica y luego multiplicar el peso aprendido en la incrustación de la característica correspondiente, de modo que el peso de la característica se pueda aprender dinámicamente, suprimiendo el ruido o las características de baja frecuencia no válidas a través de pesos pequeños, y amplificar características importantes a través de pesos grandes Las características influyen en el propósito.
Alt.
Específicamente, SENet se divide en dos pasos: etapa de compresión y etapa de excitación. En la etapa Squeeze, realizamos compresión de datos y resumen de información en el vector de incrustación de cada característica, de la siguiente manera:
zi = F sq ( vi ) = 1 / k ∑ t = 1 kvit z_{i}=F_{s}q( v_ { i}) = 1/k\sum^{k} _ {t=1}v_ {i}^{t}zyo=Fsq ( ​​vyo)=1/ kt = 1kvit

Como en la fórmula anterior, asuma una determinada característica vi v_{i}vyoes una incrustación de k dimensiones, luego promediamos los números de k dimensiones contenidos en la incrustación para obtener un valor zi z_ {i} que pueda representar la información resumida de esta característica.zyo, es decir, comprimir la información en la incrustación de la i-ésima característica en un valor numérico.

En la versión original de SENet, en este paso, la operación Max se realiza en el núcleo de convolución bidimensional de CNN, aquí somos iguales a promediar los elementos de incrustación de una determinada característica. La práctica en el campo de recomendación muestra que el efecto medio es mejor que el efecto Max, lo cual también es fácil de entender, porque buscar Max para los elementos del núcleo de convolución en el campo de imagen equivale a encontrar la característica más fuerte, mientras que la característica Incrustar en el Campo de recomendación, cada bit Los números son significativos, por lo que el promedio puede retener e integrar mejor la información. A través de la etapa Squeeze, para cada característica vi v_{i}vyo, están comprimidos en un solo valor zi z_{i}zyo, suponiendo que la capa de incrustación de características tiene f características, se forma el vector de compresión Z y el tamaño del vector es f.

En la etapa de Excitación, se introduce una red MLP de dos capas con una capa intermedia relativamente estrecha, que actúa sobre el vector de salida Z de la etapa de Squeeze, de la siguiente manera: S = F ex ( Z , W ) = δ ( W 2 δ ( W 1 Z ) ) S =F_{ex}(Z,W)=\delta (W_{2}\delta (W_{1}Z))S=Fe x( Z ,W )=re ( W2re ( W1Z ))

d\deltaδ es una función no lineal, generalmente tomada como Relu. Esencialmente, esta es la intersección de características, es decir, cada característica está representada por un Bit e interactúa a través de MLP. A través de la interacción, se obtiene el resultado: para todas las características de entrada actuales, a través de correlación mutua, Para determinar dinámicamente qué características son importantes y cuáles no lo son. Entre ellos, la función del primer MLP es realizar un cruce de características y la función del segundo MLP es mantener la dimensión de tamaño de la salida. Porque suponiendo que la capa de incrustación tiene f características, entonces debemos asegurarnos de que se generen valores de peso f y que el segundo MLP desempeñe la función de asignar el tamaño a f tamaños numéricos. De esta manera, después de dos capas de mapeo MLP, se generarán valores de peso f y el valor i-ésimo corresponde a la imagen de peso de la característica i-ésima Incrustación. Asignamos el pesoai a_{i}ayoy luego se vuelve a multiplicar en la Incrustación correspondiente a la característica, se completa la operación de ponderación según la importancia de la característica. ai a_ {i}ayoUn valor grande indica que SENet determina que esta característica es más importante en la combinación de entrada actual, ai a_{i}ayoEl valor pequeño indica que SENet determina que esta característica es de poca utilidad en la combinación de entrada actual. Si usa Relu para funciones no lineales, encontrará que Relu reducirá los pesos de una gran cantidad de características a 0. En otras palabras, muchas características son realmente inútiles (o su contribución es muy pequeña y puede ignorarse). .

De esta manera, SENet se puede introducir en el sistema de recomendación para juzgar dinámicamente la importancia de las funciones. Tenga en cuenta que la llamada dinámica significa que, por ejemplo, una determinada característica puede ser inútil en una determinada combinación de entradas, pero puede ser una característica importante en otra combinación de entradas. Si es importante o no, no es estático, sino que cambia dinámicamente según la entrada actual. El código de SENet se ha integrado en el marco DeepCTR como un componente. Si está interesado en los detalles de implementación, puede consultar el código relevante en DeepCTR.
Alt.

Figura 4 Modelo de torre gemela SENet

He dicho mucho arriba, pero en realidad es para allanar el camino para el conocimiento. Lo principal de lo que quiero hablar es cómo hacer el modelo de torre gemela SENet. Sin embargo, en este punto, es fácil ver cómo lo hará SENet. En referencia a la imagen de arriba, en realidad es muy simple. Simplemente agregue un módulo SENet a cada una de las torres del lado del usuario y del lado del elemento en la capa de incrustación de características. Los dos SENet ajustarán dinámicamente el peso de las características en el lado del usuario y Lado del artículo: Fortalece aquellas características importantes, debilita o incluso elimina (si el peso es 0) las características sin importancia o incluso ruidosas. El resto es igual que el modelo estándar de las Torres Gemelas. La práctica en el campo de las recomendaciones muestra que, en comparación con el modelo estándar de torres gemelas, el modelo de torres gemelas que agrega SENet ha mejorado en múltiples indicadores comerciales y tiene un mayor efecto en los indicadores individuales. Además, si se introducen características de clase ID, esta ventaja será más obvia.

Entonces, ¿por qué es eficaz el modelo de dos torres de SENet? —— Anteriormente, hablamos sobre el problema de endogeneidad del modelo de las torres gemelas, es decir, para ser rápido, esta estructura de separación en ambos lados conducirá inevitablemente a una pérdida de efectos. Si se trata de atribución, una de las razones más importantes es que las características del lado del usuario y las características del lado del artículo interactúan demasiado tarde. La interacción en un nivel alto causará la pérdida de información detallada, es decir, información de características específicas, y afectará la efecto de intersección de características en ambos lados. Con base en esta premisa, revisemos las características respectivas del modelo FM y del modelo de torres gemelas DNN.

De hecho, el modelo de recuperación de FM en sí es un fuerte punto de referencia de recuperación de modelos, pero en la era del aprendizaje profundo, a todos les gusta usar el modelo profundo, es decir, las torres gemelas DNN, cuando hablan o trabajan realmente, de lo contrario pueden Me siento avergonzado de conocer a otros. Esto es comprensible. Se dice que el efecto FM es relativamente fuerte. Aquí hay una prueba. Puede consultar la Figura 5. Este es el trabajo de recuperación de WeChat (consulte el documento: Red de atención interna y contextual para la coincidencia multicanal de inicio en frío en la recomendación ) La FM mejorada es en realidad la recuperación del modelo FM. Se puede ver en los datos experimentales que, además del modelo propuesto en el artículo, en comparación con muchos modelos DNN de torres gemelas como Youtube DNN, el modelo FM es básicamente el más fuerte en términos de múltiples indicadores.
Alt.

Figura 5 Comparación de los efectos de diferentes modelos de recuperación

Echemos un vistazo más de cerca a las características respectivas de las torres gemelas FM y DNN. En comparación con el modelo FM, la ventaja del DNN de las Torres Gemelas es que introduce no linealidad. Sin embargo, debido a que esta no linealidad se realiza entre las características del lado del Usuario o las características del lado del Artículo, el efecto puede no ser tan grande como se esperaba. La interacción entre el lado del usuario y el lado del artículo será más efectiva. En cambio, la operación no lineal multicapa de características unilaterales puede provocar el problema mencionado anteriormente de interacción demasiado tardía de características en ambos lados y pérdida de información detallada. En cuanto al modelo FM, las características sensoriales son exactamente opuestas a las de las torres gemelas DNN. Tiene ventajas en la interacción entre el lado del Usuario y el lado del Artículo, porque no hay una capa profunda o una fusión profunda no lineal de características unilaterales. y solo ocurre en el nivel de incrustación de características en ambos lados de la interacción, por lo que la interacción cruzada entre las características del lado del usuario y del lado del elemento se puede expresar mejor en el nivel de incrustación de características. Por supuesto, la desventaja es la falta de no linealidad. . Por tanto, si lo analizas detenidamente, encontrarás que las torres gemelas de FM y DNN tienen sus propios puntos fuertes.

Sobre esta base, veamos por qué es efectivo introducir SENet en el modelo de torres gemelas; una explicación es que probablemente integra las ventajas respectivas de las torres gemelas FM y DNN, entre las funciones del lado del usuario y del lado del artículo. El aspecto de expresión interactiva mejora las capacidades de DNN Twin Towers. A través del aprendizaje de parámetros, SENet suprime dinámicamente algunas características no válidas de baja frecuencia en Usuario o Elemento, e incluso muchas características se borran. La ventaja de esto es que puede resaltar aquellas características que desempeñan un papel importante en la intersección de características del Usuario de alto nivel. Incrustación e incrustación de elementos, etc. Es beneficioso expresar la interacción de funciones en ambos lados y evitar el ruido causado por la fusión no lineal de funciones no válidas unilaterales a través de las torres gemelas DNN. Al mismo tiempo, también tiene un efecto no lineal. . Esto parece poder absorber las respectivas ventajas de FM y DNN al mismo tiempo, logrando un efecto de compromiso. Por supuesto, la explicación anterior es sólo una especulación.

6. Problemas de coherencia de objetivos en varios enlaces del sistema de recomendaciones

Sabemos que el sistema de recomendación general incluirá recuperación, clasificación aproximada y clasificación fina. Mantener consistentes los objetivos de optimización de estos enlaces es en realidad una cuestión muy importante, pero es fácil pasarla por alto en el trabajo diario. El enlace de clasificación fina es el último y generalmente no tiene este problema, porque puede entenderse como el objetivo de optimización de la clasificación fina, que generalmente se refleja en los indicadores comerciales . Lo que se pasa por alto fácilmente son los enlaces de recuperación y clasificación aproximada. Estos dos enlaces son los enlaces previos del paso de clasificación fina. Entregan conjuntos de elementos candidatos adecuados para la clasificación fina. Si los objetivos de optimización no pueden ser consistentes con la clasificación fina, el La biblioteca de materiales se dañará y los elementos recomendados que son más adecuados para una clasificación precisa no pueden pasar el enlace de preprocesamiento, lo que resulta en una pérdida de eficiencia de recomendación.

Por poner un ejemplo extremo, aunque no es fácil de parecer, es más fácil de explicar con claridad. Supongamos que el objetivo de optimización de la clasificación precisa es el objetivo de duración, pero el objetivo de la recuperación o clasificación aproximada es el objetivo de interacción o clic. Esto significa que es posible que muchas recomendaciones de candidatos de alta duración no se vean en absoluto en el paso de clasificación precisa porque el Los dos enlaces anteriores no lo son. No suele colocar contenido de larga duración en la primera fila.

El enlace de recuperación del que estamos hablando aquí se refiere a la recuperación del modelo , porque muchas de las retiradas multicanal tradicionales, como puntos de acceso, etc., no están personalizadas o tienen factores de personalización muy débiles, por lo que es básicamente imposible establecer objetivos de optimización. Para los indicadores comerciales finales, no hay forma de discutir si los objetivos son consistentes. Por supuesto, además de ser coherente con el objetivo final, el recuerdo también debe tener diversidad y otros objetivos, lo que se puede lograr añadiendo otras rutas de recuerdo.

Entonces, ¿cómo podemos intentar que los objetivos de optimización de los enlaces previos al proceso sean coherentes con los objetivos de clasificación fina? En términos generales, hay dos enfoques: uno es mantener la optimización multiobjetivo de múltiples enlaces y hacer que cada subobjetivo sea lo más consistente posible, el otro es adoptar la idea de destilación del conocimiento (modelo Profesor-Estudiante). .

La llamada destilación de conocimiento en realidad significa que en las etapas de recuperación y clasificación aproximada, el Estudiante aprende las preferencias de clasificación del Profesor de clasificación fina, lo que equivale al enlace preparatorio, aprende directamente los objetivos de optimización de la clasificación fina y abre todo el mundo. camino. Por supuesto, además de guiar los objetivos de optimización de cada enlace en el sistema de recomendación para que sean consistentes, la destilación de conocimiento también puede propagar modelos y características complejos a los enlaces front-end a través de Profesores complejos, mejorando el efecto de los modelos de enlaces front-end. . Existen muchos métodos específicos de destilación de conocimientos, por lo que no entraré en detalles aquí.

7. Problema de selección de ejemplos negativos para modelos de recuperación y clasificación aproximada

Cuando entrenamos un modelo de clasificación fina (suponiendo que estamos optimizando el destino de clics), generalmente usamos instancias de "clic del usuario" como ejemplos positivos y instancias "expuestas sin hacer clic" como ejemplos negativos para entrenar el modelo. Esto es básicamente lo que todos hacen. Ahora, la recuperación del modelo y la clasificación aproximada también requieren entrenar el modelo, lo que significa que también es necesario definir ejemplos positivos y negativos. Generalmente, la instancia de "clic del usuario" se utiliza como ejemplo positivo, pero hay mucho conocimiento sobre cómo elegir un ejemplo negativo.

Alt.

Primero veamos los datos de entrada que enfrentan los modelos en diferentes etapas. Para el modelo de recuperación, los datos de entrada que enfrenta son los elementos en todas las bibliotecas de materiales; para el modelo de clasificación aproximada, los datos de entrada que enfrenta son los resultados de cada recuperación. ; para el modelo de clasificación fina, la entrada a la que se enfrenta es el resultado de salida del modelo de clasificación aproximada. Si todavía utilizamos instancias "expuestas sin hacer clic" como datos de entrenamiento de ejemplo negativos para la recuperación y la clasificación aproximada, encontrará que este conjunto de entrenamiento es solo una pequeña parte de la biblioteca de materiales global y su distribución es consistente con la biblioteca de materiales global y varios Resultados de recuperación. Los datos, los datos de entrada reales que enfrentan los dos modelos de recuperación y clasificación aproximada tienen una diferencia de distribución relativamente grande, por lo que el efecto de entrenar los modelos de recuperación y clasificación aproximada basados ​​en este tipo de ejemplos negativos es cuestionable. Generalmente llamamos a esto fenómeno de la pregunta "Sesgo de selección de muestra".

6.1 Posibles métodos de selección de ejemplos negativos

Para resolver el problema del "sesgo de selección de muestra", cuando recordamos o entrenamos un modelo aproximado, debemos ajustar la estrategia de selección de ejemplos negativos para que pueda ser consistente con la distribución de datos de la entrada del modelo. Aquí resumo brevemente los posibles enfoques.

  • Opción 1: exponer datos en los que no se hizo clic

Esto es lo que causa el problema del sesgo de selección de muestras mencionado anteriormente. Nuestra experiencia es que estos datos aún son necesarios, pero deben combinarse con otros tipos de métodos de selección de ejemplos negativos en una cierta proporción para aliviar el problema del sesgo de selección de muestras. Por supuesto, algunas conclusiones parecen basarse en el uso de estos datos, por lo que su uso o no puede estar relacionado con el escenario de la aplicación.

  • Opción 2: seleccionar ejemplos negativos globalmente al azar

Es decir, de la biblioteca de materiales global original, se seleccionan muestras aleatorias como ejemplos negativos para su recuperación o clasificación aproximada. Esto también es una práctica, y el modelo de torre gemela DNN de Youtube lo hace. Lógicamente hablando, esto debe ser completamente consistente con la consistencia de la distribución de los datos de entrada. Sin embargo, generalmente los ejemplos negativos seleccionados de esta manera son demasiado diferentes de los ejemplos positivos, lo que hace que el modelo sea demasiado bueno para distinguir ejemplos positivos y ejemplos negativos. para que el modelo pueda aprender cuánto conocimiento está en cuestión.

  • Opción 3: seleccionar aleatoriamente ejemplos negativos dentro del lote

Es decir, solo se incluyen ejemplos positivos. Durante el entrenamiento, otros elementos distintos de los ejemplos positivos se seleccionan en el lote como ejemplos negativos. Básicamente, esto es: dado un usuario, seleccione aleatoriamente entre los ejemplos positivos de todos los demás usuarios y construya ejemplos negativos. Hasta cierto punto, también puede resolver el problema del sesgo de selección de muestras. Por ejemplo, el modelo de retirada de dos torres de Google utiliza este método de ejemplo negativo.

  • Opción 4: seleccionar aleatoriamente ejemplos negativos de los datos de exposición

Es decir, entre los datos expuestos a todos los usuarios, se seleccionan aleatoriamente ejemplos negativos. Este método es eficaz en determinados escenarios.

  • Opción 5: seleccionar aleatoriamente ejemplos negativos según la popularidad

El enfoque de este método es: selección aleatoria global, pero cuanto más popular sea el artículo, mayor será la probabilidad de que sea seleccionado como un ejemplo negativo. Muchos estudios actuales han demostrado que el uso del método basado en la popularidad para ejemplos negativos tiene un impacto positivo significativo en los resultados. Su suposición implícita es: si un ejemplo es más popular, entonces los usuarios no han hecho clic en él ni lo han visto, lo que indica una mayor probabilidad de que sea un ejemplo negativo real para el usuario actual. Al mismo tiempo, este método también suprimirá los elementos populares y aumentará el grado de personalización del modelo.

  • Opción 6: seleccionar ejemplos negativos basados ​​en Difícil

Selecciona aquellos ejemplos más difíciles como ejemplos negativos. Debido a que es difícil distinguir ejemplos, es obvio que la pérdida y el contenido de información aportados al modelo son mayores que el precio, por lo que es muy razonable desde un punto de vista teórico. Pero para ejemplos de lo que se considera difícil, pueden existir diferentes enfoques, y algunos están relacionados con la aplicación. Por ejemplo, Airbnb está trabajando mucho para encontrar formas de descartar ejemplos negativos.

7. Referencias

1- " Aplicación del modelo de torres gemelas SENet en la clasificación aproximada del recuerdo en el campo de recomendación y otros "

Supongo que te gusta

Origin blog.csdn.net/Jin_Kwok/article/details/131858484
Recomendado
Clasificación