Preentrenamiento de la escena de recuperación

1. Entrenamiento previo de recuperación

1.1 PROP: Entrenamiento previo con predicción de palabras representativas para recuperación ad hoc

Se han propuesto tres tipos de tareas previas a la formación, entre ellas:

  • Tarea Inversa Cloze (TIC): La consulta es una frase extraída aleatoriamente del pasaje y el documento son el resto de frases;
  • Body First Selection (BFS): la consulta es una oración aleatoria en la primera sección de una página de Wikipedia y el documento es un pasaje aleatorio de la misma página;
  • Predicción de enlace wiki (WLP): la consulta es una oración aleatoria en la primera sección de una página de Wikipedia y el documento es un pasaje de otra página donde hay un hipervínculo a la página de la consulta.

novedad de motivación:

El supuesto del modelo de lenguaje Query Likelihood
es: p(R=1|q,d)≈p(q|d,R=1). La probabilidad de que el documento sea relevante para la consulta es aproximadamente igual a la entrada del usuario en la premisa de que el documento es relevante La probabilidad de q. Para obtener más información, consulte: Modelo de clasificación de documentos: probabilidad de consulta.
El editor cree que el principio es en realidad similar a TF-IDF, que calcula la similitud entre la consulta y el documento.

La idea clave está inspirada en el modelo de lenguaje estadístico tradicional para RI, específicamente el modelo de probabilidad de consulta [27] que se propuso en el siglo pasado. El modelo de probabilidad de consulta supone que la consulta se genera como el fragmento de texto representativo del documento "ideal" [19]. Con base en el teorema bayesiano, la relación de relevancia entre la consulta y el documento podría entonces aproximarse mediante la probabilidad de la consulta dado el modelo de lenguaje del documento bajo alguna suposición previa leve.Con base en la teoría clásica de IR, proponemos la tarea de Predicción de palabras representativas (ROP) para el preentrenamiento. Específicamente, dado un documento de entrada, tomamos muestras de un par de conjuntos de palabras de acuerdo con el modelo de lenguaje del documento, que está definido por un popular modelo de lenguaje de unigrama multinomial con suavizado previo de Dirichlet. El conjunto de palabras con mayor probabilidad se considera más “representativo” del documento. Luego, preparamos el modelo Transformer para predecir la preferencia por pares entre los dos conjuntos de palabras, junto con el objetivo del Modelo de lenguaje enmascarado (MLM).El modelo previamente entrenado, llamado PROP para abreviar, podría luego ajustarse en una variedad de tareas de recuperación ad hoc posteriores. La ventaja clave de PROP radica en que se basa en una buena base teórica de IR y podría entrenarse universalmente. sobre corpus de texto a gran escala sin ningún requisito de estructura de documento especial (por ejemplo, hipervínculos).
Encuentre dos conjuntos consultando la probabilidad y entrene agregando pérdida de comparación y pérdida del modelo de lenguaje enmascarado (MLM), de modo que pueda entrenar un modelo similar a BERT. pero es un modelo preentrenado más adecuado para escenarios de recuperación.

1.2.B-PROP: Entrenamiento previo iniciado con predicción de palabras representativas para recuperación ad hoc

Este trabajo es una pieza complementaria de PROP: Pre-entrenamiento con predicción de palabras representativas para recuperación ad-hoc. La motivación es resolver el problema de probabilidad de consulta en PROP que solo usa unigrama sin referencia al contexto. Por lo tanto, se propone usar BERT para seleccionar palabras clave.

La forma más directa es utilizar directamente la atención de CLS y otros tokens en BERT como peso de la palabra, pero las palabras seleccionadas de esta manera suelen ser algunas palabras comunes en, the, of, de la siguiente manera: Para resolver esto En este problema, el autor utiliza
Insertar descripción de la imagen aquí
el modelo de desviación aleatoria (divergencia de la aleatoriedad), que es un modelo estadístico probabilístico en recuperación. Por lo tanto, el autor se basa en esta teoría como punto de apoyo, lo que creo que es un punto innovador de este artículo.

Cuando estaba leyendo el artículo aquí, pensé ¿por qué no usar tfidf para filtrar? De hecho, después de leer la teoría anterior de la divergencia de la aleatoriedad, descubrí que el uso de entropía cruzada para estadísticas, de hecho, después de una pequeña extrapolación, descubrí que es básicamente equivalente a tfidf. Pero si utiliza directamente el filtrado tfidf al escribir un artículo, obviamente no será tan avanzado. Esto no quiere decir que los autores de B-PROP sean oportunistas, sino que escribir todavía requiere ciertas habilidades, pero estas habilidades están arraigadas en el sistema teórico básico. Con respecto a la divergencia de la aleatoriedad,
también descubrí que TF-IDF es similar en principio a la entropía cruzada, lo puse aquí:
TFIDF: Insertar descripción de la imagen aquí
Entropía cruzada: elimine la suma y mírelo ~ (clase pequeña del editor jaja, para más detalles, consulte : Entropía cruzada
Insertar descripción de la imagen aquí

otro

  • Expansión de documentos mediante predicción de consultas
    identificó términos de expansión de documentos utilizando un modelo de secuencia a secuencia que generó posibles consultas para las cuales el documento dado sería relevante.
    Este método es un esquema de recuperación dispersa similar a BM25, y el efecto es superior a BM25. La idea es generar posibles consultas a través de artículos y agregarlas directamente a los artículos originales, lo que resuelve el problema de tener el mismo significado pero términos diferentes en una recuperación escasa. Otro artículo sencillo pero eficaz.

    Los algoritmos y modelos en el campo de la recuperación de información se dividen aproximadamente en dos categorías, dispersos y densos. Esto se refiere a la forma en que se representan los datos en el modelo. Si un modelo representa consultas y documentos como vectores dispersos de alta dimensión, entonces el modelo es "escaso"; si los representa como vectores densos de dimensiones relativamente bajas, entonces es "denso". Los modelos dispersos típicos incluyen TF-IDF y BM25, mientras que los modelos densos típicos incluyen la mayoría de los modelos de recuperación de aprendizaje profundo actuales, como BERT de dos torres. Cabe señalar que si el modelo es escaso o denso no tiene nada que ver con si utiliza tecnología de aprendizaje profundo, solo depende de cómo se representan sus datos.

  • Ponderación de términos consciente del contexto para la recuperación de pasajes de la primera etapa. El enlace de interpretación
    utilizó un modelo BERT [12] para aprender las ponderaciones de términos relevantes en un documento y generó una representación de pseudodocumento.
    Este método es similar al método de extracción de ponderaciones de consultas durante mi anterior pasantía en una empresa de buscadores. El método es básicamente similar. Obtener el peso en la consulta haciendo clic en los datos (2018). La diferencia es que este artículo no solo agrega peso a la consulta, sino que también utiliza el mismo método para obtener el peso del término del documento. Los resultados son igualmente válidos.

    Experiencia del editor: si el número de clics es lo suficientemente grande, el método anterior puede funcionar mejor, porque dicha ponderación de términos puede ser más significativa estadísticamente.

Supongo que te gusta

Origin blog.csdn.net/u014665013/article/details/127655457
Recomendado
Clasificación