Los dioses son silenciosos-directorio personal de publicaciones del blog CSDN

Nombre completo del artículo:
El modelo Deep Neural Solver for Math Word Problems no tiene una abreviatura oficial, pero se abrevia como DNS en (2020 COLING) Solving Math Word Problems with Multi-Encoders and Multi-Decoders

Enlace en papel: https://aclanthology.org/D17-1088/

Este artículo es un documento de EMNLP de 2017 que se centra en los problemas de MWP.
Es el primer artículo que resuelve el problema de MWP con una red neuronal, mapeando directamente el problema en una fórmula con RNN. Luego use una combinación de RNN y un modelo de recuperación basado en la similitud, cuando la puntuación de similitud del modelo de recuperación sea más alta que el umbral, use la plantilla de fórmula del resultado de la recuperación; de lo contrario, use RNN.

1. Antecedentes

inserte la descripción de la imagen aquí

La parte de introducción es demasiado perezosa para leer.

Una referencia interesante es (2016 ACL) ¿Qué tan bien resuelven las computadoras los problemas matemáticos verbales? La construcción y evaluación de conjuntos de datos a gran escala encontró que los métodos simples basados en similitudes ya pueden superar la mayoría de los modelos de aprendizaje estadístico.

2. modelo

inserte la descripción de la imagen aquí
asignación de números→identificación de números→recuperación→aplicar directamente la plantilla de fórmula o usar el modelo seq2seq

Soy demasiado perezoso para escribir algunos detalles de hiperparámetros del modelo, todavía es bastante convencional-RNN.

Variables: $V_p=\{v_1,\dots,v_m,x_1,\dots,x_k\}$ (número conocido y variable desconocida)

2.1 Preprocesamiento de datos

el mapeo de números asigna
fórmulas a plantillas de fórmulas: reemplace los números conocidos con tokens numéricos

Identificación de números significativos
Teniendo en cuenta que no se usan todos los números, solo concéntrese en los números importantes: use LSTM para la clasificación binaria (la entrada es número y contexto)

inserte la descripción de la imagen aquí

2.2 Modelo Seq2seq basado en RNN

inserte la descripción de la imagen aquí

La codificación y decodificación utilizan GRU y LSTM respectivamente

Si la función de activación usa softmax directamente, generará símbolos ilegales. Por lo tanto, los caracteres ilegales se juzgan de acuerdo con la fórmula generada anteriormente, que se realiza de acuerdo con las reglas predefinidas:
inserte la descripción de la imagen aquí

$ρ\rho$ es un vector, cada elemento es 0 o 1, lo que representa si el carácter es matemáticamente correcto (o cumple con las reglas anteriores):
inserte la descripción de la imagen aquí
según la salida del decodificador LSTM → la probabilidad de generar caracteres

2.3 modelo híbrido

Escala correcta para ambos modelos:
inserte la descripción de la imagen aquí

2.3.1 Modelo de recuperación

Calcule la similitud léxica entre la muestra y todas las muestras del conjunto de entrenamiento

Representación de la pregunta: puntajes de Word TF-IDF
inserte la descripción de la imagen aquí

La similitud es la similitud de Jaccard de los vectores TF-IDF: inserte la descripción de la imagen aquí

Una observación es la relación entre el umbral de similitud y la precisión de los dos modelos ( $\theta$ es el umbral, es decir, si la similitud es mayor que el umbral, usamos este modelo de recuperación):
inserte la descripción de la imagen aquí