Cadena de pensamiento de coherencia (LA AUTOCONSISTENCIA MEJORA LA CADENA DE RAZONAMIENTO DEL PENSAMIENTO EN MODELOS DE LENGUAJE)

descripción general

La cadena de pensamiento ha logrado resultados muy significativos en muchas tareas. Este artículo propone un algoritmo de autoconsistencia para reemplazar el algoritmo de decodificación codicioso. Este método toma muestras de múltiples conjuntos de cadenas de pensamiento y luego, después de generar el modelo LLM, se selecciona la respuesta más consistente como resultado final. La cadena de pensamiento consistente cree que los problemas de razonamiento complejos requieren diferentes formas de pensar para resolverlos, a fin de obtener una respuesta final y única. Después de la verificación experimental, la cadena de pensamiento consistente ha logrado una mejora significativa.

método

Insertar descripción de la imagen aquí
La idea de una cadena de pensamiento consistente es muy clásica: primero usamos el método de la cadena de pensamiento para impulsar el modelo, y luego, para las respuestas generadas, no usamos decodificación codiciosa, sino que dejamos que el modelo genere un proceso de razonamiento y respuestas diversas. y luego vote para seleccionar la respuesta consistente: el resultado con el sexo más alto. La cadena de pensamiento consistente es muy similar al pensamiento humano: si hay múltiples formas de pensar que pueden obtener la misma respuesta, entonces la respuesta tiene la mayor probabilidad de ser correcta. La cadena de pensamiento consistente resuelve el problema de la repetitividad y la localidad de la cadena de pensamiento, y también resuelve el problema de la aleatoriedad de la cadena de pensamiento hasta cierto punto.
La cadena de pensamiento consistente ha logrado resultados muy significativos en la mayoría de los problemas de razonamiento.

Supongo que te gusta

Origin blog.csdn.net/WitsMakeMen/article/details/133128793
Recomendado
Clasificación