© Autor|Wang Xiaolei
Institución|Universidad Renmin de China
Direcciones | Acceso a información conversacional
Por |RUC AI Box
Ingrese al grupo NLP —> únase al grupo de intercambio NLP (comentario nips/emnlp/nlpcc ingresa al grupo de contribución correspondiente)
Este artículo clasifica los artículos relacionados con modelos de lenguaje extenso publicados en las principales conferencias desde 2022.
guía
A fines del año pasado, ChatGPT lanzado por OpenAI se hizo popular en todo el mundo en solo unos meses. Este modelo de lenguaje a gran escala basado en GPT-3.5 tiene increíbles capacidades de comprensión y generación de lenguaje natural, y puede realizar tareas como diálogo, traducción y resumen como humanos. Debido a su excelente rendimiento, ChatGPT y el gran modelo de lenguaje que lo sustenta se convirtieron rápidamente en un tema candente en el campo de la inteligencia artificial, atrayendo la atención y la participación de una gran cantidad de investigadores y desarrolladores.
Este artículo clasifica 100 artículos relacionados con grandes modelos de lenguaje publicados en las principales conferencias (ACL, EMNLP, ICLR, ICML, NeurIPS, etc.) en 2022 . La lista de documentos se actualizó de forma sincronizada con el almacén de Github (https://github.com/RUCAIBox/Top-conference-paper-list) , bienvenido a prestar atención y Star.
Catálogo (catálogo)
Entrenamiento【Entrenamiento】
Pre-Entrenamiento [pre-entrenamiento]
Ajuste de instrucciones [ajuste fino de instrucciones]
Utilización
Aprendizaje en contexto【Aprendizaje en contexto】
Incitación a la cadena de pensamientos [Consejos sobre la cadena de pensamientos]
Compresión [compresión]
Otros【Otros】
Solicitud [solicitud]
Multimodal【Multimodal】
código [código]
recuperación [recuperación]
Generación de texto [generación de texto]
Otros【Otros】
Análisis y Evaluación【Análisis y Evaluación】
Entrenamiento【Entrenamiento】
Pre-Entrenamiento [pre-entrenamiento]
UL2: Unificación de paradigmas de aprendizaje de idiomas
Aprendiendo a desarrollar modelos preentrenados para un entrenamiento eficiente de transformadores
Modelado de lenguaje eficiente a gran escala con mezclas de expertos
Conocimiento en contexto: hacia modelos de lenguaje semiparamétrico informados
CodeGen: un modelo abierto de lenguaje grande para código con síntesis de programa de múltiples turnos
InCoder: un modelo generativo para el relleno y la síntesis de código
CodeBPE: investigación de las opciones de subtokenización para el entrenamiento previo del modelo de lenguaje grande en el código fuente
CodeRetriever: un método de entrenamiento previo contrastivo a gran escala para la búsqueda de códigos
UniMax: Muestreo lingüístico más justo y eficaz para la formación previa multilingüe a gran escala
GLM-130B: un modelo preentrenado bilingüe abierto
Cuando FLUE se encuentra con FLANG: puntos de referencia y gran modelo de lenguaje preentrenado para el dominio financiero
Ajuste de instrucciones [ajuste fino de instrucciones]
¿Qué hace que el aprendizaje de instrucción sea difícil? Una investigación y un nuevo desafío en un entorno sintético
InstructDial: mejora de la generalización de cero y pocos disparos en el diálogo a través del ajuste de instrucciones
Instrucciones de aprendizaje con datos sin etiquetar para la generalización de tareas cruzadas Zero-Shot
Super-NaturalInstructions: generalización a través de instrucciones declarativas en más de 1600 tareas de PNL
Impulsar la generación de lenguaje natural a partir de instrucciones con metaaprendizaje
Ayúdame a escribir un poema - Instrucción Tuning como vehículo para la escritura de poesía colaborativa
Indicaciones basadas en instrucciones multitarea para el reconocimiento de falacias
No todas las tareas nacen iguales: comprensión de la generalización de tiro cero
HypeR: el entrenamiento hiperimpulsado multitarea permite la generalización de la recuperación a gran escala
Utilización
Aprendizaje en contexto【Aprendizaje en contexto】
¿Qué algoritmo de aprendizaje es el aprendizaje en contexto? Investigaciones con modelos lineales
Pregúntame cualquier cosa: una estrategia simple para incitar a los modelos lingüísticos
Los modelos de lenguaje grande son ingenieros rápidos a nivel humano
Uso de Demostraciones e Instrucciones de Lenguaje para Aprender Eficientemente Tareas Robóticas
Indicaciones kNN: aprendizaje más allá del contexto con inferencia del vecino más cercano sin calibración
¡Adivina la instrucción! Flipped Learning hace que los modelos de lenguaje sean más fuertes
La anotación selectiva mejora los modelos de lenguaje
Selección de ejemplos activos para el aprendizaje en contexto
Repensar el papel de las demostraciones: ¿Qué hace que funcione el aprendizaje en contexto?
Aprendizaje en contexto para seguimiento de estado de diálogo de pocas tomas
Resolución de anáfora de pocos disparos en protocolos científicos a través de mezclas de expertos en contexto
ProGen: generación progresiva de conjuntos de datos de tiro cero a través de comentarios en contexto
Simulación de diálogo controlable con aprendizaje en contexto
¿Está pensando en el aprendizaje en contexto GPT-3 para la IE biomédica? Piensa otra vez
XRICL: Aprendizaje en contexto aumentado con recuperación multilingüe para análisis semántico de texto a SQL en varios idiomas
Sobre la brecha de generalización composicional del aprendizaje en contexto
Hacia una evaluación no experta en contexto de la generación de reflexión para conversaciones de consejería
Hacia la identificación de pocos disparos de los marcos de moralidad utilizando el aprendizaje en contexto
Incitación a la cadena de pensamientos [Consejos sobre la cadena de pensamientos]
ReAct: sinergizando el razonamiento y la actuación en modelos de lenguaje
Selección-Inferencia: Explotación de Modelos de Lenguaje Grande para Razonamiento Lógico Interpretable
Planificación de procedimientos neurosimbólicos con indicaciones de sentido común
Los modelos de lenguaje son razonadores codiciosos: un análisis formal sistemático de la cadena de pensamiento
PINTO: Razonamiento en lenguaje fiel utilizando fundamentos generados rápidamente
Indicaciones descompuestas: un enfoque modular para resolver tareas complejas
Indicaciones basadas en la complejidad para el razonamiento de varios pasos
Sugerencias automáticas de la cadena de pensamientos en modelos de lenguaje extenso
Análisis semántico composicional con grandes modelos de lenguaje
La autoconsistencia mejora el razonamiento de la cadena de pensamiento en los modelos de lenguaje
Las indicaciones de menos a más permiten un razonamiento complejo en modelos de lenguaje extenso
Entailer: Respondiendo Preguntas con Cadenas de Razonamiento Fieles y Veraces
Modelos de lenguaje preentrenado iterativamente rápido para la cadena de pensamiento
ConvFinQA: exploración de la cadena de razonamiento numérico en la respuesta a preguntas sobre finanzas conversacionales
Los fundamentos del lenguaje natural inducido y los tokens de marcado intercalados permiten la extrapolación en modelos de lenguaje grandes
Compresión [compresión]
Comprensión y mejora de la destilación de conocimientos para la formación consciente de la cuantificación de codificadores de transformadores grandes
El cirujano BERT óptimo: poda de segundo orden escalable y precisa para modelos de lenguaje grande
AlphaTuning: Adaptación eficiente de parámetros con reconocimiento de cuantización de modelos de lenguaje preentrenados a gran escala
Otros【Otros】
BBTv2: Hacia un futuro sin gradientes con modelos de lenguaje grandes
Representaciones de tareas de composición para modelos de lenguaje grande
Just Fine-tune Twice: privacidad diferencial selectiva para modelos de lenguaje grande
Solicitud [solicitud]
Multimodal【Multimodal】
Clasificación visual a través de la descripción de modelos de lenguaje grande
Modelos socráticos: composición de razonamiento multimodal de tiro cero con lenguaje
VQA Plug-and-Play: VQA de disparo cero mediante la combinación de grandes modelos preentrenados con entrenamiento cero
código [código]
DocPrompting: generación de código recuperando los documentos
Planificación con grandes modelos de lenguaje para la generación de código
CodeT: Generación de código con pruebas generadas
Los modelos de lenguaje pueden enseñarse a sí mismos a programar mejor
recuperación [recuperación]
Promptagator: Recuperación densa de pocos disparos a partir de 8 ejemplos
Modelos de lenguaje aumentados por recitación
Generar en lugar de recuperar: los modelos de lenguaje extenso son fuertes generadores de contexto
QUILL: Intención de consultas con modelos de lenguaje extenso mediante el aumento de recuperación y la destilación en varias etapas
Generación de texto [generación de texto]
Generación de secuencias aprendiendo a autocorregirse
RankGen: mejora de la generación de texto con grandes modelos de clasificación
Obtener conocimiento de grandes modelos preentrenados para conversaciones no supervisadas basadas en el conocimiento
Otros【Otros】
Rectificación sistemática de modelos lingüísticos mediante análisis sin salida
Diseño de recompensas con modelos de lenguaje
Los modelos de lenguaje bidireccional también son aprendices de pocas oportunidades
Composición de conjuntos de modelos preentrenados mediante consenso iterativo
Vinculación de modelos de lenguaje en lenguajes simbólicos
Mind's Eye: Modelo de lenguaje fundamentado Razonamiento a través de la simulación
Análisis y Evaluación【Análisis y Evaluación】
WikiPor qué: Respondiendo y explicando preguntas de causa y efecto
ROSCOE: un conjunto de métricas para calificar el razonamiento paso a paso
Cuantificación de la memorización a través de modelos de lenguaje neuronal
Memoria de edición masiva en un transformador
Evaluación multilingüe de modelos de generación de código
STREET: UN REFERENTE DE RAZONAMIENTO ESTRUCTURADO Y EXPLICACIÓN MULTITAREA
Aprovechamiento de modelos de lenguaje extenso para responder preguntas de opción múltiple
Leyes de escala neuronal rotas
Los modelos de lenguaje son razonadores multilingües de cadena de pensamiento.
Los modelos de lenguaje son generadores de datos tabulares realistas
Ambigüedad de tareas en humanos y modelos de lenguaje
Descubriendo conocimiento latente en modelos de lenguaje sin supervisión
Incitando a GPT-3 a ser confiable
Los modelos de lenguaje grande son extractores de información clínica de pocas tomas
Cómo los grandes modelos de lenguaje están transformando el plagio de paráfrasis automática
¿Teoría neural de la mente? Sobre los límites de la inteligencia social en los grandes LM
SLING: evaluación sinolingüística de modelos lingüísticos grandes
Una investigación sistemática del conocimiento del sentido común en grandes modelos de lenguaje
La generalización léxica mejora con modelos más grandes y un entrenamiento más prolongado
¿Qué aprenden los modelos de lenguaje grande más allá del lenguaje?
Sondeo para la comprensión de clases de verbos en inglés y alternancias en grandes modelos de lenguaje preentrenados
Ingrese al grupo NLP —> únase al grupo de intercambio NLP (comentario nips/emnlp/nlpcc ingresa al grupo de contribución correspondiente)
Continúe publicando la información más reciente, como la interpretación del procesamiento del lenguaje natural NLP, documentos diarios de alta calidad, información relevante de primera mano, posiciones de algoritmos de IA, etc.
Únete al planeta, obtendrás:
1. Actualice 3-5 lecturas de velocidad de papel más recientes y de alta calidad todos los días
2. Los últimos materiales de aprendizaje introductorio y avanzado
4. Información de contratación diaria de 1 a 3 para puestos de AI como PNL, búsqueda, promoción y promoción, y CV