Seguimiento en tiempo real de las tendencias de investigación científica丨7.25 Nuevos artículos seleccionados, con resumen de ChatPaper

Como investigador científico, debe buscar y navegar una gran cantidad de literatura académica todos los días para obtener los últimos avances científicos y tecnológicos y los resultados de la investigación. Sin embargo, los métodos tradicionales de recuperación y lectura ya no pueden satisfacer las necesidades de los investigadores.

ChatPaper, una herramienta de conocimiento de documentos que integra recuperación, lectura y preguntas y respuestas de conocimiento. Ayudarlo a mejorar rápidamente la eficiencia de la búsqueda y lectura de documentos, obtener las últimas tendencias de investigación en el campo y hacer que la investigación científica funcione más fácilmente.
inserte la descripción de la imagen aquí

En combinación con la función de suscripción dinámica de vanguardia, seleccione los nuevos documentos populares del día de arXiv para formar un resumen de los documentos, de modo que todos puedan comprender las tendencias de vanguardia más rápidamente.

Si desea tener una conversación en profundidad sobre un documento determinado, puede copiar directamente el enlace del documento a su navegador o ir directamente a la página de ChatPaper: https://www.aminer.cn/chat/g/

Lista de nuevos artículos destacados para el 25 de julio de 2023:

1. Evaluación de los efectos dominó de la edición del conocimiento en la página de detalles del documento de modelos de lenguaje

https://www.aminer.cn/pub/64bf49b13fda6d7f062822c1/

Explica el problema de que se producirán errores al editar el conocimiento en el modelo de lenguaje. Los métodos de edición existentes se centran principalmente en si un hecho individual se inyecta con éxito y si cambian las predicciones similares para otros sujetos. Sin embargo, el resumen argumenta que existen limitaciones en este enfoque de evaluación, ya que inyectar un hecho puede causar un "efecto dominó" en el que el modelo debe actualizarse con otros hechos relevantes. Para abordar este problema, Abstract propone un nuevo criterio de evaluación que considera el impacto de las ediciones en hechos relevantes. A partir de estos criterios, el resumen construye una "onda" de referencia de diagnóstico de ediciones reales de 5K, capturando múltiples tipos de efectos de onda. Resumen La evaluación de métodos de edición bien conocidos en "ripple" muestra que los métodos actuales no pueden introducir cambios consistentes en el conocimiento del modelo. Además, el resumen encuentra que una línea de base de edición contextual simple logra la mejor puntuación en nuestros puntos de referencia, lo que sugiere que la edición de modelos es una dirección de investigación prometedora.

2.3D-LLM: Inyectar el mundo 3D en modelos de lenguaje grandes página de detalles del artículo

https://www.aminer.cn/pub/64bf49b63fda6d7f062827a7/

El documento plantea la cuestión de que los modelos de lenguaje grande (LLM) y los modelos de lenguaje visual (VLM) actuales no tienen raíces en el mundo físico 3D que incluye conceptos más ricos de relaciones espaciales, aplicabilidad, física, diseño, etc. Los autores abordan este problema proponiendo un nuevo modelo de 3D-LLM que tiene como objetivo introducir el mundo tridimensional en grandes modelos de lenguaje. Este modelo puede aceptar nubes de puntos 3D y sus características como entrada, y realizar una variedad de tareas relacionadas con 3D, que incluyen descripción, descripción densa, respuesta a preguntas 3D, descomposición de tareas, posicionamiento 3D, diálogo asistido 3D, navegación, etc. Mediante el uso de los tres mecanismos de solicitud diseñados, los autores pudieron recopilar más de 300 000 datos de lenguaje en 3D que cubren estas tareas. Para entrenar eficientemente el modelo 3D-LLM, los autores primero utilizan un extractor de características 3D para obtener características 3D a partir de imágenes renderizadas de múltiples vistas y luego usan el modelo 2D VLM como la columna vertebral para entrenar el modelo 3D-LLM. Después de introducir el mecanismo de posicionamiento 3D, el modelo 3D-LLMs puede capturar mejor la información espacial 3D. Los experimentos en el conjunto de datos de ScanQA muestran que nuestro modelo logra un mejor rendimiento en comparación con los modelos de referencia (p. ej., la puntuación BLEU-1 supera la puntuación actual en un 9 %). Además, los experimentos sobre descripción 3D, composición de tareas y diálogo asistido por 3D muestran que nuestro modelo supera a los modelos VLM 2D. Los ejemplos cualitativos también muestran que nuestro modelo puede realizar muchas más tareas más allá del alcance de los LLM y VLM existentes.

3. RLCD: página de detalles del documento de aprendizaje reforzado a partir de la destilación de contraste para la alineación del modelo de lenguaje

https://www.aminer.cn/pub/64bf49a33fda6d7f0628086a/

El documento propone un método llamado RLCD, que se utiliza para alinear modelos de lenguaje de acuerdo con los principios del lenguaje natural a través de la destilación de contraste sin utilizar retroalimentación humana. RLCD entrena un modelo de preferencias mediante el uso de pares de preferencias simulados generados al comparar ejemplos positivos y negativos, y luego utiliza el aprendizaje por refuerzo para mejorar un modelo básico de lenguaje desalineado. Los experimentos demuestran que RLCD supera a RLAIF (Bai et al., 2022b) y un método de referencia para la destilación contextual (Huang et al., 2022).

4. Un WebAgent del mundo real con planificación, comprensión del contexto largo y página de detalles del documento de síntesis del programa

https://www.aminer.cn/pub/64bf49013fda6d7f06275319/

El documento señala que aún existen los siguientes problemas cuando se usa un modelo de lenguaje grande (LLM) preentrenado para la navegación de red autónoma en sitios web del mundo real: (1) problema de dominio abierto, (2) longitud de contexto limitada, (3) falta de HTML de sesgo inductivo. Para abordar estos problemas, los investigadores presentan WebAgent, un agente impulsado por LLM que puede completar tareas en sitios web reales basándose en instrucciones en lenguaje natural. WebAgent planifica con anticipación desglosando las instrucciones en subinstrucciones canónicas, resumiendo documentos HTML largos en fragmentos relevantes para la tarea y ejecutando tareas en sitios web a través de programas de Python generados. Los investigadores diseñaron Flan-U-PaLM para la generación basada en código y un nuevo LLM HTML-T5 preentrenado para la planificación y el resumen, utilizando mecanismos de atención locales y globales y objetivos híbridos de eliminación de ruido de largo alcance. Los resultados empíricos muestran que su método mejora la tasa de éxito de tareas en sitios web reales en más del 50 %, y que HTML-T5 es el mejor modelo para resolver tareas basadas en HTML, en comparación con el estado del arte anterior en MiniWoB. punto de referencia de navegación de la página web, tasa de éxito 14.9% más alta y mejor precisión en la evaluación de la planificación de la misión fuera de línea. Por lo tanto, el resumen ilustra los problemas restantes de la realización de tareas en sitios web reales.

5. WOUAF: Modulación de peso para atribución de usuarios y huellas dactilares en modelos de difusión de texto a imagen página de detalles del artículo

https://www.aminer.cn/pub/6482a38ed68f896efa8db3a0/

El documento señala el rápido desarrollo de modelos generativos que pueden crear imágenes hiperrealistas a partir de descripciones textuales, pero también plantea preocupaciones sobre la desinformación. Los mecanismos tradicionales de detección de falsificaciones, si bien brindan mitigación hasta cierto punto, no logran rendir cuentas por el uso malicioso de imágenes sintéticas. El documento propone una nueva técnica de huellas dactilares modelo para atribuir las imágenes generadas como una posible contramedida contra el mal uso del modelo. Este método modifica el modelo generativo de acuerdo con la huella digital única de cada usuario e imprime el identificador único en el contenido generado, que se puede rastrear hasta el usuario. Este método introduce el ajuste fino de la tarea de texto a imagen (T2I), utilizando un modelo de difusión estable, y logra una precisión de atribución casi perfecta con poco impacto en la calidad de salida. Este documento examina rigurosamente el secreto de nuestro método en dos escenarios diferentes: uno en el que un usuario malicioso intenta detectar huellas dactilares y el otro en el que el usuario tiene un conocimiento completo de nuestro método. También se evalúa la solidez de nuestro método para varias operaciones de posprocesamiento de imágenes realizadas comúnmente por los usuarios. A través de una evaluación exhaustiva de modelos de difusión estable, nuestro enfoque proporciona una vía prometedora y novedosa para la distribución de modelos rastreables y el uso responsable.

6.Arquitecturas de red optimizadas para el entrenamiento de modelos de idiomas grandes con miles de millones de parámetros página de detalles del documento

https://www.aminer.cn/pub/64bf48f93fda6d7f0627475c/

El documento señala los problemas en la construcción de redes cualquiera para entrenar modelos de lenguaje a gran escala (LLM). Tradicionalmente, todas las GPU requieren una comunicación entre todos de gran ancho de banda para lograr un rendimiento de entrenamiento casi óptimo. Sin embargo, este documento encuentra que el patrón de comunicación de los LLM es único, ya que solo requiere comunicación de ancho de banda alto entre pequeños grupos de GPU, mientras que las comunicaciones fuera de estos grupos son triviales, escasas y distribuidas uniformemente. Para abordar este problema, los autores proponen una nueva arquitectura de red que divide el clúster en una colección de GPU conectadas por una interconexión de alto ancho de banda que no bloquea, llamada dominio HB. Entre dominios HB, la red solo conectará GPU con necesidades de comunicación. Los autores se refieren a esta conectividad de red como conectividad "solo ferroviaria" y muestran que nuestra arquitectura de red propuesta puede reducir los costos de la red hasta en un 75 % en comparación con las redes existentes de Clos, sin comprometer el rendimiento de la capacitación LLM.

7. La descomposición de preguntas mejora la fidelidad de la página de detalles del artículo de razonamiento generado por modelos

https://www.aminer.cn/pub/64bf48f93fda6d7f062745ba/

El problema de verificar la corrección y seguridad del comportamiento de los modelos de lenguaje extenso (LLM) se vuelve más difícil a medida que realizan tareas más difíciles. Una forma de abordar este problema es obligar a los LLM a generar un razonamiento paso a paso (CoT) al responder preguntas, de modo que externalicen el proceso de razonamiento. El proceso de inferencia nos permite examinar el proceso que utiliza un modelo para realizar una tarea. Sin embargo, este enfoque se basa en el razonamiento establecido para reflejar fielmente el razonamiento real del modelo, lo que no siempre es así. Para mejorar la fidelidad de la inferencia CoT, habilitamos la inferencia generativa del modelo al descomponer el problema en subproblemas. Los métodos basados ​​en descomposición logran un rendimiento sólido en las tareas de respuesta a preguntas, a veces acercándose al rendimiento de CoT, al tiempo que mejoran la precisión de la inferencia de declaraciones del modelo en algunas métricas propuestas recientemente. Al obligar al modelo a responder subpreguntas más simples en diferentes contextos, aumentamos en gran medida la fidelidad de la inferencia generativa del modelo con respecto a CoT, al mismo tiempo que logramos ganancias parciales de rendimiento de CoT. Nuestros resultados muestran que la fidelidad de las inferencias de generación de modelos se puede mejorar; mejoras adicionales pueden conducir a inferencias que pueden verificar la corrección y seguridad del comportamiento LLM.

8.Menos es más: Centrar la atención para una página de detalles de papel DETR eficiente

https://www.aminer.cn/pub/64bf48f93fda6d7f06274926/

Se estudia un problema en los modelos de detección de objetos, es decir, todos los tokens se tratan por igual en las estructuras de codificador tradicionales, lo que introduce una carga computacional redundante. Las estrategias de dispersión recientes explotan un subconjunto de etiquetas informativas para reducir la complejidad de la atención, manteniendo el rendimiento a través de codificadores dispersos. Sin embargo, estos métodos a menudo se basan en estadísticas de modelos poco confiables, y simplemente reducir la cantidad de marcadores puede limitar en gran medida el rendimiento de la detección, limitando la aplicación de estos modelos dispersos. El estudio propone un método llamado Focus-DETR, que logra un mejor equilibrio entre la eficiencia computacional y la precisión del modelo al centrarse en marcadores más informativos. Específicamente, reconstruimos el codificador mediante el uso de atención dual, que incluye un mecanismo de puntuación de marcador que considera la información semántica de localización y categoría de objetos de mapas de características de múltiples escalas. Los investigadores descartan de manera efectiva las consultas de fondo y mejoran la interacción semántica de las consultas de objetos detalladas basadas en puntajes. En comparación con los detectores tipo DETR dispersos de última generación con la misma configuración, nuestro Focus-DETR logra 50.4AP (+2.2) en el conjunto de datos COCO con una complejidad comparable.

9. ¿Es todo lo que necesita atención en el análisis de imágenes médicas? Una página de detalles del artículo de revisión

https://www.aminer.cn/pub/64bf49013fda6d7f062752c7/

Se explora una pregunta en el análisis de imágenes médicas: ¿Es lo suficientemente ligero para llamar la atención? Señala que los modelos CNN comunes actuales ignoran la relación de píxeles globales en la imagen, lo que limita su capacidad de "generalizar" a información global diferente. En los últimos años, con el avance de la inteligencia artificial, han surgido modelos de Transformer que pueden aprender relaciones globales a partir de datos. Sin embargo, un modelo completo de Transformer debe entrenarse con datos a gran escala e implica una enorme complejidad computacional. Por lo tanto, se propone un componente ligero de atención y Transformador (Transf/Attention) como reemplazo del Transformador completo. Recientemente, ha habido una tendencia creciente de modelos de fusión entre las arquitecturas CNN y Transf/Attention, lo que permite una nueva era de modelos híbridos. Este estudio proporciona una descripción general de los modelos híbridos CNN-Transf/Attention existentes, evalúa las oportunidades y los desafíos actuales y futuros, e introduce un marco analítico integral para explorar oportunidades de generalización científica y clínica que pueden inspirar nuevos datos. Impulsa la investigación sobre métodos de adaptación y generalización de dominio.

Supongo que te gusta

Origin blog.csdn.net/AI_Conf/article/details/131933856
Recomendado
Clasificación