Seguimiento en tiempo real de las tendencias de investigación científica丨 7.20 Nuevos artículos seleccionados, con resumen de ChatPaper

Como investigador científico, debe buscar y navegar una gran cantidad de literatura académica todos los días para obtener los últimos avances científicos y tecnológicos y los resultados de la investigación. Sin embargo, los métodos tradicionales de recuperación y lectura ya no pueden satisfacer las necesidades de los investigadores.

ChatPaper, una herramienta de conocimiento de documentos que integra recuperación, lectura y preguntas y respuestas de conocimiento. Ayudarlo a mejorar rápidamente la eficiencia de la búsqueda y lectura de documentos, obtener las últimas tendencias de investigación en el campo y hacer que la investigación científica funcione más fácilmente.
inserte la descripción de la imagen aquí

En combinación con la función de suscripción dinámica de vanguardia, seleccione los nuevos documentos populares del día de arXiv para formar un resumen de los documentos, de modo que todos puedan comprender las tendencias de vanguardia más rápidamente.

Si desea tener una conversación en profundidad sobre un documento determinado, puede copiar directamente el enlace del documento a su navegador o ir directamente a la página de ChatPaper:

Entrada de ChatPaper: https://www.aminer.cn/chat/g/

Lista de nuevos artículos destacados para el 20 de julio de 2023:

1.Sobre el origen de los LLM: un árbol evolutivo y un gráfico para 15 821 modelos de idiomas grandes

Enlace: https://www.aminer.cn/pub/64b8b1bd3fda6d7f062b9845/

Revisión de ChatPaper: la investigación apunta al problema de que, debido al uso generalizado de modelos de lenguaje extenso (LLM), la cuestión de qué contextos, entornos, métodos de capacitación y familias de LLM son populares o están de moda se vuelve importante. Sin embargo, actualmente no hay un índice LLM completo disponible. Por lo tanto, este estudio aborda este problema explotando las reglas de nomenclatura sistemáticas de los LLM Hugging Face, realizando un agrupamiento jerárquico usando n-gramas y frecuencia de palabra-frecuencia inversa del documento, e identificando las correlaciones entre los LLM. El estudio también desarrolló una aplicación web pública, llamada Constellation, para navegar y explorar mapas de los 15 821 LLM, con una variedad de herramientas de visualización para ayudar a comprender los datos.

2. Representación de ADN: un repositorio de actores neuronales diversos para la representación centrada en humanos de alta fidelidad

Enlace: https://www.aminer.cn/pub/64b8b1c13fda6d7f062bb087/

Revisión de ChatPaper: ilustra que los conjuntos de datos y los puntos de referencia de representación antropocéntricos actuales son relativamente deficientes en diversidad, y que esta diversidad es fundamental para la eficacia de representación. Los conjuntos de datos existentes limitan a los investigadores a explorar y evaluar una pequeña cantidad de problemas de representación en los conjuntos de datos actuales, mientras que las aplicaciones prácticas requieren métodos que puedan funcionar de manera sólida en diferentes escenarios. Para abordar este problema, los autores proponen DNA-Rendering, un repositorio de alta fidelidad a gran escala de datos de rendimiento humano para la representación de actores neuronales. El conjunto de datos contiene más de 1500 sujetos humanos, 5000 secuencias de acción y un volumen de datos de 67,5 millones de fotogramas. Además, los autores brindan abundantes recursos para cada tema, incluidos puntos clave del cuerpo humano en 2D/3D, máscaras de primer plano, modelos SMPLX, materiales de ropa/accesorios, imágenes y videos de vistas múltiples. Estos recursos mejoran la precisión de los métodos actuales en las tareas de renderizado posteriores. Además, los autores construyeron un sistema profesional de múltiples vistas para capturar los datos, que contiene 60 cámaras simultáneas con una resolución máxima de 4096 x 3000, una velocidad de 15 fotogramas por segundo y estrictos pasos de calibración de cámaras, que garantizan recursos de alta calidad. para entrenamiento y evaluación de tareas. Además del conjunto de datos, los autores proporcionan un punto de referencia cuantitativo a gran escala que comprende múltiples tareas para evaluar el progreso de la síntesis de vista novedosa, la síntesis de animación de pose novedosa y los métodos de representación de identidad novedosos. En conclusión, este estudio describe los esfuerzos de representación de ADN, revelando nuevas observaciones, desafíos y direcciones futuras para la representación antropocéntrica.

3.Android in the Wild: un conjunto de datos a gran escala para el control de dispositivos Android

Enlace: https://www.aminer.cn/pub/64b8b1c13fda6d7f062bb007/

Revisión de ChatPaper: el documento ilustra un interés creciente en los sistemas de control de dispositivos para interpretar los comandos del lenguaje natural humano y controlar directamente la ejecución de sus interfaces de usuario en dispositivos digitales. Los autores proponen un conjunto de datos Android in the Wild (AITW) para la investigación de control de dispositivos que es mucho más grande que los conjuntos de datos actuales. Este conjunto de datos contiene demostraciones humanas de interacciones con dispositivos, incluidas pantallas y acciones, con las correspondientes instrucciones en lenguaje natural. Contiene 715k episodios que cubren 30k instrucciones únicas, cuatro versiones de Android (v10-13) y ocho tipos de dispositivos (desde Pixel 2 XL hasta Pixel 6), con diferentes resoluciones de pantalla. Incorpora tareas de varios pasos que requieren comprensión semántica del lenguaje y entornos visuales. Este conjunto de datos presenta un nuevo desafío: las acciones en las interfaces de usuario deben inferirse de su apariencia visual. Además, los espacios de acción no son simples acciones basadas en elementos de la interfaz de usuario, sino gestos precisos (por ejemplo, desplazarse horizontalmente para manipular un widget de carrusel). Los autores organizaron el conjunto de datos para facilitar el análisis de solidez de los sistemas de control de dispositivos, es decir, qué tan bien funciona el sistema frente a nuevas descripciones de tareas, nuevas aplicaciones o nuevas versiones de la plataforma. Los autores desarrollan dos agentes e informan su desempeño en todo el conjunto de datos.

4.FABRIC: Personalización de modelos de difusión con comentarios iterativos

Enlace: https://www.aminer.cn/pub/64b8b1c13fda6d7f062bb077/

Revisión de ChatPaper: explora cómo se pueden integrar los comentarios humanos en el proceso generativo de un modelo difuso de texto a imagen en modelos generativos. Al explotar las capas de autoatención en las arquitecturas más utilizadas para asociar el proceso de difusión con un conjunto de imágenes de retroalimentación, proponemos un método sin entrenamiento aplicable a varios modelos de difusión populares, llamado FABRIC. Para garantizar una evaluación rigurosa de nuestro método, presentamos una metodología de evaluación integral que proporciona un mecanismo poderoso para cuantificar el rendimiento de los modelos de visión generativa que incorporan comentarios humanos. A través de un análisis exhaustivo, mostramos que los resultados generados mejoran con múltiples rondas de retroalimentación iterativa, optimizando implícitamente las preferencias arbitrarias de los usuarios. Las posibles áreas de aplicación de estos hallazgos incluyen la creación y personalización de contenido personalizado.

5.Text2Layer: generación de imágenes en capas utilizando el modelo de difusión latente

Enlace: https://www.aminer.cn/pub/64b8b1bd3fda6d7f062b9835/

Descripción general de ChatPaper: en el flujo de trabajo de edición de imágenes existente, la composición de capas es un método muy popular. Sin embargo, en los métodos existentes, la generación de imágenes y la generación de máscaras de capa se realizan por separado. Para mejorar este proceso y producir resultados de síntesis de capas de mayor calidad, los autores proponen un nuevo enfoque, la generación de imágenes en capas utilizando un modelo de difusión latente. Reconstruyeron imágenes en capas entrenando un codificador automático y entrenando un modelo de difusión en las representaciones latentes para generar simultáneamente imágenes de fondo, primer plano, máscaras de capa e imágenes compuestas. Este enfoque no solo produce imágenes en capas de alta calidad, sino que también mejora los flujos de trabajo de composición de capas y proporciona máscaras de capas de mayor calidad. Los resultados experimentales demuestran que el método propuesto es capaz de producir imágenes en capas de alta calidad y proporciona un punto de referencia para el trabajo futuro.

6.DialogStudio: Hacia la recopilación de conjuntos de datos unificados más ricos y diversos para la IA conversacional

Enlace: https://www.aminer.cn/pub/64b8b1c13fda6d7f062bb086/

Revisión de ChatPaper: señaló los desafíos que enfrenta el campo actual de IA de diálogo: los modelos de lenguaje encuentran dificultades para manejar diversas tareas de diálogo, y los conjuntos de datos de diálogo existentes carecen de diversidad y exhaustividad. Para abordar estos problemas, los autores presentan DialogStudio, la colección más grande y rica de datos de diálogo unificados en un formato consistente mientras conservan su información original. Este conjunto de datos incluye datos de diálogo de dominio abierto, diálogo orientado a tareas, comprensión del lenguaje natural, diálogo de recomendación, resumen de diálogo y diálogo basado en el conocimiento, lo que lo convierte en un recurso muy rico y diverso para la investigación del diálogo y la formación de modelos. Para mejorar aún más la utilidad de DialogStudio, los autores identifican las licencias para cada conjunto de datos y diseñan señales conscientes del dominio para los diálogos seleccionados para facilitar el ajuste fino de la conciencia guiada. Además, el autor utiliza este conjunto de datos para desarrollar un modelo de IA de diálogo, y los experimentos demuestran el rendimiento superior de DialogStudio en escenarios de aprendizaje de disparo cero y aprendizaje de pocos disparos.

7. Desafíos y aplicaciones de los modelos de lenguaje grande

Enlace: https://www.aminer.cn/pub/64b8b1c13fda6d7f062bb083/

Revisión de ChatPaper: el documento tiene como objetivo abordar los desafíos y problemas que se han aplicado con éxito en el campo de los modelos de lenguaje grande (LLM). Debido al rápido desarrollo de este campo, es difícil determinar qué desafíos quedan y áreas de aplicación donde se han logrado resultados. Por lo tanto, el objetivo de este documento es plantear una serie de preguntas abiertas sistemáticas y presentar casos exitosos en la aplicación, para que los investigadores de aprendizaje automático puedan comprender el estado del campo más rápidamente y mejorar la productividad.

8.Hacia un agente unificado con modelos básicos

Enlace: https://www.aminer.cn/pub/64b8b1bd3fda6d7f062b97b1/

Revisión de ChatPaper: el artículo ilustra que las capacidades de los modelos de lenguaje y los modelos de lenguaje visual pueden integrarse y explotarse en agentes de aprendizaje por refuerzo (RL). Estos modelos demuestran capacidades sin precedentes en la comprensión de la intención humana, el razonamiento, la comprensión de la escena y el comportamiento de planificación. El artículo explora el marco para el uso del lenguaje como una herramienta central de razonamiento y analiza cómo, de esta manera, los agentes pueden resolver una serie de desafíos fundamentales de RL, como la exploración eficiente, la reutilización de datos empíricos, las habilidades de programación y el aprendizaje a partir de la observación. que tradicionalmente requieren un algoritmo vertical diseñado por separado. Los autores probaron su método en un entorno de manipulación robótica simulada con escasas recompensas, donde se requería que el robot apilara un conjunto de objetos. Los resultados demuestran mejoras significativas en el rendimiento con respecto a los métodos de referencia en términos de eficiencia de exploración y la capacidad de reutilizar datos de conjuntos de datos fuera de línea, y demuestran cómo las habilidades aprendidas se pueden reutilizar para resolver nuevas tareas o imitar videos de expertos humanos.


¿Cómo usar ChatPaper?

El método de uso de ChatPaper es muy simple. Abra la página de inicio de AMiner e ingrese a la página de ChatPaper desde la barra de navegación en la parte superior de la página o en la esquina inferior derecha.
inserte la descripción de la imagen aquí
En la página de ChatPaper, puede elegir tener un diálogo basado en un solo documento o un diálogo basado en toda la biblioteca (biblioteca personal), y puede elegir cargar un PDF local o buscar documentos directamente en AMiner.

Si tiene alguna pregunta o sugerencia, no dude en contactarnos.

Supongo que te gusta

Origin blog.csdn.net/AI_Conf/article/details/131851575
Recomendado
Clasificación