实时追踪科研动态丨UC伯克利、谷歌、微软等机构精选新论文

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。

然而，传统的检索和阅读方式已经无法满足科研人的需求。AMiner AI，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

在这里插入图片描述

结合前沿动态订阅功能，精选arXiv当日热门新论文，形成论文综述，让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：https://www.aminer.cn/chat/g/explain

2023年9月13日精选新论文列表：

1.Efficient Memory Management for Large Language Model Serving with PagedAttention 阅读原文

论文说明了在大型语言模型服务中，高效的内存管理对于提高吞吐量至关重要。现有系统存在一个问题，即每个请求的键值缓存 (KV cache) 内存非常庞大，并且动态增长和收缩。如果内存管理不高效，会导致内存碎片化和冗余复制，从而限制了批处理大小。为了解决这个问题，论文提出了一种受经典虚拟内存和分页技术启发的注意力算法 PagedAttention。在此基础上，构建了一个名为 vLLM 的语言模型服务系统，实现了 (1) 在 KV cache 内存上几乎没有浪费，以及 (2) 在请求内部和请求之间灵活共享 KV cache，进一步减少内存使用。评估结果显示，相比于 FasterTransformer 和 Orca 等最先进的系统，vLLM 在相同的延迟水平下，将流行的语言模型的吞吐量提高了2-4倍。这种改进在处理更长的序列、更大的模型和更复杂的解码算法时效果更加显著。

https://www.aminer.cn/pub/65011be43fda6d7f060e4be3/?f=cs

2.PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models 阅读原文

说明了现有的个性化文字到图像生成方法在进行个性化时遇到的多个挑战，包括调整时间长、存储需求大、每个身份需要多个输入图片以及保存身份和可编辑性的限制。为了解决这些障碍，作者提出了一种创新的方法PhotoVerse，该方法在文本和图像领域都采用了双分支调节机制，有效地控制图像生成过程。此外，作者引入了面部身份损失作为一种新的组成部分，增强了训练过程中身份的保留。作者的方法不需要测试时间调整，仅依靠目标身份的单个面部照片，从而显著降低了图像生成的资源成本。经过单次训练后，该方法能在几秒钟内生成高质量的图像。此外，作者的方法能产生包含各种场景和风格的多样化图像。广泛的评估证明了作者方法的优秀性能，既能保留身份，又能便于编辑。

https://www.aminer.cn/pub/65011bda3fda6d7f060e4678/?f=cs

3.InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation 阅读原文

论文主要解决了扩散模型在文本到图像生成中的多步采样过程速度慢的问题。之前通过蒸馏的尝试虽然在减少计算成本上取得了一些进展，但未能实现功能完善的一步模型。作者提出了一种基于最近的方法Rectified Flow的新型文本条件流程，将Stable Diffusion（SD）转化为超快的一步模型。作者借助这一流程创建了首个具有SD级图像质量的一步扩散模型，其在MS COCO 2017-5k上的FID（Frechet Inception Distance）为23.3，明显超过了之前的最先进技术。通过使用1.7B参数的扩展网络，作者进一步将FID提高到22.4。在MS COCO 2014-30k上，InstaFlow以0.09秒的时间获得了13.1的FID，是目前在0.1秒范围内最好的性能，并且超过了最近的StyleGAN-T模型。值得注意的是，InstaFlow的训练仅耗费了199个A100 GPU天。

https://www.aminer.cn/pub/65011be43fda6d7f060e4cae/?f=cs

4.Natural Language Supervision for General-Purpose Audio Representations 阅读原文

论文讨论了当前在语音和音频表示学习领域存在的问题。虽然已经取得了显著的成果，但是通用任务的模型与特定任务的模型之间仍存在性能差距。该论文提出了一种对比学习的语音-音频预训练模型，该模型利用创新的编码器进行了零样本推理的预训练，并使用了包含语音和文本的多样化数据集。通过将音频和语言表示引入到联合多模态空间中，该模型改善了下游任务的性能。此外，该论文对该模型在26个下游任务上的泛化能力进行了广泛的评估，并在一些任务中取得了最先进的结果，为通用目的的音频表示学习铺平了道路。

https://www.aminer.cn/pub/65011bda3fda6d7f060e465e/?f=cs

5.Large Language Model for Science: A Study on P vs. NP 阅读原文

这篇论文讨论了在理论计算机科学和数学中最重要的未解决问题之一，P与NP问题，并提出使用大型语言模型（LLMs）来增强和加速对该问题的研究。研究者提出了一种名为Socratic reasoning的通用框架，利用LLMs进行复杂问题解决时的深入思考。Socratic reasoning鼓励LLMs递归地发现、解决和整合问题，并促进自我评估和优化。在对P与NP问题的初步研究中，研究者使用GPT-4成功生成了一个证明结构，并在97次对话中进行了严密的推理，得出了“P≠NP”的结论，与（Xu和Zhou，2023）的观点一致。这项研究揭示了LLMs在广阔的解决空间中的新见解，为科学中的LLMs提供了新的启示。

https://www.aminer.cn/pub/65011bda3fda6d7f060e460e/?f=cs

6.AstroLLaMA: Towards Specialized Foundation Models in Astronomy 阅读原文

在学术天文学等高度专业领域中，大型语言模型常常表现不佳。为了弥补这一差距，研究人员引入了AstroLLaMA，这是一个通过使用arXiv上超过300,000个天文学摘要对LLaMA-2进行微调得到的70亿参数模型。AstroLLaMA针对传统的因果语言建模进行了优化，其困惑度比Llama-2低30%，显示出明显的领域自适应能力。尽管参数显著少于其他基础模型，我们的模型生成的文本完成和嵌入提取比起其他最先进的基础模型更具洞察力和科学相关性。AstroLLaMA是一个健壮的领域特定模型，并具有广泛的微调潜力。其公开发布旨在促进以天文学为重点的研究，包括自动论文摘要和对话代理开发等。

https://www.aminer.cn/pub/65011be43fda6d7f060e4bad/?f=cs

7.Textbooks Are All You Need II: phi-1.5 technical report 阅读原文

研究者们通过开发小型Transformer语言模型来提高自然语言推理能力的过程及其成果。他们提出了使用已有的大型语言模型生成“教科书质量”数据来增强学习过程的方法，并开发了一个名为phi-1.5的13亿参数模型，性能在自然语言任务上可与5倍大的模型相比，并在复杂推理任务（如小学数学和基础编码）中超过了大多数非前沿的语言模型。然而，该模型也存在一些问题，例如会出现幻觉和可能产生有害和偏见的生成文本，不过由于缺乏网络数据，这些问题得到了一定程度的改善。最后，他们将phi-1.5开源以促进进一步研究。

https://www.aminer.cn/pub/64ffcbe23fda6d7f06d007c8/?f=cs

8.NExT-GPT: Any-to-Any Multimodal LLM 阅读原文

研究指出了当前多模态大型语言模型（MM-LLM）的一个限制，即它们仅具备输入端多模态理解的能力，而没有产生多模态内容的能力。为了达到人类水平的人工智能，开发能够接受和生成任何模态内容的任意对任意多模态LLM系统变得至关重要。为了弥补这一空白，研究人员提出了一种端到端的通用任意对任意多模态LLM系统，称为NExT-GPT。他们将一个LLM与多模态适配器和不同的扩散解码器相连接，使NExT-GPT能够以文本、图像、视频和音频的任意组合感知输入和生成输出。通过利用已经训练有素且性能优异的编码器和解码器，NExT-GPT仅需对某些投影层的参数进行很小比例（1%）的调整，这不仅有利于低成本训练，还便于方便地扩展到更多潜在模态。此外，研究人员引入了一种模态切换指令调整（MosIT）方法，并手动整理了一个高质量的用于MosIT的数据集，基于该数据集，NExT-GPT能够具备复杂的跨模态语义理解和内容生成能力。总体而言，该研究展示了构建能够建模通用模态的AI代理的有希望可能性，为社区中更加人类化的AI研究铺平了道路。

https://www.aminer.cn/pub/64ffcc023fda6d7f06d03cca/?f=cs

如何使用AMiner AI？

使用AMiner AI的方法很简单，打开AMiner首页，从页面顶部导航栏或者右下角便可进入AMiner AI页面。

AMiner AI使用教程：https://live.csdn.net/v/314755

实时追踪科研动态丨UC伯克利、谷歌、微软等机构精选新论文

猜你喜欢