实时追踪科研动态丨Meta AI、微软、清华大学等机构9.21精选新论文

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。

然而，传统的检索和阅读方式已经无法满足科研人的需求。

AMiner AI，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。
在这里插入图片描述

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：https://www.aminer.cn/chat/g/explain

2023年9月21日精选新论文列表：

1.End-to-End Speech Recognition Contextualization with Large Language Models

本文介绍了一种将大型语言模型(Large Language Models, LLMs)用于上下文化语音识别模型的新方法。通过将语音识别视为基于预训练LLM的混合模态语言建模任务，我们提供音频特征以及可选的文本标记以用于上下文，以便使用解码器完成转录。因此，在训练过程中，系统会自动学习如何利用非结构化的上下文信息。实证结果显示，提供额外的文本上下文可以显著提高性能，WER降低了6%。此外，我们发现，相较于基线的上下文化RNN-T系统（在超过25倍的语音数据集上进行了训练），我们的方法在整体上提高了7.5%的WER，并在罕见单词上提高了17%的WER。总的来说，我们证明通过添加少量可训练参数的适配器，我们可以为预训练的LLM解锁上下文化语音识别能力，同时保持相同的仅文本输入功能。

https://www.aminer.cn/pub/650ba7c03fda6d7f06e6115e/?f=cs

2.The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute

文章给出了一个具体问题，即如何在计算资源有限的情况下进行语言建模研究。文章介绍了一个实验协议，通过加速器小时数来衡量等价计算，从而进行模型比较。通过这种方式，可以避免对影响总参数或浮点操作的关键超参数的限制。文章还提供了两个基准模型，并通过实验表明，改进的LSTM模型在可扩展性方面表现更好。最后，文章希望这项工作能为有意义和可重现的语言建模研究奠定基础。

https://www.aminer.cn/pub/650ba7c03fda6d7f06e612a0/?f=cs

3.A Large-scale Dataset for Audio-Language Representation Learning

说明了语音表示学习领域目前存在的问题，包括语音-文本数据集的规模不足、内容过于简单、采集过程繁琐等。为了解决这些问题，研究团队提出了一种基于公共工具或API的创新自动音频字幕生成流程，并构建了一个大规模、高质量的音频-语言数据集（Auto-ACD），包含超过190万个音频-文本对。为了证明该数据集的有效性，在该数据集上训练了流行的模型，并在各种下游任务（如音频-语言检索、音频字幕生成、环境分类）上展示了性能的改进。此外，研究团队还建立了一个新颖的测试集，并提供了音频-文本任务的基准。

https://www.aminer.cn/pub/650ba7c03fda6d7f06e613ef/?f=cs

4.Controllable Dynamic Appearance for Neural 3D Portraits

文章主要讨论了在神经辐射场（Neural Radiance Fields，简称NeRF）中控制动态外观的问题。NeRF的最新进展使得重建和重现动态人像场景成为可能，可以控制头部姿势、面部表情和观看方向。然而，训练这样的模型要求在变形区域（例如脸部）上保持光度一致性，即在头部姿势和面部表情变化时，脸部必须保持均匀照明。即使在工作室环境中，即使在视频的帧之间保持光度一致也很困难，因此在重现动态人像时容易出现伪影。为了解决这个问题，作者提出了CoDyNeRF系统，该系统能够在真实世界的捕获条件下创建完全可控的3D肖像。CoDyNeRF通过动态外观模型在规范化空间中学习逼近光照相关效果，该模型与预测的表面法线以及面部表情和头部姿势的变形有关。表面法线的预测使用作为人头表面法线的粗略先验知识的三维形状模型，因为由头部姿势和面部表情变化引起的刚性和非刚性变形使得直接预测法线很困难。通过仅使用智能手机捕获的主题的简短视频进行训练，作者证明了他们的方法在具有明确头部姿势和表情控制以及逼真光照效果的肖像场景的自由视点合成中的有效性。

https://www.aminer.cn/pub/650ba7c03fda6d7f06e611c9/?f=cs

5.LMDX: Language Model-based Document Information Extraction and Localization

这篇论文指出了语言模型在半结构化文档信息提取中的应用存在的问题。这些问题包括LLM没有包含布局编码，这对于高质量的提取非常重要，以及缺乏一个确保答案没有虚构的基准机制。由于这些问题的存在，LLM尚未成功应用于半结构化文档信息提取任务。

https://www.aminer.cn/pub/650ba7c03fda6d7f06e61185/?f=cs

6.DreamLLM: Synergistic Multimodal Comprehension and Creation

论文介绍了一种名为DreamLLM的学习框架，该框架首次实现了多模态大型语言模型（MLLMs），通过多模态理解和创作之间经常被忽视的协同作用来增强模型的功能。DreamLLM操作遵循两个基本原则。第一个原则是通过在原始多模态空间中直接采样来生成语言和图像后验的生成模型。这种方法规避了像CLIP这样的外部特征提取器存在的限制和信息损失问题，从而可以更全面地理解多模态数据。第二，DreamLLM促进了原始的交错文档的生成，同时对文本和图像内容以及无结构布局进行建模。这使得DreamLLM能够有效地学习所有条件、边缘和联合多模态分布。结果，DreamLLM成为了第一个能够生成自由形式交错内容的MLLM。通过全面的实验证明，DreamLLM作为一个零样本多模态通用模型具有卓越的性能，从增强的学习协同作用中获益。

https://www.aminer.cn/pub/650ba7c03fda6d7f06e613ee/?f=cs

7.FreeU: Free Lunch in Diffusion U-Net

传统的U-Net结构在去噪过程中的主干主要起到去噪的作用，而跳跃连接主要引入了高频特征，导致网络忽视了主干的语义信息。作者提出了一种名为"FreeU"的简单而有效的方法来改善生成模型的质量，而无需进行额外的训练或微调。通过合理调整U-Net的跳跃连接和主干特征图的贡献权重，可以充分发挥U-Net结构的两个组成部分的优势。该方法在图像和视频生成任务上取得了令人满意的结果，并且可以轻松地集成到现有的扩散模型中，从而只需修改两个缩放因子就可以提高生成质量。

https://www.aminer.cn/pub/650ba7c03fda6d7f06e613ec/?f=cs

8.Kosmos-2.5: A Multimodal Literate Model

论文介绍了Kosmos-2.5，这是一个多模态的有文本密集图片机器阅读模型。该模型在两个不同但相互协作的转录任务中表现出色：(1) 生成具有空间感知的文本块，其中每个文本块都被分配其在图片中的空间坐标，(2) 生成以Markdown格式捕捉样式和结构的结构化文本输出。通过共享的Transformer架构、任务特定的提示和灵活的文本表示，实现了统一的多模态有文本能力。我们对Kosmos-2.5在端到端的文档级文本识别和图像到Markdown文本生成进行了评估。此外，该模型可以通过有监督的微调轻松地适应不同提示的任何文本密集的图像理解任务，使其成为涉及文本丰富图像的实际应用的通用工具。这项工作还为未来多模态大型语言模型的扩展铺平了道路。

https://www.aminer.cn/pub/650ba7c03fda6d7f06e6139a/?f=cs

9.Chain-of-Verification Reduces Hallucination in Large Language Models

文章介绍了大型语言模型中存在的一个不可忽视的问题——产生合理但错误的事实信息，即所谓的"幻觉"。该研究探讨了语言模型通过仔细考虑其回答来纠正错误的能力。作者们开发了一种名为Chain-of-Verification (CoVe)的方法，其中模型首先（i）起草初始回答，然后（ii）计划验证问题以核对其草稿，（iii）独立回答这些问题，以避免其他回答的偏见，最后（iv）生成最终的经过验证的回答。实验证明，CoVe在多种任务中都能降低幻觉的产生，包括来自Wikidata的基于列表的问题、闭卷的MultiSpanQA以及生成长篇文本。

https://www.aminer.cn/pub/650ba7c03fda6d7f06e613ea/?f=cs

END

我们在AMiner网站首页添加了“每日精选新论文”专题，可以点击「订阅」和「加入知识库」，获取全部论文信息！

在这里插入图片描述

查看所有精选新论文：https://www.aminer.cn

实时追踪科研动态丨Meta AI、微软、清华大学等机构9.21精选新论文

猜你喜欢