实时追踪科研动态丨百川、谷歌DeepMind等机构9.20精选新论文

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。

然而，传统的检索和阅读方式已经无法满足科研人的需求。

AMiner AI，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。
在这里插入图片描述

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：https://www.aminer.cn/chat/g/explain

2023年9月20日精选新论文列表：

1. Language Modeling Is Compression

论文说明了语言建模是一种压缩技术，并且强调了大型语言模型在预测和压缩方面的潜力。论文还指出，将预测问题视为压缩问题可以提供关于规模定律、标记化和上下文学习的新见解。作者还展示了大型语言模型的压缩能力，例如Chinchilla 70B在训练主要基于文本的情况下，将ImageNet图像压缩到其原始大小的43.4%，将LibriSpeech音频样本压缩到其原始大小的16.4%，超过了领域特定的压缩器PNG（58.5%）或FLAC（30.3%）的效果。最后，作者还展示了预测和压缩等价的关系，可以利用任何压缩器（如gzip）构建条件生成模型。

论文链接：
https://www.aminer.cn/pub/650a566d3fda6d7f067ece3e/?f=cs

2. OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch

介绍了一个名为OpenBA的开源模型，它是一个具有150亿参数的双语非对称seq2seq模型。这个模型是为了为中国导向的开源模型社区贡献一个大型语言模型（LLMs）的变种。作者通过采用有效和高效的技术以及采用三阶段的训练策略，从头开始训练了OpenBA模型。他们的解决方案在只使用380亿标记的情况下也可以取得非常有竞争力的性能，比BELEBELE基准上的LLaMA-70B、MMLU基准上的BLOOM-176B和C-Eval (hard)基准上的GLM-130B都要好。报告还提供了训练类似模型的主要细节，包括预训练数据处理、双语Flan数据收集、启发模型架构设计的经验观察、不同阶段的训练目标以及其他增强技术等。

论文链接：
https://www.aminer.cn/pub/650a566d3fda6d7f067ece64/?f=cs

3. Multimodal Foundation Models: From Specialists to General-Purpose Assistants

这篇论文概述了多模态基础模型的分类学和演变，并重点讨论了从专业模型转向通用助手的过程。研究领域涵盖了五个核心主题，分为两类。(i)首先，我们对一些已经被广泛研究的领域进行了概述：专门用于特定目的的多模态基础模型，包括两个主题——学习用于视觉理解的视觉主干和文本到图像生成的方法。(ii)然后，我们介绍了最近在探索性、开放性研究领域取得的进展：旨在成为通用助手的多模态基础模型，包括三个主题——受大型语言模型启发的统一视觉模型、多模态语言模型的端到端训练以及与语言模型链式连接的多模态工具。论文的目标读者是计算机视觉和视觉-语言多模态社群的研究人员、研究生和专业人士，他们渴望了解多模态基础模型的基本知识和最新进展。

论文链接：
https://www.aminer.cn/pub/650a56593fda6d7f067ea000/?f=cs

4. Baichuan 2: Open Large-scale Language Models

文章说明了两个问题。首先，大规模语言模型通常是闭源的或者在其他语言上的能力有限。其次，作者提出了Baichuan 2，这是一系列大规模多语言语言模型，它具有70亿和130亿参数，并经过从头训练，在26万亿个令牌上进行了训练。Baichuan 2在MMLU、CMMLU、GSM8K和HumanEval等公开基准测试中与其他开源模型达到或超过了相似规模的模型性能。此外，Baichuan 2在医学和法律等垂直领域表现出色。作者将发布所有的预训练模型检查点，以便研究社区更好地理解Baichuan 2的训练动态。因此，这篇文章解决了闭源和语言能力有限的问题，并介绍了Baichuan 2的优势。

论文链接：
https://www.aminer.cn/pub/650a566d3fda6d7f067eccc7/?f=cs

5. SlimPajama-DC: Understanding Data Combinations for LLM Training

这篇论文旨在通过使用SlimPajama来训练大型语言模型，了解各种数据组合（例如网络文本、维基百科、GitHub、图书）对模型训练的影响。SlimPajama是一个经过严格去重和多源数据集合并的数据集，从Together贡献的广泛的1.2T令牌的RedPajama数据集中整理出了627B令牌。我们将我们的研究称为SlimPajama-DC，这是一个旨在揭示在大型语言模型训练中使用SlimPajama的基本特性和最佳实践的实证分析。在我们对SlimPajama的研究中，出现了两个重要的观察结果：（1）全局去重与局部去重。我们分析和讨论了全局去重（跨不同数据集来源）和局部去重（在单个数据集来源内部）对训练模型性能的影响。（2）高质量/高度去重多源数据集在组合中的比例。为了研究这一点，我们构建了六个SlimPajama数据集的配置，并使用1.3B Cerebras-GPT模型和Alibi以及SwiGLU进行了个别训练。我们最好的配置在与RedPajama使用相同数量的训练令牌的情况下，与其相比在性能上有显著提升。我们所有的1.3B模型都是在Cerebras 16×CS-2集群上以总共80 PFLOP/s的bf16混合精度进行训练的。我们进一步在具有大批量训练的7B模型上扩展了我们的发现（例如，在全局去重后增加数据多样性至关重要）。总之，这篇论文探讨了在训练大型语言模型时使用不同数据组合的影响，并提出了关于全局去重和局部去重以及高质量/高度去重多源数据集比例的观察结果和最佳实践。

论文链接：
https://www.aminer.cn/pub/650a566d3fda6d7f067eced6/?f=cs

6. Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

说明了一个问题，即如何通过Q-Transformer方法解决使用大规模离线数据集训练多任务策略的可扩展强化学习问题。该方法利用Transformer提供的可扩展Q函数表示，通过离线时间差分备份进行训练。通过将每个动作维度离散化并将每个动作维度的Q值表示为不同的标记，我们可以应用有效的高容量序列建模技术进行Q-learning。研究人员进行了几个设计决策，以实现离线强化学习训练的良好性能，并证明Q-Transformer在大规模多样化的真实世界机器人操作任务套件上优于先前的离线强化学习算法和模仿学习技术。

论文链接：
https://www.aminer.cn/pub/650a566d3fda6d7f067ecc23/?f=cs

7. FoleyGen: Visually-Guided Audio Generation

研究指出，视频到音频（V2A）生成是一个挑战，因为高维度的视觉和听觉数据之间存在复杂的关系，并且存在与时间同步相关的问题。为了解决这个问题，研究引入了FoleyGen，这是一个基于语言建模范式构建的开放领域V2A生成系统。FoleyGen利用现成的神经音频编解码器在波形和离散标记之间进行双向转换来生成音频标记。音频标记的生成是通过一个单一的Transformer模型实现的，该模型以从视觉编码器中提取的视觉特征为条件。V2A生成中一个普遍存在的问题是生成的音频与视频中可见的动作不一致。为了解决这个问题，研究探索了三种新颖的视觉注意机制。研究还对多个视觉编码器进行了详尽的评估，每个编码器都是在单模态或多模态任务上进行预训练的。在VGGSound数据集上的实验结果表明，我们提出的FoleyGen在所有客观指标和人类评估中胜过了先前的系统。

论文链接：
https://www.aminer.cn/pub/650a566d3fda6d7f067ecdb6/?f=cs

8. Stabilizing RLHF through Advantage Model and Selective Rehearsal

说明了大型语言模型（LLMs）在自然语言处理方面的革命性作用，但是通过RLHF将这些模型与人类价值观和偏好对齐仍然是一个重大挑战。这个挑战的特点是各种不稳定性，如奖励欺骗和灾难性遗忘。为了稳定RLHF训练，该技术报告提出了两种创新方法：1）优势模型，直接建模优势得分，即相对于预期奖励的额外奖励，并调节任务之间的得分分布以防止奖励欺骗；2）选择性重述，通过策略性地选择数据进行PPO训练和知识重述，从而减轻灾难性遗忘。我们在公开和专有数据集上进行的实验分析表明，所提出的方法不仅增加了RLHF训练的稳定性，而且实现了更高的奖励得分和胜率。

论文链接：
https://www.aminer.cn/pub/650a566d3fda6d7f067ecc5a/?f=cs

END

我们在AMiner网站首页添加了“每日精选新论文”专题，可以点击「订阅」和「加入知识库」，获取全部论文信息！

在这里插入图片描述
查看所有精选新论文：https://www.aminer.cn

实时追踪科研动态丨百川、谷歌DeepMind等机构9.20精选新论文

猜你喜欢