大模型周报丨语言模型与压缩、多模态文学模型、Baichuan 2

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。

LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

本周精选了10篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、作者、AMiner AI综述等信息,如果感兴趣可点击链接查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

1. Kosmos-2.5: A Multimodal Literate Model

这篇论文介绍了 Kosmos-2.5,一种用于处理文本密集图像的多模态识字模型。Kosmos-2.5 在大规模文本密集图像上进行预训练,擅长处理两个不同但又相互协作的转录任务:(1)生成空间感知文本块,其中每个文本块都分配了图像中的空间坐标;(2)产生结构化文本输出,将样式和结构捕捉到标记格式中。通过共享 Transformer 架构、任务特定提示和灵活的文本表示,实现了这一统一的多模态识字能力。Kosmos-2.5 在端到端的文档级文本识别和图像到标记文本生成上进行了评估。此外,通过有监督的微调,该模型可以轻松适应任何文本密集图像理解任务,通过不同的提示使其成为一种通用的工具,用于涉及文本丰富的真实世界应用。这项工作还为多模态大型语言模型的未来发展铺平了道路。

链接:https://www.aminer.cn/pub/650ba7c03fda6d7f06e6139a/?f=cs

2. Baichuan 2: Open Large-scale Language Models

这篇论文介绍了 Baichuan 2,一系列大规模的多语言语言模型,参数分别为 70 亿和 130 亿,通过从头训练 2.6 万亿个标记进行训练。Baichuan 2 在诸如 MMLU、CMMLU、GSM8K 和 HumanEval 等公开基准测试中,与类似规模的其它开源模型相比,表现匹配或更优。此外,Baichuan 2 在医学和法律等垂直领域表现优异。为了更好地理解 Baichuan 2 的训练动态,我们将发布所有预训练模型检查点,以造福研究社区。

链接:https://www.aminer.cn/pub/650a566d3fda6d7f067eccc7/?f=cs

3. Language Modeling Is Compression

这篇论文探讨了语言模型与压缩之间的关系。论文指出,预测模型可以被转化为无损压缩器,反之亦然。近年来,机器学习领域专注于训练越来越大的自监督(语言)模型。由于这些大型语言模型具有出色的预测能力,因此它们非常适合作为强大的压缩器。论文主张从压缩的角度看待预测问题,并评估大型(基础)模型的压缩能力。结果表明,大型语言模型是强大的通用预测器,压缩观点为我们提供了关于缩放定律、标记化和上下文学习的独特见解。例如,尽管 Chinchilla 70B 主要在文本上进行训练,但它将 ImageNet 补丁压缩到原大小的 43.4%,将 LibriSpeech 样本压缩到原大小的 16.4%,分别击败了领域特定的压缩器如 PNG(58.5%)或 FLAC(30.3%)。最后,论文表明,预测-- 压缩等价性允许我们使用任何压缩器(如 gzip)来构建条件生成模型。

链接:https://www.aminer.cn/pub/650a566d3fda6d7f067ece3e/?f=cs

4. LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

这篇论文介绍了一种名为 LongLoRA 的高效微调方法,它可以扩展预训练大型语言模型(LLM)的上下文大小,而计算成本有限。通常,训练具有长上下文长度的 LLM 需要大量的时间和 GPU 资源。例如,当上下文长度为 8192 时,自注意力层中的计算成本是 2048 的 16 倍。在本文中,我们从两个方面加速了 LLM 上下文扩展的速度。一方面,尽管在推理过程中需要密集的全球注意力,但通过稀疏局部注意力进行模型微调是有效且高效的。所提出的 shift 短注意力有效地实现了上下文扩展,在性能与使用常规注意力的微调相似的同时,节省了大量计算成本。特别是,它可以在训练中仅用两行代码实现,而在推理中是可选的。另一方面,我们重新审视了参数高效微调范式用于上下文扩展。值得注意的是,我们发现当且仅当嵌入和归一化可训练时,LoRA 用于上下文扩展效果很好。LongLoRA 在各种任务上展示了 LLaMA2 模型从 7B/13B 到 70B 的强大实证结果。LongLoRA 将 LLaMA2 7B 从 4k 上下文扩展到 100k,或在单个 8x A100 机上 LLaMA2 70B 从 32k 上下文扩展。LongLoRA 在保留模型原始架构的同时扩展模型上下文,并与大多数现有技术(如 FlashAttention-2)兼容。为了使 LongLoRA 更具实用性,我们收集了一个用于监督微调的数据集,名为 LongQA,其中包含 3000 多个长上下文问题-- 答案对。

链接:https://www.aminer.cn/pub/650cf92d3fda6d7f06d445d9/?f=cs

5. LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset

这篇论文介绍了一个名为 LMSYS-Chat-1M 的大规模真实世界语言模型(LLM)对话数据集。由于 LLM 在各种应用中的广泛使用,研究人们如何在与 LLM 交互的真实场景中与其互动变得越来越重要。在本文中,作者介绍了 LMSYS-Chat-1M 数据集,该数据集包含与 25 个最先进的 LLM 的 100 万个真实对话。该数据集从我们在野外的 210K 个唯一 IP 地址收集,并在我们的 Vicuna 演示和聊天机器人竞技场网站上。我们提供了数据集内容的概述,包括其策展过程、基本统计数据和主题分布,突出了其多样性、原创性和规模。我们通过四个用例展示了其多功能性:开发与 GPT-4 表现相似的内容审核模型,构建安全基准,训练与 Vicuna 表现相似的指令跟随模型,以及创建具有挑战性的基准问题。我们相信,这个数据集将有助于了解和提高 LLM 的能力。

链接:https://www.aminer.cn/pub/650cf92d3fda6d7f06d4447f/?f=cs

6. CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages

这篇论文介绍了 CulturaX,一个用于训练大型语言模型(LLMs)的干净、巨大且多语种的语料库,包含 167 种语言的 6.3 万亿个标记。大型语言模型的学习能力强,主要源于其庞大的模型规模和广泛的训练数据集。然而,对于这些 LLMs 的训练数据集,特别是最近最先进的模型,通常并未完全公开。为了创建高性能 LLMs 的训练数据,需要进行大量的清洗和去重,以确保所需的质量水平。训练数据的透明度不足,从而阻碍了研究者在 LLMs 中归因和解决幻觉和偏见问题,阻碍了复制努力和社区进一步的发展。在多语种学习场景中,这些挑战变得更加突出,因为可用的多语种文本数据集通常收集和清洗不足。因此,缺乏可用于有效训练多种语言的 LLMs 的开源和易于使用的数据集。为了解决这个问题,作者们提出了 CulturaX,一个为 LLM 开发定制的多语种数据集,包含 167 种语言的 6.3 万亿个标记。该数据集通过多个阶段的严格处理进行仔细的清洗和去重,以达到模型训练的最佳质量,包括语言识别、基于 URL 的过滤、基于指标的清洗、文档精炼和数据去重。CulturaX 已在 HuggingFace 上向公众完全发布,以促进多语种 LLMs 的研究和发展。

链接:https://www.aminer.cn/pub/650904db3fda6d7f06cd49f3/?f=cs

7. DreamLLM: Synergistic Multimodal Comprehension and Creation

这篇论文介绍了 DreamLLM 学习框架,该框架首次实现了具有经常被忽视的多模态理解和创造之间协同作用的多模态大型语言模型 (MLLMs)。DreamLLM 基于两个基本原则运行。第一个原则是通过直接在原始多模态空间中采样语言和图像后验分布,对语言和图像进行生成建模。这种方法绕过了像 CLIP 这样的外部特征提取器的局限性和信息损失,获得了更全面的多模态理解。第二个原则是 DreamLLM 促进生成原始、交织的文档,同时建模文本和图像内容以及非结构化布局。这使得 DreamLLM 能够有效地学习所有条件、边际和联合多模态分布,成为第一个能够生成自由形式交织内容的 MLLM。综合实验突显了 DreamLLM 作为零射击多模态专家的优越性能,得益于增强的学习协同作用。

链接:https://www.aminer.cn/pub/650ba7c03fda6d7f06e613ee/?f=cs

8. Multimodal Foundation Models: From Specialists to General-Purpose Assistants

论文全面调查了展示视觉和视觉语言能力的多模态基础模型,重点关注从专业模型到通用助手模型的转变。研究范围涵盖五个核心主题,分为两类。(i)首先,我们对已经确立的研究领域进行了调查:为特定目的预训练的多模态基础模型,包括两个主题–视觉理解和学习大型语言模型(LLM)的统一视觉模型。(ii)然后,我们介绍了最近在探索性、开放研究领域的进展:旨在扮演通用助手角色的多模态基础模型,包括三个主题–受大型语言模型(LLM)启发的统一视觉模型,多模态 LLM 的端到端训练,以及将多模态工具与 LLM 相连接。论文的目标受众是计算机视觉和视觉-- 语言多模态社区的研究人员、研究生和专业人士,他们渴望了解多模态基础模型的基本知识和最新进展。

链接:https://www.aminer.cn/pub/650a56593fda6d7f067ea000/?f=cs

9. Contrastive Decoding Improves Reasoning in Large Language Models

这篇论文研究了一种名为对比解码(Contrastive Decoding)的文本生成方法,该方法简单、计算负担轻,且无需训练。论文作者发现,在各种推理任务中,对比解码方法相较于贪婪解码方法能带来较大的提升。对比解码最初被提出用于提高长篇文本生成的质量,其搜索目标是最大化强弱模型之间加权概率差异的文本串。研究结果显示,对比解码使得 LLaMA-65B 大大超越了 LLaMA 2、GPT-3.5 和 PaLM 2-L 在 HellaSwag 常识推理基准上的表现,同时在 GSM8K 数学词汇推理基准上超过了 LLaMA 2、GPT-3.5 和 PaLM-540B,以及其他任务上的改进。分析表明,对比解码通过防止某些抽象推理错误,以及避免在链式思维过程中简单地复制输入段的模式,超越了现有的方法。总的来说,对比解码在长篇生成和推理任务上都优于内核采样和贪婪解码,因此成为生成文本的一种强大的通用方法。

链接:https://www.aminer.cn/pub/650904db3fda6d7f06cd48d1/?f=cs

10. An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models

这篇论文研究了扩大指令调整的大型多模态模型的实证研究。最近,开源大型多模态模型(LMM)如 LLaVA 和 MiniGPT-4 的视觉指令调整取得了令人鼓舞的进展。然而,现有关于开源 LMM 的大多数研究都是使用 13B 参数或更小的模型进行的。在本文中,作者对将 LLaVA 扩大到 33B 和 65B/70B 进行了实证研究,并分享了他们在图像分辨率、数据混合以及参数高效训练方法(如 LoRA/QLoRA)方面的探索结果。这些方法在完成野外的实际任务时的多模态和语言能力进行了评估。

研究发现,扩大 LMM 模型一致地提高了模型性能和语言能力,而 LoRA/QLoRA 调整 LMM 的性能与全模型微调的性能相当。此外,该研究强调了提高图像分辨率和混合多模态-- 语言数据以改善 LMM 性能的重要性,而视觉指令调整有时可以提高 LMM 的纯语言能力。作者希望这项研究能够使更大规模的先进 LMM 研究更易于接近,从而为未来的研究建立更强大的基准。代码和检查点将公开发布。

链接:https://www.aminer.cn/pub/650905523fda6d7f06cd71ac/?f=cs


如何使用ChatPaper?

使用ChatPaper的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入ChatPaper页面。

在这里插入图片描述

ChatPaper使用教程:点此查看

猜你喜欢

转载自blog.csdn.net/AI_Conf/article/details/133299306