实时追踪科研动态丨MIT、北大、斯坦福等机构9.22精选新论文

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。

然而,传统的检索和阅读方式已经无法满足科研人的需求。

AMiner AI,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。
在这里插入图片描述
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:https://www.aminer.cn/chat/g/explain

2023年9月22日精选新论文列表:

1.LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

论文介绍了一个名为LongLoRA的方法,该方法能够有效地对大型语言模型进行fine-tuning,并在计算成本有限的情况下扩展模型的上下文大小。通常,对于具有长上下文大小的语言模型进行训练需要大量的计算资源和时间。例如,与2048的上下文长度相比,8192的上下文长度需要16倍的计算成本。本文提出了两个方法来加速语言模型的上下文扩展。一方面,在推理过程中需要使用全局注意力,但是使用稀疏的局部注意力进行fine-tuning可以实现高效的计算。通过引入所提出的shift short attention方法,可以有效地扩展上下文,并且与使用传统注意力进行fine-tuning相比,可以节省非常可观的计算资源,同时具有相似的性能表现。尤其值得一提的是,在模型的训练中,只需要加入两行代码即可实现该方法,而在推理过程中可以选择是否使用。另一方面,在上下文扩展的fine-tuning过程中,作者重新审视了参数有效的fine-tuning机制。值得注意的是,作者发现在可训练的embedding和normalization的前提下,上下文扩展的LoRA机制表现良好。LongLoRA在从7B/13B到70B的LLaMA2模型上展示了强大的实证结果。在由单个8x A100机器上对LLaMA2 7B模型的上下文从4k扩展到100k,或对LLaMA2 70B模型的上下文从32k扩展到70B的情况下,LongLoRA仍然能够维持模型的原始架构,并且与大多数现有技术(如FlashAttention-2)兼容。此外,为了使LongLoRA能够实际应用,作者收集了一个名为LongQA的数据集,用于有监督的fine-tuning,其中包含超过3k个长上下文的问题-答案对。

https://www.aminer.cn/pub/650cf92d3fda6d7f06d445d9/?f=cs

2.A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models

这篇文章指出了在机器翻译任务中,具有适中模型大小(例如7B或13B参数)的生成式大语言模型(LLM)在性能上仍然落后于传统的监督编码-解码翻译模型,之前的研究尝试改进这些适中LLM的翻译能力,但收益有限。为了解决这个问题,作者提出了一种新的LLM微调方法,专门为翻译任务设计,消除了传统翻译模型通常依赖的大量平行数据的需求。该方法包括两个微调阶段:在单语数据上的初始微调,然后在一小部分高质量平行数据上的后续微调。作者介绍了通过这一策略开发的LLM,命名为Advanced Language Model-based trAnslator(ALMA)。基于他们的底层模型LLaMA-2,实验结果表明,该模型在WMT’21(2个方向)和WMT’22(8个方向)的测试数据集上,相对于零射击性能,平均提升超过12个BLEU和12个COMET。该性能明显优于所有之前的工作,甚至优于具有7B或13B参数的NLLB-54B模型和GPT-3.5-text-davinci-003。这种方法为机器翻译中的一种新的训练范 paradigm 奠定了基础。

https://www.aminer.cn/pub/650cf9223fda6d7f06d42a80/?f=cs

3.LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset

这篇文章介绍了一个名为LMSYS-Chat-1M的大规模数据集,该数据集包含了100万个与25个最先进的大语言模型(LLM)进行的真实对话。该数据集是从我们的Vicuna演示和Chatbot Arena网站中收集来自21万个独特IP地址的野外数据。文章提供了数据集内容的概述,包括其策划过程、基本统计数据和主题分布,强调了其多样性、原创性和规模。通过四个使用案例展示了数据集的多用途性:开发与GPT-4类似性能的内容审查模型,构建安全性基准,训练与Vicuna类似性能的指令跟随模型,以及创建具有挑战性的基准问题。作者相信这个数据集将成为了解和推进LLM能力的宝贵资源。

https://www.aminer.cn/pub/650cf92d3fda6d7f06d4447f/?f=cs

4.RMT: Retentive Networks Meet Vision Transformers

该文章主要提出了一个问题,即将RetNet的思想迁移到视觉领域是否能够在视觉任务中表现出优异的性能。作者通过将RetNet和Transformer结合起来提出了RMT,并在各种计算机视觉任务中展示了其杰出的性能表现。此外,作者还指出RMT在与现有的视觉骨干网络相比,在目标检测、实例分割和语义分割等下游任务中显著优于其他视觉骨干网络。

https://www.aminer.cn/pub/650cf9223fda6d7f06d429e6/?f=cs

5.LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent

本文通过介绍LLM-Grounder方法来解决3D视觉定位的问题。具体来说,作者指出既有方法往往依赖于大量的标注数据,或者在处理复杂语言查询时存在一定限制。而LLM-Grounder方法通过利用大规模语言模型(LLM)将复杂的自然语言查询拆解为语义部分,并使用OpenScene或LERF等视觉定位工具来识别3D场景中的对象。LLM然后评估所提出对象之间的空间和常识关系,以做出最终的定位决策。该方法不需要任何标注训练数据,并且可以推广到新的3D场景和任意文本查询。作者在ScanRefer基准上评估了LLM-Grounder方法,并展示了最先进的零样本定位精度。研究结果表明,LLM显著改进了定位能力,特别是对于复杂语言查询,使得LLM-Grounder成为机器人3D视觉语言任务的一种有效方法。

https://www.aminer.cn/pub/650cf92d3fda6d7f06d445de/?f=cs

6.MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models

文章说明了现有的开源大型语言模型在解决数学问题方面仍然存在差距,因为数学推理过程复杂。为了解决这个问题,提出了一种名为MetaMath的经过优化的语言模型,专门用于数学推理。首先通过从多个角度重新编写问题来引导数学问题,并生成了一个名为MetaMathQA的新数据集。然后使用MetaMathQA对LLaMA-2模型进行微调。实验结果表明,MetaMath在数学推理的两个常用基准测试上表现优于一套开源LLM模型。其中,MetaMath-7B在GSM8K和MATH上分别达到66.4%和19.4%的准确率,分别比同等规模的最先进模型高出11.5%和8.7%。特别地,MetaMath-70B在GSM8K上的准确率达到82.3%,略优于GPT-3.5-Turbo。作者还公开发布了MetaMathQA数据集、不同模型大小的MetaMath模型以及训练代码供公众使用。

https://www.aminer.cn/pub/650cf92d3fda6d7f06d445be/?f=cs

7.BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model

这篇文章说明了以下问题:1. 引入了一种新的语言模型BTLM-3B-8K,它是一个具有30亿参数的开源语言模型。2. BTLM-3B-8K经过在SlimPajama数据集上使用2,048和8,192上下文长度的混合进行训练,其中包含了627B的标记。3. BTLM-3B-8K在下游任务中比所有现有的30亿参数模型的性能提高了2-5.5%。它甚至与一些70亿参数模型具有相竞争的实力。4. BTLM-3B-8K在长上下文任务上表现出色,超过了MPT-7B-8K和XGen-7B-8K在最多8,192上下文长度的任务上的表现。5. 作者在训练模型时使用了经过清洁和去重的SlimPajama数据集,调整了超参数和调度,并采用了ALiBi位置嵌入和SwiGLU非线性激活函数。6. 在Hugging Face上,最受欢迎的模型具有70亿的参数,这表明用户更喜欢70亿模型的质量和规模比例。7. 将70亿参数模型压缩为30亿参数模型,并几乎没有性能损失,是一个重要的里程碑。8. BTLM-3B-8K只需要3GB的内存和4位精度,并且比70亿模型计算推断时使用的计算资源少2.5倍,可以帮助在移动和边缘设备上使用强大的语言模型。9. BTLM-3B-8K在Hugging Face上以Apache 2.0许可证提供。

https://www.aminer.cn/pub/650cf9223fda6d7f06d42a14/?f=cs

8.Boolformer: Symbolic Regression of Logic Functions with Transformers

这篇论文介绍了Boolformer这一Transformer架构,它是第一个经过训练用于执行布尔函数的符号回归的Transformer架构。首先,论文展示了当提供一个干净的真值表时,Boolformer能够预测复杂函数的简洁公式,即使这些函数在训练中没有出现过。然后,论文展示了当提供不完整和嘈杂的观测数据时,Boolformer找到近似表达式的能力。论文在广泛的真实世界二分类数据集上评估了Boolformer,展示了它作为传统机器学习方法的一个可解释的替代方案的潜力。最后,论文将Boolformer应用于基因调控网络动力学建模的常见任务。通过使用最新的基准测试,论文展示了Boolformer与最先进的遗传算法相竞争,并且速度提高了几个数量级。论文的代码和模型可以公开获取。

https://www.aminer.cn/pub/650cf92d3fda6d7f06d44568/?f=cs


END

我们在AMiner网站首页添加了“每日精选新论文”专题,可以点击「订阅」和「加入知识库」,获取全部论文信息!

在这里插入图片描述
查看所有精选新论文:https://www.aminer.cn

猜你喜欢

转载自blog.csdn.net/AI_Conf/article/details/133268600