实时追踪科研动态丨周靖人、孙茂松、Gabriel Synnaeve等人8.25精选新论文，附ChatPaper综述

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已经无法满足科研人的需求。
ChatPaper，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。
图片

结合前沿动态订阅功能，精选arXiv当日热门新论文，形成论文综述，让大家更加快速了解前沿动态。
如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达ChatPaper页面：https://www.aminer.cn/chat/g/explain

2023年8月25日精选新论文列表：

1.Code Llama: Open Foundation Models for Code 阅读原文

Code Llama是一个针对代码的大型语言模型系列，基于Llama 2开发，具有开放式模型中领先的性能、填充能力、对大型输入上下文的支持以及用于编程任务的零指令跟随能力。它提供多种不同版本用于覆盖广泛的应用领域，包括基础模型(Code Llama)、Python专用版本(Code Llama-Python)以及指令跟随模型(Code Llama-Instruct)，每个模型的参数分别为7B、13B和34B。所有模型都是基于16k标记序列进行训练，并在最多100k标记输入上显示出改进。7B和13B的Code Llama以及Code Llama-Instruct版本支持基于周围内容的填充。Code Llama在多个代码基准测试中达到了开放模型中的最新性能，其中HumanEval得分高达53%，MBPP得分高达55%。值得注意的是，Code Llama-Python 7B在HumanEval和MBPP上的表现超过了Llama 2 70B，并且我们的所有模型都优于其他公开可用模型的MultiPL-E基准测试。Code Llama是以宽松许可证发布的，允许研究和商业使用。

https://www.aminer.cn/pub/64e82e45d1d14e646633f5aa/

2.Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities 阅读原文

作者介绍了Qwen-VL系列模型，包括Qwen-VL和Qwen-VL-Chat，这些模型在图像描述、问题回答、视觉定位和灵活的交互等任务中展现出卓越的性能。评估涵盖了零样本图像描述、图像或文档的视觉问答以及图像定位等广泛的任务。作者展示了Qwen-VL相对于现有的大型视觉语言模型有着更好的性能。文章还介绍了这些模型的架构、训练方法、能力和性能，并强调了它们在推动多模态人工智能方面的贡献。

https://www.aminer.cn/pub/64e826d63fda6d7f06c3150c/

3.Large Language Model as Autonomous Decision Maker 阅读原文

论文指出了目前大型语言模型（LLMs）作为自主决策者的决策能力仍然严重依赖于特定任务专家知识的指导。为了发挥LLMs作为自主决策者的潜力，本文提出了一种名为JuDec的方法，赋予LLMs自我判断的能力，使其能够实现自主判断和探索进行决策。具体而言，在JuDec中，设计了基于Elo评分的自我判断机制，通过对两个解决方案进行两两比较，为决策步骤分配Elo分数来判断它们的价值和效用，然后相应地指导决策搜索过程朝向最优解。在ToolBench数据集上的实验结果表明，JuDec相对于基准模型具有优越性，在不同任务中通过率提高了10%以上。它提供了更高质量的解决方案并减少了成本（ChatGPT API调用），突出了其效果和效率。

https://www.aminer.cn/pub/64e826d03fda6d7f06c2e109/

4.VIGC: Visual Instruction Generation and Correction 阅读原文

指出了视觉-语言任务中缺乏高质量指令调整数据的问题。现有的方法依赖于仅使用语言生成数据的模型，但由于缺乏图像细节的理解，这种方法需要预先注释的图像标题和检测边界框。为了解决这个问题，该论文提出了Visual Instruction Generation and Correction (VIGC)框架，利用多模态大语言模型（MLLMs）生成指令调整数据，并在生成过程中逐步提升数据质量。具体而言，Visual Instruction Generation (VIG)用于指导视觉-语言模型生成多样化的指令调整数据，而Visual Instruction Correction (VIC)采用迭代更新机制来纠正VIG生成的数据中的不准确之处，从而降低虚假信息的风险。通过利用VIGC生成的多样化、高质量数据，可以对主流模型进行微调，并通过各种评估验证数据质量。实验结果表明，VIGC不仅弥补了仅使用语言生成数据的方法的缺点，还有效提升了基准性能。

https://www.aminer.cn/pub/64e826d63fda6d7f06c31394/

5.Language as Reality: A Co-Creative Storytelling Game Experience in 1001 Nights using Generative AI 阅读原文

论文介绍了一个名为"1001 夜”的AI本地化游戏，该游戏通过玩家与由大型语言模型驱动的角色进行共同创作的叙事，在游戏现实中来实现。这个游戏概念受到维特根斯坦关于一个人的世界受其语言边界限制的想法的启发。通过使用GPT-4和Stable Diffusion等先进的AI工具，游戏的第二个版本使得主角Shahrzad能够在她的世界中实现文字和故事。玩家可以通过与AI国王对话来引导对其中特定关键词的探讨，这些关键词在游戏中会成为战斗装备。这种互动叙事和文本到图像转化的结合通过双重视角挑战了游戏世界和现实之间的传统边界。论文主要关注于Shahrzad，他试图改变与原始民间故事相比的命运，以及玩家与AI合作创造叙事和塑造游戏世界的角色。论文探讨了实施这样一个游戏的技术和设计要素，目的是通过AI生成内容提升叙事游戏类型，并探索AI本地化游戏的可能性。

https://www.aminer.cn/pub/64e826d63fda6d7f06c314d5/

6.DLIP: Distilling Language-Image Pre-training 阅读原文

ChatPaper综述：论文指出了Vision-Language Pre-training (VLP)在参数重量方面取得了显著的进展，但这给实际应用中的部署带来了挑战。该论文指出现有的知识蒸馏技术缺乏对VLP进行深入研究和分析，并且对面向VLP的蒸馏缺乏实用的指导方针。因此，该论文提出了一种简单而高效的Distilling Language-Image Pre-training (DLIP)框架，通过该框架对如何蒸馏轻量级的VLP模型进行了探究。论文从多个维度进行了模型蒸馏的剖析，如不同模块的架构特性和不同模态的信息传递等。通过全面的实验，该论文提供了在不同交叉模态任务（如图像-文本检索、图像字幕和视觉问答）上实现准确性/效率平衡的见解。例如，DLIP将BLIP的参数压缩了1.9倍，从213M压缩到108M，同时实现了相当或更好的性能。此外，与教师模型相比，DLIP在参数和FLOPs方面保留了超过95%的性能，并加速了推理速度2.7倍。

https://www.aminer.cn/pub/64e826d63fda6d7f06c31502/

实时追踪科研动态丨周靖人、孙茂松、Gabriel Synnaeve等人8.25精选新论文，附ChatPaper综述

猜你喜欢