实时追踪科研动态丨朱松纯、俞勇、Juergen Gall等人8.23精选新论文，附ChatPaper综述

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。

然而，传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

在这里插入图片描述

结合前沿动态订阅功能，精选arXiv当日热门新论文，形成论文综述，让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达ChatPaper页面：https://www.aminer.cn/chat/g/explain

2023年8月23日精选新论文列表：

1. UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding 阅读原文

这篇论文介绍了一种名为 UniDoc 的通用大型多模态模型，可以在同时进行文本检测、识别、定位和理解。在大型语言模型（LLMs）时代，多模态理解的领域已经取得了巨大的进步。然而，现有的先进算法在有效利用大型预训练模型所具有的巨大表征能力和丰富世界知识方面存在局限性，并且在文本丰富的场景中任务之间的有益联系尚未得到充分探索。UniDoc 是一种新型的多模态模型，配备了文本检测和识别功能，这是现有方法所缺乏的。此外，UniDoc 利用任务之间的有益互动来提高每个任务的性能。为了实现 UniDoc，我们在大型指令跟随数据集上进行统一的多模态指令调整。定量和定性实验结果表明，UniDoc 在多个具有挑战性的基准测试中均取得了最先进的成绩。据我们所知，这是第一个能够同时进行文本检测、识别、定位和理解的大型多模态模型。

https://www.aminer.cn/pub/64e5849c3fda6d7f063af4d2/

2. A Survey on Large Language Model based Autonomous Agents 阅读原文

这篇论文是关于基于大型语言模型的自主智能体的研究概述。之前的研究往往集中在有限知识下在孤立环境中训练智能体，这与人类的学习过程相去甚远，因此使得智能体难以实现类人的决策。近年来，通过获取大量的网络知识，大型语言模型 (LLMs) 在实现人类水平智能方面表现出了巨大的潜力。这引发了基于 LLM 的自主智能体研究的激增。为了充分利用 LLM 的潜力，研究人员为不同应用设计了各种智能体架构。在这篇论文中，我们从整体上对这些研究进行了系统回顾，具体来说，我们的重点在于构建基于 LLM 的智能体，为此我们提出了一个统一的框架，涵盖了大部分以前的工作。此外，我们还提供了 LLM 为基础的人工智能智能体在社会科学、自然科学和工程领域各种应用的概述。最后，我们讨论了用于评估 LLM 为基础的人工智能智能体的常用策略。根据以前的研究，我们还提出了这个领域的几个挑战和未来方向。

https://www.aminer.cn/pub/64e5849c3fda6d7f063af42e/

3. ProAgent: Building Proactive Cooperative AI with Large Language Models 阅读原文

这篇论文介绍了一种名为 ProAgent 的新框架，它利用大型语言模型来帮助智能体在与人类或其他智能体的合作中更具前瞻性和主动性。传统的合作智能体方法主要依赖于学习方法，策略泛化严重依赖于与特定队友的过去交互，这限制了智能体在面对新队友时的策略重新调整能力。ProAgent 则可以预见队友的未来决策，并为自己制定增强的计划，表现出卓越的合作推理能力，能够动态适应以提高与队友的合作效果。此外，ProAgent 框架具有高度的模块化和可解释性，可以无缝集成到各种协调场景中。实验结果显示，ProAgent 在 Overcook-AI 框架中的表现优于五种基于自我游戏和基于人口训练的方法，在与人类代理模型的合作中，其性能平均提高了超过 10%，超过了目前的最先进方法 COLE。这一进步在涉及与具有不同特性的 AI 代理和人类对手的互动的多样化场景中是一致的。这些发现激发了未来人类与机器人合作的研究。

https://www.aminer.cn/pub/64e5849c3fda6d7f063af3cd/

4. Refashioning Emotion Recognition Modelling: The Advent of Generalised Large Models 阅读原文

这篇论文的摘要是关于情感识别建模的变革：通用大型模型的出现。情感识别或情感计算自诞生以来，由于其广泛的应用，逐渐成为了一个活跃的研究主题。在过去的几十年里，情感识别模型逐渐从统计浅层模型迁移到基于神经网络的深度模型，这可以显著提高情感识别模型的性能，并在不同的基准测试中持续取得最佳结果。因此，近年来，深度模型一直被认为是情感识别的首选。然而，大型语言模型（LLMs）如 ChatGPT 的出现，由于其在零/少量学习的能力、上下文学习、思维链等方面表现出的前所未有的能力，令人惊叹。在本文中，我们全面调查了 LLM 在情感识别方面的表现，包括上下文学习、少量学习、准确性、泛化和解释等方面的多样性。此外，我们还提供了一些见解，提出了其他潜在的挑战，希望能激发关于在新时代增强情感识别的更广泛的讨论。

https://www.aminer.cn/pub/64e5849c3fda6d7f063af4c4/

5. Furnishing Sound Event Detection with Language Model Abilities 阅读原文

这篇论文探讨了语言模型（LMs）在视觉跨模态中的能力，并将其应用于声音事件检测（SED）。作者提出了一种优雅的方法，将音频特征和文本特征对齐以完成声音事件分类和时间定位。该框架包括一个声学编码器，一个对比模块用于对齐文本和音频的对应表示，以及一个解耦的语言解码器，直接利用其语义能力从音频特征中生成时序和事件序列。与需要复杂处理且仅利用有限音频特征的传统方法相比，该模型更加简洁和全面。作者研究了不同的解耦模块，以证明其对时间戳捕捉和事件分类的有效性。评估结果显示，所提出的方法在声音事件检测的序列生成上取得了准确的结果。

https://www.aminer.cn/pub/64e5849c3fda6d7f063af492/

6. LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large Language Models 阅读原文

这篇论文介绍了一个名为"LegalBench"的法律推理基准测试，它是由多个领域的专家共同构建的，旨在研究大型语言模型（LLMs）在法律领域的推理能力。LegalBench 包含 162 个任务，覆盖了六种不同的法律推理类型。这些任务是由法律专业人士设计的，因此它们要么衡量实践中有用的法律推理能力，要么衡量律师们感兴趣的推理技能。为了促进关于 LLM 在法律领域的跨学科讨论，论文还展示了如何将流行的法律框架与 LegalBench 任务相对应，从而为律师和 LLM 开发人员提供一个共同的词汇表。论文还介绍了对 20 个开源和商业 LLM 的实证评估，并展示了 LegalBench 所能促进的研究探索类型。

https://www.aminer.cn/pub/64e5849c3fda6d7f063af44d/

7. A Survey on Self-Supervised Representation Learning 阅读原文

这篇论文是一篇关于自监督表示学习的调查。在现代机器学习领域，学习有意义的表示处于许多任务的核心。近年来，已经引入了许多方法，这些方法允许在没有监督的情况下学习图像表示。这些表示可以用于下游任务，如分类或对象检测。这些表示的质量接近于监督学习，而无需标记图像。本调查论文采用统一的表示法，对这些方法进行了全面回顾，指出了这些方法的相似性和差异性，并提出了一种将它们相互联系的分类方法。此外，我们的调查以元研究的形式总结了文献中报告的最新实验结果。本调查旨在为希望深入表示学习领域的研究人员和实践者提供一个起点。

https://www.aminer.cn/pub/64e5849c3fda6d7f063af446/

8. How Much Temporal Long-Term Context is Needed for Action Segmentation? 阅读原文

这篇论文探讨了一个关于视频动作分割中时序长上下文需要的问题。尽管 Transformer 可以建模视频的长时序上下文，但这在长视频中会变得计算上不可行。最近的时序动作分割方法因此将时空卷积网络与局部时序窗口的自注意力相结合。尽管这些方法取得了良好的结果，但它们的性能受到无法捕捉视频全上下文的限制。在这项工作中，作者通过引入一种基于 Transformer 的模型，利用稀疏注意力捕捉视频的全上下文，试图回答时序动作分割需要多少长时序上下文。作者将该模型与当前时序动作分割的三个数据集（50Salads、Breakfast 和 Assembly101）上的最先进方法进行了比较。实验结果表明，为了获得最佳时序动作分割性能，建模视频的全上下文是必要的。

https://www.aminer.cn/pub/64e5849c3fda6d7f063af3e0/

9. Federated Learning in Big Model Era: Domain-Specific Multimodal Large Models 阅读原文

这篇论文主要讨论了大模型时代下联邦学习的发展，提出了一种特定于领域的多模态大型模型的联邦学习框架。这种框架允许多个企业利用私有领域数据共同训练垂直领域的大型模型，从而实现智能服务。作者深入讨论了联邦学习在大模型时代在智能基础和目标方面的战略转变，以及面临的新挑战，包括异构数据、模型聚合、性能与成本权衡、数据隐私和激励机制等。论文还通过一个案例研究，描述了领先企业如何通过多模态数据和专家知识，为城市安全运营管理提供分布式部署和有效的协调，以及基于大型模型能力的数据质量改进和技术创新。初步实验结果表明，企业可以通过多模态模型联邦学习来增强和积累智能能力，共同创建一个智能城市模型，提供高质量的智能服务，覆盖能源基础设施安全、居民社区安全和城市运营管理。建立的联邦学习合作生态系统有望进一步整合产业、学术和研究资源，实现多个垂直领域的大型模型，并推动人工智能和多模态联邦学习的大规模工业应用和前沿研究。

https://www.aminer.cn/pub/64e5846c3fda6d7f063ac938/

10. ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World Data 阅读原文

这篇论文主要研究了视觉语言模型（VLMs）在处理具有高配对复杂性的现实世界多模态数据（如医疗数据）时的表现。与以往的 VLMs 主要在网络图像-- 字幕对数据集上进行训练不同，这类现实世界数据中，每个图像（例如 X 光片）通常会与描述图像细粒度区域中多个不同属性的文本（例如医生报告）配对，形成了高配对复杂性的数据。然而，VLMs 在这种数据集上训练时，是否能够捕捉到图像区域和文本属性之间的细粒度关系，尚未得到评估。该论文的两个主要贡献是：首先，通过系统评估，证实了随着训练数据集中配对复杂性的增加，标准 VLMs 在学习区域-- 属性关系方面的表现会下降；其次，作者提出了 ViLLA 方法，以解决这个问题。ViLLA 通过两个组件来捕捉复杂数据集中的细粒度区域-- 属性关系：（a）一个轻量级的自监督映射模型，将图像-- 文本样本分解为区域-- 属性对，（b）一个对比性 VLM，从生成的区域-- 属性对中学习表示。作者在四个领域（合成、产品、医疗和自然图像）的实验中证明，ViLLA 在细粒度推理任务（如零样本目标检测和检索）中的表现优于可比较的 VLMs。

https://www.aminer.cn/pub/64e5846c3fda6d7f063ac920/

11. ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation 阅读原文

这篇论文主要研究如何利用大型语言模型（LLM）进行终身序列行为理解，以提高推荐系统的性能。作者首先明确并定义了 LLM 在推荐领域中的终身序列行为理解问题，即 LLM 无法从用户行为序列的长文本环境中提取有用信息，尽管这些环境的长度远远没有达到 LLM 的上下文限制。为了解决这个问题并提高 LLM 在推荐任务中的表现，作者提出了一种名为 ReLLa 的新框架，该框架可以在零散和少数设置下进行推荐任务。在零散推荐中，作者执行语义用户行为检索（SUBR）以提高测试样本的数据质量，这大大降低了 LLM 从用户行为序列中提取必要知识的难度。在少数推荐中，作者进一步设计了检索增强指令调整（ReiT），通过将 SUBR 作为训练样本的数据增强技术。具体来说，作者开发了一个混合训练数据集，包括原始数据样本及其检索增强版本。作者在一个真实世界的公共数据集（即 MovieLens-1M）上进行了大量实验，以证明 ReLLa 相对于现有基线模型的优越性，以及其对终身序列行为理解的能力。

https://www.aminer.cn/pub/64e5846c3fda6d7f063ac8e0/

12. Self-Deception: Reverse Penetrating the Semantic Firewall of Large Language Models 阅读原文

该论文主要研究了大型语言模型（LLMs）的语义防火墙问题，提出了一种名为“自我欺骗”的攻击方法，可以绕过 LLM 的语义防火墙。作者提出了一种自动“越狱”方法，通过诱导 LLM 生成可以绕过防火墙的提示，从而达到绕过语义防火墙的目的。作者在六个语言中进行了实验，并针对三种最常见的违规类型：暴力、仇恨和色情，进行了攻击。实验结果显示，该攻击方法的有效性很高。作者认为，通过精心设计的提示来操纵 AI 行为将成为未来重要的研究方向。

https://www.aminer.cn/pub/64e5849c3fda6d7f063af489/

实时追踪科研动态丨朱松纯、俞勇、Juergen Gall等人8.23精选新论文，附ChatPaper综述

猜你喜欢