实时追踪科研动态丨7.21精选新论文，附ChatPaper综述

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。
在这里插入图片描述

结合前沿动态订阅功能，精选arXiv当日热门新论文，形成论文综述，让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达ChatPaper页面：https://www.aminer.cn/chat/g/

2023年7月21日精选新论文列表：

1.A Survey on Dialogue Management in Human-Robot Interaction 论文详情页

链接：https://www.aminer.cn/pub/64ba03413fda6d7f062733bd/

ChatPaper综述：讨论了人机交互中对话管理的问题。随着社交机器人在公众中的部署越来越多，改善与这些机器人的交互至关重要。口语为人机交互提供了直观的接口，对话管理是这些交互系统的关键组成部分。然而，为了克服当前的挑战并实现流畅、丰富和吸引人的交互，需要更结构化的方法来结合人机交互和对话管理。在这个系统综述中，我们分析了对话管理在人机交互中的当前应用情况，并关注使用的对话管理器类型、其能力、评估方法以及对人机交互中对话管理具体挑战的问题。我们确定了与对话管理方法、交互领域、机器人外观、物理情境和多模态相关的挑战和当前科学前沿。

2.Human Motion Generation: A Survey 论文详情页

链接：https://www.aminer.cn/pub/64ba03413fda6d7f062733ba/

ChatPaper综述：文章主要是对人类运动生成领域的研究进行了综述，说明了该领域的研究目标、取得的进展以及面临的挑战。文章提到，人类运动生成旨在生成自然的人类姿势序列，并展示了在实际应用中的巨大潜力。近年来，在运动数据收集技术和生成方法方面取得了显著进展，从而引发了对人类运动生成的兴趣。然而，由于人类运动的复杂性以及与条件信号的隐含关系，这一任务仍然具有挑战性。文章介绍了人类运动和生成模型的背景，并对三种主流子任务的代表性方法进行了审视：基于文本、音频和场景上下文的人类运动生成。此外，文章还概述了常见的数据集和评估指标，并讨论了开放问题和潜在的未来研究方向。希望通过该综述能够为研究社区提供对这一快速发展领域的全面了解，并激发解决尚未解决问题的新思路。

3.FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets 论文详情页

链接：https://www.aminer.cn/pub/64ba03413fda6d7f062733dd/

ChatPaper综述：论文说明了大型语言模型（LLMs）评估面临的挑战，即基于对齐技能集的细粒度语言模型评估。当前的评估方法通常是粗粒度评估，无法考虑到需要逐实例进行技能组合的用户指令的特性，从而限制了对LLMs真实能力的解释。为了解决这个问题，作者提出了FLASK评估协议，它可以用于基于模型和基于人的评估，并将粗粒度评分分解为逐实例的技能集水平。通过FLASK，作者比较了多个开源和专有LLMs，并观察到模型评估和人工评估之间的高度相关性。FLASK使开发人员能够更准确地衡量模型的性能，并通过分析使LLMs在特定技能方面熟练的因素来改进模型。对于实践者来说，FLASK可以通过综合比较各种LLMs来推荐适合特定情况的模型。

4.SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models 论文详情页

链接：https://www.aminer.cn/pub/64ba03413fda6d7f062732a8/

ChatPaper综述：指出了当前大型语言模型（LLMs）在复杂科学问题解决方面的能力不足的问题。目前的大型语言模型在数学基准测试中取得了显着进步，但这些基准测试大多只涉及初高中学科，只包含多项选择题，且仅限于基本算术运算的范围。为了解决这些问题，该论文介绍了一个扩展的基准套件SciBench，旨在系统地研究复杂科学问题解决所需的推理能力。SciBench包含两个精心策划的数据集：一个开放集，其中包含来自数学、化学和物理教科书的大学级科学问题，以及一个闭合集，其中包含来自计算机科学和数学本科考试的问题。通过对这两个数据集的基准研究，研究结果表明，目前的LLMs在总体得分上仅为35.80%，表现令人不满意。此外，通过详细的用户研究，研究人员将LLMs的错误归类为十种问题解决能力。分析结果表明，没有单一的提示策略显著优于其他策略，而某些在特定问题解决能力上表现出改进的策略导致其他能力下降。该论文希望SciBench能够促进LLMs在推理能力方面的进一步发展，从而最终为科学研究和发现做出贡献。

5.The Role of Entropy and Reconstruction in Multi-View Self-Supervised Learning 论文详情页

链接：https://www.aminer.cn/pub/64ba03413fda6d7f062733c7/

ChatPaper综述：论文解释了多视角无监督学习（MVSSL）的成功机制尚未完全被理解。通过对比性的MVSSL方法已经通过InfoNCE这一互信息（MI）的下界进行了研究。然而，其他MVSSL方法与MI之间的关系仍然不清楚。作者考虑了一个由熵和重构项（ER）组成的MI的不同下界，并通过这一下界分析了主要的MVSSL方法。通过这个ER下界，作者展示了基于聚类的方法（如DeepCluster和SwAV）最大化了MI。作者还重新解释了基于蒸馏的方法（如BYOL和DINO）的机制，展示它们明确地最大化了重构项并隐式地鼓励稳定的熵，并通过实验证实了这一点。作者展示了用ER下界替代常见MVSSL方法的目标可以达到竞争性的性能，同时在使用较小的批量大小或较小的指数移动平均（EMA）系数进行训练时使它们更加稳定。此外，作者还提供了一个相关Github仓库的链接。

6.PASTA: Pretrained Action-State Transformer Agents 论文详情页

链接：https://www.aminer.cn/pub/64ba03413fda6d7f062733e5/

ChatPaper综述：解决了在强化学习中使用预训练transformer模型的现有方法中存在的问题。现有方法大多依赖于为特定下游应用量身定制的复杂预训练目标，限制了它们在广泛任务范围内的适用性。该研究通过提出了一种名为PASTA的模型，并对其进行了全面研究，解决了这一问题。研究中采用了一种统一的方法，并涵盖了一系列广泛的下游任务，包括行为克隆、离线强化学习、传感器故障鲁棒性和动力学变化适应性。该研究的目标是系统地比较各种设计选择，并为从业者提供有价值的见解，以构建稳健的模型。研究的重点包括在行动和状态组件级别进行标记化，使用基本的预训练目标（如下一个标记预测），同时跨多个领域训练模型，并使用参数高效的微调（PEFT）。该研究中开发的模型包含不到1000万个参数，并且应用PEFT使得在下游适应期间只需微调不到1万个参数，使得广大群体能够使用这些模型并重现实验结果。研究希望这项研究将鼓励进一步研究使用基于第一原理设计选择的transformer来表示RL轨迹，并为稳健的策略学习做出贡献。

7.Meta-Transformer: A Unified Framework for Multimodal Learning 论文详情页

链接：https://www.aminer.cn/pub/64ba03413fda6d7f06273356/

ChatPaper综述：论文讨论了多模态学习中的一个难题，即如何设计一个统一的网络模型来处理多种模态的信息。由于这些模态之间存在固有差距，因此很难设计一个能够同时处理各种模态的网络模型。为了解决这个问题，作者提出了一个名为Meta-Transformer的框架，它利用一个冻结的编码器来进行多模态感知，而无需配对的多模态训练数据。在Meta-Transformer中，来自各种模态的原始输入数据被映射到一个共享的令牌空间中，使得后续的编码器能够提取输入数据的高层语义特征。Meta-Transformer由三个主要组件组成：统一的数据分词器，模态共享的编码器和针对下游任务的特定头部。实验结果表明，Meta-Transformer可以处理各种任务，包括基础感知（文本、图像、点云、音频、视频）、实际应用（X射线、红外、高光谱和IMU）以及数据挖掘（图形、表格和时间序列）。Meta-Transformer为使用Transformer实现统一的多模态智能开发指出了一个有前途的未来。

8.Brain2Music: Reconstructing Music from Human Brain Activity 论文详情页

链接：https://www.aminer.cn/pub/64ba03413fda6d7f0627347c/

ChatPaper综述：论文介绍了一种从人脑活动中重建音乐的方法。研究人员使用功能性磁共振成像（fMRI）捕捉了人脑的活动，并使用音乐检索或MusicLM音乐生成模型来重建音乐。研究发现，通过这种方法生成的音乐与人们所经历的音乐刺激在音乐风格、乐器和情绪等语义特性方面相似。研究人员还通过基于体素的编码建模分析，探索了MusicLM的不同组成部分与脑活动之间的关系。此外，论文还讨论了哪些脑区表示纯文本描述的音乐刺激信息。论文提供了补充材料，包括重建音乐的示例。

9.TokenFlow: Consistent Diffusion Features for Consistent Video Editing 论文详情页

链接：https://www.aminer.cn/pub/64ba03413fda6d7f06273194/

ChatPaper综述：研究指出了当前视频生成模型在视觉质量和用户对生成内容的控制方面仍然落后于图像模型。作者提出了一个框架，利用文本到图像的扩散模型的能力来实现以文本驱动的视频编辑任务。具体来说，给定一个源视频和一个目标文本提示，该方法生成一个高质量的视频，该视频遵循目标文本，同时保留输入视频的空间布局和运动。作者观察到，通过在扩散特征空间中强制保持一致性，可以实现编辑视频中的一致性。作者通过利用模型中已有的帧间对应关系来显式传播扩散特征，从而实现了这一目标。因此，这个框架不需要任何训练或微调，并且可以与任何现成的文本到图像编辑方法配合使用。作者在各种真实世界的视频上展示了最先进的编辑结果。

10.Large language models shape and are shaped by society: A survey of arXiv publication patterns 论文详情页

链接：https://www.aminer.cn/pub/64ba03413fda6d7f062732eb/

ChatPaper综述：文章主要的问题是关于大型语言模型（LLM）研究如何在学术领域中产生深远影响，并且如何被社会因素所塑造。作者通过分析在CS和Stat arXiv上发布的38.8万篇论文，重点研究了2018-2022年与2023年期间出版模式的变化。作者分析了LLM论文的比例增加情况，LLM相关主题受到的关注度，撰写LLM论文的作者以及他们的研究背景与主题之间的相关性，区分高引用LLM论文的因素，以及国际合作模式的模式。作者指出，LLM研究越来越关注社会影响：在“计算机与社会”子arXiv上，LLM相关论文的比例增加了18倍，新发表LLM论文的作者比有经验的作者更关注应用和社会影响。LLM研究也受到社会动态的影响：作者记录了LLM作者关注的主题中的性别和学术/工业差距，以及合作网络中的美国/中国分裂。总的来说，作者的分析证明了LLM研究在塑造社会以及被社会塑造的深刻方式，说明了社会技术视角的必要性。

11.A Survey of What to Share in Federated Learning: Perspectives on Model Utility, Privacy Leakage, and Communication Efficiency 论文详情页

链接：https://www.aminer.cn/pub/64ba03413fda6d7f062732bc/

ChatPaper综述：论文讨论了在联邦学习中应该分享什么信息，重点关注模型的效用、隐私泄露和通信效率。目前关于联邦学习的调研大多集中在训练过程中分享模型参数的方法上，而忽视了分享其他形式本地信息的潜力。该论文通过四个不同的贡献与以往的论文有所不同。首先，通过共享方法将FL方法进行了新的分类，包括模型共享、合成数据共享和知识共享三种共享信息的方式。其次，分析了不同共享方法对隐私攻击的脆弱性，并回顾了提供一定隐私保证的防御机制。第三，对比了不同共享方法在FL中的性能和通信开销，并通过模型逆推和成员推断攻击评估了潜在的隐私泄露，同时比较了各种防御方法的有效性。最后，讨论了当前方法的潜在不足，并提出了改进的未来方向。

如何使用ChatPaper？

使用ChatPaper的方法很简单，打开AMiner首页，从页面顶部导航栏或者右下角便可进入ChatPaper页面。
在这里插入图片描述

在ChatPaper页面中，可以选择基于单篇文献进行对话和基于全库（个人文献库）对话，可选择上传本地PDF或者直接在AMiner上检索文献。

实时追踪科研动态丨7.21精选新论文，附ChatPaper综述

猜你喜欢