实时追踪科研动态丨7.24精选新论文,附ChatPaper综述

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。
在这里插入图片描述

结合前沿动态订阅功能,精选arXiv当日热门新论文,形成论文综述,让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达ChatPaper页面:https://www.aminer.cn/chat/g/

2023年7月24日精选新论文列表:

1.Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems

https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaec2c/

论文指出了人工智能在量子、原子和连续系统科学中所面临的一些问题。其中一个共同的挑战是如何通过深度学习方法捕捉物理学中的第一原理,特别是对称性。论文还讨论了其他一些常见的技术挑战,包括可解释性、超出分布的泛化、基于基础和大型语言模型的知识传递,以及不确定性量化。此外,论文还提供了一些学习和教育资源的分类列表,旨在促进AI4Science领域的进一步研究和发展。

2.CopyRNeRF: Protecting the CopyRight of Neural Radiance Fields

https://www.aminer.cn/pub/64bdf76d3fda6d7f06fbcf79/

论文讨论了保护神经辐射场(NeRF)模型版权的问题。NeRF是一种重要的媒体表示方法,但训练NeRF并不容易,因此保护其模型版权具有重要性。通过分析可能的版权保护方案的利弊,该论文提出了通过用带有水印的颜色表示替换NeRF中的原始颜色表示来保护NeRF模型的版权。然后,设计了一种抗失真渲染方案,以保证在NeRF的2D渲染中能够稳定提取水印信息。与其他可选方案相比,我们的方法可以直接保护NeRF模型的版权,同时保持高渲染质量和位准确性。

3.FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields

https://www.aminer.cn/pub/64bdf76d3fda6d7f06fbcf0c/

现有的人脸操作方法需要大量的人工劳动,如用户提供的语义蒙版和手动属性搜索,这对非专业用户来说并不适用。为了解决这个问题,研究人员提出了一种只需要一段文本即可操纵使用NeRF重建的人脸的方法。他们首先训练了一个场景操作器,即一个条件于潜在码的可变形NeRF,用于控制人脸的变形。然而,用单一的潜在码表示场景变形对于组合不同实例中观察到的局部变形是不利的。因此,研究人员提出了一种名为Position-conditional Anchor Compositor (PAC)的方法,该方法学习用空间变化的潜在码来表示操纵后的场景。它们使用场景操作器渲染后,通过优化使其在CLIP嵌入空间中与目标文本具有高余弦相似度,实现了基于文本驱动的操作。据我们所知,这是第一个解决使用NeRF重建的人脸的文本驱动操作的方法。大量的结果、比较和消融研究证明了我们方法的有效性。

4.STEVE-1: A Generative Model for Text-to-Behavior in Minecraft

https://www.aminer.cn/pub/64796919d68f896efa134e12/

论文提出了一种名为STEVE-1的用于Minecraft的文本到行为生成模型。该模型通过两个步骤进行训练:将预训练的VPT模型调整为在MineCLIP的潜空间中遵循命令,然后训练一个先验模型来从文本预测潜在代码。通过利用预训练的模型和采用文本条件图像生成的最佳实践,STEVE-1的训练成本只需60美元,并能够在Minecraft中遵循广泛范围的短期开放式文本和视觉指令。STEVE-1在使用低级控制(鼠标和键盘)和原始像素输入的情况下,远远超过以前的基准结果,在Minecraft中实现了开放式指令遵循的新标准。该论文提供了实验证据,突出了影响下游性能的关键因素,包括预训练、无分类器引导和数据缩放。所有资源,包括模型权重、训练脚本和评估工具都可供进一步研究使用。

5.Diffusion Sampling with Momentum for Mitigating Divergence Artifacts

https://www.aminer.cn/pub/64bdf76d3fda6d7f06fbcdd7/

在图像生成中,扩散模型的慢速采样仍然是一个持续存在的问题。为了加速采样过程,之前的研究将扩散采样重新定义为ODE / SDE并引入了高阶数值方法。然而,这些方法通常会产生发散伪影,特别是在采样步骤较少时,这限制了可达到的加速度。本文研究了这些伪影的潜在原因,并提出了小稳定区域可能是主要原因的观点。为了解决这个问题,我们提出了两种新技术。第一种技术是将Heavy Ball(HB)动量方法(一种改进优化的已知技术)合并到现有的扩散数值方法中,以扩展它们的稳定性区域。我们还证明了所得到的方法具有一阶收敛性。第二种技术称为广义Heavy Ball(GHVB),它构造了一种新的高阶方法,提供了精度和伪影抑制之间的可变权衡。实验结果表明,我们的技术在减少伪影和提高图像质量方面非常有效,在低阶采样的像素和潜在扩散模型上超过了最先进的扩散求解器。我们的研究为未来的扩散工作的数值方法设计提供了新的见解。

6.Zero-touch realization of Pervasive Artificial Intelligence-as-a-service in 6G networks

https://www.aminer.cn/pub/63f0088390e50fcafdeb8e17/

论文指出了在6G网络中实现无触点感知人工智能(PAI)作为服务的问题。当前的6G技术追求超密集网络、低延迟和高速数据传输,旨在通过零触点解决方案实现自配置、自监测和自修复等自我服务。然而,关于6G的研究仍处于初级阶段,只有开始概念化设计,研究实施和规划应用案例。为此,学术界和工业界逐渐从AI分发的理论研究转向实际部署和标准化。然而,尚未深入探索通过零触点服务配置辅助第三方应用程序来简化AI分发、提供更便捷访问服务的端到端框架设计。在这个背景下,作者介绍了一种新颖的平台架构,通过基于区块链的智能系统部署零触点PAI作为服务(PAlaaS)于6G网络中。该平台旨在在架构的所有级别上标准化PAI,并统一接口,以便促进应用和基础设施领域的服务部署,减轻用户对成本、安全性和资源分配的担忧,同时尊重6G对性能要求严格的要求。作为一个概念验证,作者提出了一个联邦学习作为服务的应用案例,评估了所提出系统自我优化和自适应6G网络动态的能力,同时最大限度地减少用户的感知成本。

7.AIGC Empowering Telecom Sector White Paper

https://www.aminer.cn/pub/64bdf76d3fda6d7f06fbcf2b/

1.AI作为一种转型技术和经济社会发展的重要力量,将对全球产业带来巨大的飞跃和突破,深刻影响未来的竞争格局。2. 作为信息和通信基础设施的建设者和运营商,电信行业为AI的发展提供了基础支撑,并在AI应用的实施方面处于领先地位。3. 如何实现AIGC(GPT)的应用并在电信领域实施AIGC,是电信从业者必须思考和解答的问题。4. 通过对AIGC的研究,作者们分析了GPT如何以场景的形式赋能电信行业,讨论了当前GPT通用模型与电信服务之间的差距,首次提出了电信增强认知能力系统,为如何在电信领域构建电信服务GPT提供了答案,并进行了各种实践。5. 期望行业中的相关方关注围绕电信和AI的协同创新,建立开放共享的创新生态系统,推动AI与电信行业的深度融合,加快下一代信息基础设施的建设,助力经济和社会的数字化转型。

8.Predict, Refine, Synthesize: Self-Guiding Diffusion Models for Probabilistic Time Series Forecasting

https://www.aminer.cn/pub/64bdf76d3fda6d7f06fbcf58/

论文说明了在时间序列任务中,以前的扩散模型主要专注于开发针对特定预测或填补任务的条件模型。然而,作者通过提出一种面向任务的无条件扩散模型TSDiff,探索了无条件扩散模型在几个时间序列应用中的潜力。通过自我引导机制,TSDiff可以在推断过程中进行条件计算,而无需使用辅助网络或改变训练过程。作者在三个不同的时间序列任务上展示了该方法的有效性:预测、优化和生成合成数据。第一,他们证明TSDiff在与几种特定任务的条件预测方法相比中具有竞争力。第二,他们利用TSDiff学习到的隐含概率密度来迭代优化基本预测器的预测结果,并减少了反向扩散的计算开销。值得注意的是,模型的生成性能仍然保持完整,在TSDiff生成的合成样本上训练的后续预测器优于训练在其他最先进的生成时间序列模型样本上的预测器,有时甚至胜过在实际数据上训练的模型。

9.Robust Visual Question Answering: Datasets, Methods, and Future Challenges

https://www.aminer.cn/pub/64bdf76d3fda6d7f06fbcf41/

文章主要讨论了视觉问答的鲁棒性问题。目前存在的通用VQA方法常常倾向于记忆训练数据中存在的偏见,而不是学习正确的行为,比如在预测答案之前对图像进行准确的解释。因此,这些方法通常在数据内部表现良好,但在数据外部表现较差。为了评估和增强VQA的鲁棒性,近年来提出了各种数据集和去偏见方法。本文提供了第一个专注于这一新兴领域的综合调查。具体而言,首先从数据内部和数据外部的角度概述了数据集的开发过程。然后,我们考察了这些数据集使用的评估指标。第三,我们提出了一种分类法,介绍了已有去偏见方法的开发过程、相似性和差异性、鲁棒性比较和技术特点。此外,我们还分析和讨论了在VQA上具有代表性的视觉和语言预训练模型的鲁棒性。最后,通过对现有文献的彻底审查和实验分析,我们从各个角度讨论了未来研究的关键领域。

10.BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion

https://www.aminer.cn/pub/64ba03413fda6d7f06273364/

论文指出了在文本到图像合成中存在的一个问题:现有的方法主要研究只使用文本提示来合成图像的方式,而很少有研究使用其他形式的条件,比如盒子或草图。然而,获得盒子/遮罩图像对等配对数据和进行微调所需的时间是耗时且费力的,并且受限于封闭集合。由于这些配对数据的获取很耗时且费力,并且受到封闭集合的限制,在开放的世界中应用这些方法可能会成为瓶颈。该论文提出了一种训练免费的方法来通过给定的空间条件控制合成图像中的对象和背景。具体而言,设计了三个空间约束条件,并将其无缝集成到扩散模型的去噪步骤中,不需要额外的训练和大量注释的布局数据。实验结果表明,所提出的约束条件可以控制图像中的内容和位置,并且仍然保持了Stable Diffusion模型合成高保真度和多样化概念覆盖能力的能力。


如何使用ChatPaper?

使用ChatPaper的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入ChatPaper页面。
在这里插入图片描述

在ChatPaper页面中,可以选择基于单篇文献进行对话和基于全库(个人文献库)对话,可选择上传本地PDF或者直接在AMiner上检索文献。

おすすめ

転載: blog.csdn.net/AI_Conf/article/details/131912042