每日学术速递3.15

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.MVImgNet: A Large-scale Dataset of Multi-view Images(CVPR 2023)

标题:MVImgNet:多视图图像的大规模数据集

作者:Xianggang Yu, Mutian Xu, Yidan Zhang, Haolin Liu, Chongjie Ye, Yushuang Wu, Zizheng Yan

文章链接:https://arxiv.org/abs/2303.06042

项目代码:https://gaplab.cuhk.edu.cn/projects/MVImgNet/

摘要:

        数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。然而,由于现实世界 3D 数据的收集工作量很大,目前还没有通用数据集作为 ImageNet 在 3D 视觉领域的对应物,因此这样的数据集如何影响 3D 社区尚不清楚。为了弥补这个缺陷,我们引入了 MVImgNet,这是一个大规模的多视图图像数据集,通过拍摄人类日常生活中真实世界物体的视频非常方便地获取它。它包含来自 219,188 个视频的 650 万帧,跨越 238 个类别的对象,具有对象蒙版、相机参数和点云的丰富注释。多视图属性赋予我们的数据集 3D 感知信号,使其成为 2D 和 3D 视觉之间的软桥梁。我们进行了试点研究,以探索 MVImgNet 在各种 3D 和 2D 视觉任务上的潜力,包括辐射场重建、多视图立体和视图一致的图像理解,其中 MVImgNet 展示了有前途的性能,为未来的探索留下了很多可能性.此外,通过在 MVImgNet 上进行密集重建,导出了一个 3D 对象点云数据集,称为 MVPNet,涵盖 150 个类别的 87,200 个样本,每个点云上都有类标签。实验表明,MVPNet 可以有益于现实世界的 3D 对象分类,同时对点云理解提出新的挑战。

2.3D Cinemagraphy from a Single Image

标题:单幅图像的 3D 电影摄影

作者:Xingyi Li, Zhiguo Cao, Huiqiang Sun, Jianming Zhang, Ke Xian, Guosheng Lin

文章链接:https://arxiv.org/abs/2303.05724

项目代码:https://xingyi-li.github.io/3d-cinemagraphy/

摘要:

        我们介绍 3D Cinemagraphy,这是一种将 2D 图像动画与 3D 摄影相结合的新技术。给定单个静止图像作为输入,我们的目标是生成包含视觉内容动画和相机运动的视频。我们根据经验发现,天真地结合现有的 2D 图像动画和 3D 摄影方法会导致明显的伪影或不一致的动画。我们的主要见解是,在 3D 空间中表示和动画场景为这项任务提供了一个自然的解决方案。为此,我们首先使用预测的深度值将输入图像转换为基于特征的分层深度图像,然后将它们取消投影到特征点云。为了使场景动画化,我们执行运动估计并将 2D 运动提升到 3D 场景流中。最后,为了解决点向前移动时出现空洞的问题,我们建议根据场景流双向移动点云,并通过将它们分别投影到目标图像平面并混合结果来合成新视图。广泛的实验证明了我们方法的有效性。还进行了一项用户研究,以验证我们的方法令人信服的渲染结果。

3.Rewarding Chatbots for Real-World Engagement with Millions of Users

标题:奖励与数百万用户在现实世界中互动的聊天机器人

作者:Robert Irvine, Douglas Boubert, Vyas Raina, Adian Liusie, Vineet Mudupalli

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://huggingface.co/ChaiML

摘要:

        预训练大型语言模型的出现导致部署了一系列用于聊天的社交聊天机器人。尽管这些聊天机器人展示了语言能力和流利程度,但并不能保证它们具有吸引力并且可能难以留住用户。这项工作调查了优先考虑用户参与以提高保留率的社交聊天机器人的开发,特别是检查了人类反馈的使用,以有效地开发高度参与的聊天机器人。所提出的方法使用从用户交互中收集的自动伪标签来训练奖励模型,该模型可用于拒绝聊天机器人模型在推理时生成的低分样本响应。引入直观的评估指标,例如平均对话长度 (MCL),作为衡量已部署聊天机器人参与度的指标。在 Chai Research 平台上对 10,000 个新的日常聊天机器人用户进行的 A/B 测试表明,这种方法将 MCL 提高了 70%,这意味着 GPT-J 6B 模型的用户保留率提高了 30% 以上。未来的工作旨在使用奖励模型实现数据飞轮,其中可以使用最新的用户对话来交替微调语言模型和奖励模型。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/muye_IT/article/details/129547605