冷门研究冒险家同济陈涵晟：让科技帮助未来人类拓展艺术边界

原来他们是这样走过来的！

【AI红人荟】——这里是TechBeat人工智能社区为优秀的AI工作者开设的人物专访栏目。从膜拜“红人”到成为“红人”，TechBeat与你一起，在AI进阶之路上，升级打怪、完美通关~

本篇人物，是来自同济大学的研究生陈涵晟，去年他的团队获得了CVPR最佳学生论文奖，这是CVPR近十五年来，第一个中国高效的论文一作获得者。他的研究方向是3D计算机视觉，在研究生入学以来一直专注于研究基于图像的3D物体位姿估计问题，现已在CVPR发表两篇一作论文，其中一篇获得最佳学生论文奖。

以下为采访全文，欢迎阅读~

2022年的CVPR最佳学生论文奖（EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation），颁发给了来自同济大学的研究生陈涵晟及其团队。这是CVPR近十五年来，首次迎来来自中国高校的论文一作获奖者。即将进入斯坦福大学就读博士学位的陈涵晟，与我们聊了华丽标签背后，自己少年偏科、偏执3D建模学习、沉心做冷门基础研究的技术人经历，其中无不透露出他坚定于用视觉方式为世界创造美好的信仰理念。这份单纯执着的底气来自哪里？细聊之后，我们记录下他的非典型成长故事。

意料之中：典型偏科类选手顺理成章走上科研之路

一个经典问题，人是应该补足短板？还是应该发展长板？这个问题，不同性格、不同成长阶段，应该会给出不同的答案。

而陈涵晟在聊到自己小时候的兴趣时，非常坦荡甚至有些自信地承认：从小就是理工科和英语好，语文一直最差，一直没变过。

电脑是自己从小玩到大无可替代的最佳玩伴。“上小学时候就被爸爸带着玩游戏，他近视，但是也不担心我会近视。玩多了就觉得游戏本身给你提供的创造空间有限，然后我就想到：里面的一部分内容是可以通过自己学习建模去创造的。”

进入初中，陈涵晟开始琢磨起来怎么自学3D建模。但是，为什么非得是3D呢？

他说：“3D游戏，可以提供一个让你从现实生活中短暂抽离出来，进入一个虚拟世界的沉浸感。我觉得这是其他任何媒体都没办法提供的神奇体验，而且是交互式的。其他媒体，比方说电影，是被动地去接受，而游戏是主动交互。这种感觉让人很上瘾。十几年前的赛车游戏就可以做到画面非常逼真了，现在更不得了。像是虚幻5这样的引擎，非常了不起。”

“如果你把3D从我的研究中拿掉，我就没有任何东西了。”陈涵晟笃定地讲到。

后来进入高中，陈涵晟成为一名业余的游戏开发者，做了非常多第三方内容。这些从小的“童子功”，让他现在对3D渲染各自应用的操作非常熟练。

本科时候，陈涵晟更进一步，把3D和自己喜欢的赛车爱好联系到了一起，如今看来，也是非常具有交叉学科思维了。他加入赛车队，利用仿真和建模技术，与空气动力学、流体仿真相结合去设计赛车的3D外形。

TR18赛车宣传照

2018年日本比赛，陈涵晟所在的队伍拿到了油车总季军的好成绩，“感觉这么多年对赛车的热爱和付出都获得了回报！”如果从小习得的3D建模本领是手中的super power，那么这次高光时刻的经历，是他用自己的power实现技术落地的最有力证明，相信也是他科研自信的来源之一。

2018日本参赛合照

对一件事物感情的培养或许就在一朝一夕之间。从一个喜欢在外面疯玩的混小子，到逐渐能坐得下来搞开发工作的稚气青年，陈涵晟从高中到开始，一点点收敛自己的玩心，一点点释放对计算机学习的锐气。他自己都承认说，研究生期间，是自己最“宅”的阶段，没有想到自己能有这么多耐心做下来钻研课题。

意料之中，做科研完全符合陈涵晟的兴趣爱好。稚气青年在一段段“宅”下来的学习思考之后，也顺理成章地慢慢成为一名有专业思考和研究产出的AI科研者。

打破刻板印象：冷门方向也可以有大收获

另一个陈涵晟学生工作的高光时刻，莫过于去年拿到 CVPR 最佳学生论文奖的那一刻。

这是一篇关于 EPro-PnP 的论文，论文研究的问题是基于单张 2D 图像估计物体在 3D 空间中的位姿。陈涵晟团队从几何视觉算法出发，提出了 EPro-PnP 模块，其输出位姿的概率密度分布而非单一的位姿最优解，从而将不可导的最优位姿替换为了可导的概率密度，实现了稳定的端到端训练。

论文解读文章：《CVPR 2022 最佳学生论文：单张图像估计物体在3D空间中的位姿估计》 Talk分享： https://www.techbeat.net/talk-info?id=685

陈涵晟介绍，如何在各种情况下（包括多模态歧义位姿情况下）把 PnP 变成一个端到端的模块，这个课题从本科毕业论文时候就着手做了。当时自学了很多基础书籍，比如《视觉Slam十四讲》等，里面就提到了这些经典问题。

“这本书把基础知识抛给你，问题提出来，但是具体怎么用？怎么解决？就要发挥自己的能动性，看你怎么去设计一个网络，并把它放到实际的应用问题里了。我们后来发现，在端到端训练这里，现有的方法确实存在理论缺陷，从理论上来看，肯定是有方法解决的。所以硕士期间一直在钻研这个问题，并最终通过提出EPro-PnP得到了一个比较圆满的解决方案。”

小范围的应用场景，包括自动驾驶领域当中，可以使用相机做3D的目标检测，或是机器人领域，利用相机来定位物体做抓取。从整个几何视觉领域来看，用概率方法来做一个可微分的位姿求解器，理论上会有更广泛的应用。

但是拿到 CVPR 最佳学生论文奖，实属是个意外。因为这个研究方向更偏基础几何视觉，其中需要调用到的数学内容比经验的东西要更多一些，所以对应的研究门槛也相对较高，相对来说得到的关注度就会低一点。在当下人工智能热点涌动的时代，EPro-PnP 显得非常冷门，相关论文很难成为一篇高引用的论文。

这次获奖的经历，陈涵晟倒是非常平常心，坦言：“整个CVPR会议都在家里远程参与，远程做分享、做报告。”但是，有一点让他受到了非常大的鼓励，就是：“关注度低的经典问题并不代表没有价值，这次经历说明埋头做冷板凳，也可以取得一些成就。这个对于做冷门方向的同学来说，是非常受到鼓舞的事情！”

最佳学生论文奖颁奖现场（由微软研究院Dr. Jianwei Yang在新奥尔良代领）

“几何视觉里还有很多等待解决的经典问题，包括3D重建、structure from motion这类问题。针对这些问题，也有很多新的解决方法，比方说nerf就是一种新的3D重建的方法。目前这个技术点非常热门，但它想解决的，实际上是计算机里非常经典的一个问题，非常值得深挖研究。包括现在的diffusion model，几年前研究的人也很少，但现在大家看到了好的效果，就都转身去关注它。但如果没有人做这些冷门的开创性的东西，可能就永远看不到技术创新的那一天。”陈涵晟分享道。

拿到 Best paper 这件事对陈涵晟的科研习惯也产生了影响。过去，陈涵晟倾向于独立完成工作，主动与外界发生连接、交流的动力也不是很足。但这次的获奖经历“强行”给了自己与前辈、牛人、同行在各种Talk、活动上交流的机会。他承认与外界交流，能够对打开自己的研究视野非常有帮助，是本次获奖很有意义的收获。陈涵晟也很期待10月份在巴黎的 ICCV 上能遇到更多切磋交流的伙伴。

今年秋天，陈涵晟即将进入斯坦福大学攻读计算机科学博士。细细想来自己申请博士的过程，陈涵晟总结，相比于硕士期间获得Best Paper的经历，自己3D建模+艺术+机械工程交叉领域的背景似乎更被申请学校的老师们看重。“老师们是可以看出你是真的从兴趣出发，有经验背景积累来做研究的，而不是为了名号、成绩、奖项这些。”

未来新人类：挑战者还是冒险家？

在登山圈中，有这样的任务分类：挑战（challenge）还是冒险（adventure）？挑战意味着，目前存在特定已知的艰难问题，等待大家去攻克，比方说这座山很高、很陡、地形复杂等等。而冒险则意味着，面前的路充满未知的风险，并不知道太多地形、气候变化等明确信息，需要登山者强大的驱动力和好奇心来解决前路面对的各种风险。两种任务同样都充满挑战，同样都不可或缺，同样会给登山者带来思考价值，但却对应了两种不同的探索态度、不同的求索风格。

在高速运转的计算机行业，哪些问题属于挑战？哪些属于冒险呢？

“挑战意味着challenging，你知道这个问题非常难，解决之后会给应用行业带来很大价值。比方说，我们同济大学汽车学院是做自动驾驶的，大家对未来的任务会有一个基本的规划，怎么去落地？怎么去设计方案？还有哪些板块需要攻克？这些都是非常具体、具有挑战性的工作。而冒险则意味着，你不去做，你就不知道这个问题未来会产生什么影响。如果去冒险，那么首先你要具备攻克很多挑战的能力和心态，去探索很少有人会去走的路。当有人证实了冒险的路可行之后，它就变成了一个challenge，可以不断优化细节、攻克更多可预见的难题的挑战任务。”陈涵晟聊到，创新领域的研究工作很多时候就是在做冒险。“我的重心不再放在应用层，而是希望有更大空间和资源来做之前没有人尝试过的idea。这个心态对基础研究来说，非常重要。”说到这里，陈涵晟语气十分坚定：“所有的研究课题都是自己proposal，不是别人给我的idea。”

如果目光放向未来，科技领域的工作更需要挑战还是冒险呢？陈涵晟认为，具体的挑战类型的工作，比方说需要编程来完成的工作，现在我们已经有了各种copilot，未来可能会有类似科幻电影《钢铁侠》里的JARVIS这样的通用AI助手，来协助完成基本工作。但是如果你想走得更远，做更多冒险工作，那么基础思维能力不可缺少。数学就是其中最重要的一环。这样基础的能力并不意味着可以直接拿来解决问题，而是可以提出新的问题，拓展人类的思维边界。这样的能力，短期来说AI还是很难实习，因此科技的进步仍然需要人类去推动。

工作照

科技与艺术：未来，人人都可以当15分钟艺术家

成为在游戏、电影、娱乐、工程等方面利用3D建模技术进行设计的贡献者，是陈涵晟一直在做的事。技术与艺术的相融相生，从小时候起，就成为他观察世界的独特视角。“商业艺术，很大程度上是可以借助AIGC，来拓展更多应用场景，来迎合大众的需求。但是艺术的初衷并不是为了服务商业的，而是人类对美的表达和追求。审美的趋势、潮流的走向，从某种意义上来看，也是一种对未知的冒险，而非解决特定任务的挑战。这件事还是需要人类来引领，而非计算机可以实现。”

赛车CFD仿真中对湍流的（艺术风格）可视化

当AI可以解放更多人的双手，帮助大家从机械性工作里抽身出来，大家会有更多的时间、精力，也有更多AI工具，去动手享受创作的乐趣。对艺术、对创作的感受和理解，毋庸置疑会成为每个人必选的一项课题。艺术家安迪·沃霍尔曾说：“在未来社会,每个人都可能出名15分钟。”而现在看来，每个人都有机会每天当15分钟艺术家。

电影，尤其是科幻电影，是陈涵晟特别喜欢的艺术审美（商业艺术）表达形式。电影中的沉浸感会延伸我们的感官系统，拓展了生命的可能性，跟随不同角色的视角，也给我们带来不一样的体验。

其中，陈涵晟最喜欢、最希望推荐给大家的是两位科幻电影导演——丹尼斯·维伦纽瓦和克里斯托弗·诺兰的作品。“从技术的角度来看，我最喜欢诺兰的《星际穿越》，他把硬科幻的视觉表现搬上了大荧幕，请诺奖级别的物理学家和graphics行业内顶尖的工作室把基于物理模拟的黑洞视觉效果呈现出来，是技术和科幻最好的结合范例。从内容的内核角度上看，我最喜欢维伦纽瓦的《降临》这部电影，没有大场面打斗，但是平淡之中利用技术手段记录一个第三类接触的故事细节，带给人非常真实的感受，构建了一个非常沉浸的世界观。”

星际穿越电影海报

降临电影海报

陈涵晟的研究执着，还来源于对前人工作的敬畏。他说：“在研究领域，我觉得很少会出现从0到1颠覆式突破的情况，因为很多研究都是循序渐进的，都需要站在巨人的肩膀上。每一篇paper都是建立在很多paper的基础之上，提出进一步的问题和更完善一点的解决方法。”这样的理智，让他更有前进的底气和动力，在未来AI新人类时代，成为更有信念的冒险家！

嘉宾介绍陈涵晟

陈涵晟现为同济大学2020级硕士研究生，导师为熊璐教授，副导师为助理教授田炜。曾于2021年作为研究型实习生加入阿里巴巴达摩院，由王丕超博士指导。他的研究兴趣主要为3D计算机视觉，在研究生入学以来一直专注于研究基于图像的3D物体位姿估计问题，现已在CVPR发表两篇一作论文，其中一篇获得最佳学生论文奖。

个人网址：https://lakonik.github.io/engineering_art

-The End-