17 年微软老兵，非典型跨领域 AI 科研之路

受访者 | 罗翀

记者 | 伍杏玲

出品 | CSDN（ID：CSDNnews）

「AI 技术生态论」人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的重要组成部分。通过对 AI 生态顶级大咖、创业者、行业 KOL 的访谈，反映其对于行业的思考、未来趋势的判断、技术的实践，以及成长的经历。

本文为「AI 技术生态论」系列访谈的第二十期，对话微软亚洲研究院高级研究员罗翀，畅谈她AI“非典型”的研究历程。

百万人学 AI 你也有份！今日起点击阅读原文报名「2020 AI开发者万人大会」，使用优惠码“AIP211”，即可免费获得价值299元的大会在线直播门票一张。限量100张，先到先得！

在今年微软亚洲研究院举办的Ada Workshop上，一位计算机“跨界”研究员引起了大家的注意：微软亚洲研究院高级研究员罗翀用她温柔又坚定的声音向我们讲述了她“非典型”的研究经历、幸福美满的家庭生活与女性研究者独立的精神世界，成为很多观众朋友榜样。

罗翀于2003年成为微软的一份子，这17年来，她跨领域研究，在计算机视觉、语音、云计算等领域里均有颇多建树。她对这些技术有怎样独特的理解？遇到技术难关时，又是如何克服的呢？

对此，本期「AI技术生态论」栏目将通过专访微软亚洲研究院高级研究员罗翀，来对上述问题一探究竟。

罗翀

“非典型”研究之路

早在复旦大学读本科时，罗翀就开始接触自然语言处理和人脸检测与识别技术。在新加坡国立大学读硕士期间（2000-2002年），主要研究视频中的人脸跟踪技术。从2003-2011年期间，罗翀先后从事多人视频会议、P2P网络，无线传感器网络、多媒体云计算研究。

2012-2016年，她研究起伪模拟视频传输、联合信源-信道视频编码。从2017年到至今，罗翀专攻计算机视觉、语音处理、多模态视频理解领域。

虽然从罗翀开始科研工作以来，在不同时期的研究方向略有不同，不过她表示，总体来看都是围绕着视频的生命周期做一些工作。

当前罗翀的研究重点是视频中视觉和听觉信号的处理和理解。涉及的研究领域有计算机视觉、智能语音以及跨模态视频理解等。在计算机视觉方面，研究兴趣主要在视觉目标跟踪和视频的表征学习。在智能语音方面，罗翀和团队研发了业界领先的语音去噪技术，并已成功转化到微软Stream视频流服务中，预期很快就可以和大家见面了。在跨模态视频理解方面，其关注图像、声音和语言的协同表达和跨模态检索。

目前罗翀所在的微软亚洲研究院智能多媒体组主要聚焦于用机器学习方法对视频中的文字、图像、动画、声音等多种媒体信息进行综合处理，进而构建新一代智能视频分析系统。细分的研究方向包括计算机视觉、智能语音、跨模态分析、人的行为理解和场景理解等。

科研坎坷路

在做了近20年的科学研究后，罗翀坦言：科研的道路没有坦途。

如今在镜头前谈吐自如、拥有丰富人生阅历和研究成果的“人生赢家”——罗翀，在走上科研之初和很多职场“小萌新”一样：

研究选题常常无以为继，并且有很强的依赖心理，总希望别人能告诉她接下去做什么。一旦接到一个明确的题目，自己能高质量地完成，可是在完成后又陷入迷茫：“接下来做什么呢？”

尤其是身处工业界的微软亚洲研究院，罗翀还要考虑如何平衡研究工作的学术价值和对公司产品的贡献，所以时不时会陷入有劲没处使的迷茫和焦虑。

这样的困境并不是一朝就能走出来的，但走过这一阶段后回头再看，明白以下几点是很重要的：

一是通过大量学习拓展学术视野，了解整个研究领域的全貌，主要研究方向的来龙去脉，以及相关的技术工具。

二是经常跳出课题本身主动思考，不要只把注意力放到小的算法改进，而是多想想这个研究课题有哪些技术途径，甚至是这个研究课题为什么有研究价值。

三是培养成长型思维，积极面对挑战，思考解决问题。总的来说，这是一个很痛苦的成长过程，很庆幸的是，微软亚洲研究院提供的开放的学术环境、雄厚的支撑资源，以及身边众多高水平的研究员帮助她顺利度过了这一阶段。

罗翀说：“做研究工作，既要能埋头苦干，更要能抬头看路。”

深耕智能语音

谈起科研技术，罗翀滔滔不绝：

在过去三年左右时间里，她和同事对视觉目标跟踪课题进行了深入研究，取得累累硕果。

罗翀介绍道，人类婴儿在两三个月时就具有“固视”的能力，即将视线固定在一个物体上追踪它的移动。这项能力也是婴儿认识世界的一项基础能力。但这对计算机来说，视觉目标跟踪是一项相当难的任务。

经过罗翀和团队的研究，已提出了多个视觉目标跟踪的方法。今年其将在CVPR（IEEE国际计算机视觉与模式识别会议，由IEEE举办的计算机视觉和模式识别领域的顶级会议）上发表一项很有意思的研究成果，即基于元学习的目标跟踪。这不仅是一个独立的目标跟踪器，更重要的是给出了一个目标跟踪器的设计思路和框架。

在智能语音方面，罗翀关注较多的是语音去噪、语音分离和说话人分类。在2019年Ignite大会上，微软 CEO 萨提亚·纳德拉在主旨演讲时专门展示了罗翀团队在语音去噪方面的最新研究成果。

在上文提到，很快同大家见面的微软Stream视频流服务中的语音增强功能便是罗翀团队的最新成果。

Stream用于上传、共享、管理和查看可用于教育、培训和跨公司信息共享的企业视频。在Stream管理的视频中，有相当一部分是在噪声不可控的环境中录制的，严重影响了观看体验。罗翀团队研发的语音增强功能利用深度学习技术不仅极大的抑制了环境噪声，包括城市噪声、家用电器噪声、甚至是嘈杂的人声，而且最大程度的减少了失真，为用户提供舒适的听觉体验。

在传统的语音去噪技术中，人们仅对声谱图的幅度信息进行去噪和预测，而并不涉及相位信息。因为后者没有展现出清晰的结构信息因此很难被预测。罗翀的研究工作创新性的使用双路深度神经网络对声谱图的幅度和相位信息同时进行预测并相互印证，从而获得了更加清晰、失真较小的去噪语音。

多模态机器学习无法在短期内落地

如今海量数据的涌入驱动了多模态内容理解的研究，多模态检索是一个实际需求较大的方向。微软亚洲智能多媒体组早已将多模态表征学习作为一个主要的研究方向。

罗翀表示，事实上，多模态学习和检索早在20世纪90年代多媒体领域崛起时就吸引了研究人员的注意。那时，人们通常以常识和先验知识为基础，手工设计一个公共空间供多个模态的数据嵌入其中，从而进行有效的检索。然而，这种方式需要获得大量有标注且对齐的多模态数据。

近年来，随着深度学习的发展和无监督预训练技术的提出，罗翀和团队成功摆脱了对有标注数据的依赖，并且显著提高了系统整体性能。

可是她表示，工业界和学术界对于预训练的态度似乎有着较大的差异。学术界研究人员通常无法拥有有效开展预训练工作的计算能力。而大多数预训练相关工作是由来自微软、谷歌和脸书等少数行业巨头的研究人员完成的。在这种硬件条件的限制下，学术界研究人员更倾向于通过高效的网络架构设计，以及有效利用人类知识来实现可解释的人工智能。

罗翀认为，虽然多模态检索和内容理解有着旺盛的需求，多模态机器学习仍是一个中长期的研究课题，但它可能无法在短期内落地或使机器学习的落地获得突破性的进展。

疫情后，AI对人们生活的改变

在疫情期间，AI技术在疫情的预测、疾病的诊断、和防疫管理等多个方面都展现出了强大的能力。

而罗翀更关注的是防疫常态化后人们工作、学习模式的改变，以及AI如何在新的工作、学习模式下为工作者、老师和学生提供便利。比如，目前很多学校都开展了线上录播教学，老师在进行视频录制的时候可能会被家中的狗吠或家人的说话声干扰，而智能语音方面的工作可以轻松的帮助老师消除录制时的噪声，避免重复劳动。

再如，当前工作者的会议基本都从线下变为线上，很多在线会议软件，如微软的Teams，都提供会议录像功能。基于视频多模态的AI技术未来将可以自动为会议录像生成简明扼要的提纲，方便用户的浏览和检索，提高生产力。

成长型思维

谈到未来两三年的科研之路，罗翀表示会把大部分精力放在多模态视频理解和分析上。一方面，通过对图像、声音、文字等多种模态的联合学习，获得对视频整体上的更好理解。另一方面，也是更有趣的是，利用海量的视频数据中多种模态的自然对齐，在无监督学习的框架下加强对各种模态的理解和特征表达。

罗翀在做线上分享时，笔者看到很多在校女生和女开发者都在为罗翀点赞，为他们树立很多的榜样力量。

罗翀谦虚道，她很喜欢自己目前的工作、生活状态，同时也清楚有很多需要改进和努力的地方。感恩在成长路上父母师长的教诲，家人朋友的支持，还有自己的不懈努力。

微软CEO纳德拉在2014年成为掌舵人之后就立即着手推动企业文化的改变，重新塑造了以成长型思维模式为核心的微软新文化。而她也从成长型思维模式中获益匪浅，所以也不断“安利”给大家。

“这种思维模式的核心是相信能力可以通过后天的努力培养，以开放的心态拥抱改变，以不懈的努力回应挫折。”罗翀以此来结束本次采访。

简介：罗翀，微软亚洲研究院高级研究员，博士，IEEE资深会员。2003年加入微软亚洲研究院，现任智能多媒体组（Intelligent Multimedia Group）高级研究员，中国科学技术大学、西安交通大学兼职博导。长期从事视频通信、多媒体云计算、计算机视觉等领域的基础理论和应用研究工作。在无线传感器网络中基于压缩感知的数据采集技术、无线网络中视频伪模拟传输、以及视觉物体跟踪等方面做出了开创性工作。先后在ACM MobiCom、IEEE Infocom、IEEE CVPR 等顶级学术会议上发表多篇论文，拥有十余项国际专利。曾获得上海市计算机学会2005年至2015年期间“上海市网络领域最有影响力论文奖”。

「AI 技术生态论」系列精选阅读：

今日福利

遇见陆奇

同样作为“百万人学 AI”的重要组成部分，2020 AIProCon 开发者万人大会将于 7 月 3 日至 4 日通过线上直播形式，让开发者们一站式学习了解当下 AI 的前沿技术研究、核心技术与应用以及企业案例的实践经验，同时还可以在线参加精彩多样的开发者沙龙与编程项目。参与前瞻系列活动、在线直播互动，不仅可以与上万名开发者们一起交流，还有机会赢取直播专属好礼，与技术大咖连麦。

门票限量大放送！今日起点击阅读原文报名「2020 AI开发者万人大会」，使用优惠码“AIP211”，即可免费获得价值299元的大会在线直播门票一张。限量100张，先到先得！快来动动手指，免费获取入会资格吧！

点击阅读原文，直达大会官网。

CSDN资讯

发布了1996 篇原创文章 · 获赞 4万+ · 访问量 1861万+

他的留言板关注

17 年微软老兵，非典型跨领域 AI 科研之路

猜你喜欢