大模型这波作业,小米答得怎么样?

6685c00c42e8805fbdfc2bed5a802d7b.png

编者按:

今年 4 月,小米集团组建单独的大模型团队,4 个月后,小米新品发布会举行,自研大模型正式亮相。其实直到发布会举办前,小米集团 AI 实验室主任,自然语言处理(NLP)首席科学家王斌,对于大模型能否真正「跑通」,还没有底。

这个「跑通」,包含几方面的含义:首先是在手机端能跑出和在云端一样的效果;其次是能保障用户的体验感,文字生成速度跟得上大家的阅读速度;还有功耗不能太高等等。「这些都挺有挑战的。我们投入了一个团队集中攻关,发布会前约 10 天的时候,我们工作的群里突然发来了跑通的视频,大家都非常激动。」王斌回忆说。

眼下,小米正在经历一次科技战略升级。未来,AI 会成为小米最关键的变量之一,也将是小米长期投入的底层赛道之一。毫无疑问,王斌会成为其中的关键人物。他 2018 年加盟小米,之后全面负责计算机视觉、声学、语音、NLP、知识图谱、机器学习等 AI 技术在小米的研发和落地。

▲本文部分内容整理自播客「What's Next丨科技早知道」节目。更完整对话,请收听本期节目

9aaf4a189da85206fa2e66701d6d93e8.png

「我们的研究不是凭空布局」

科技早知道您最早在中科院研究机器学习,包括信息检索、NLP、机器翻译等,后来又经历了深度学习爆发的阶段,再到现在的大模型时代。其中重要的变化是什么?

王斌:我很幸运地经历了这几段技术变革。我读博士时,正是基于规则建立系统的时代,当时我做机器翻译,大部分的机器翻译系统都是基于规则的。

到我博士毕业时,学术界和产业界都有了一定改变,基于统计方法的机器翻译走到第二阶段。统计方法简单来说就是数据驱动,需要大量数据和算力支撑。经过几年迭代,特别是有谷歌这样的大公司投入,统计方法下的机器翻译效果大幅提升。市面上很多机器翻译产品已能满足一些理解需求,这是巨大的技术进步。

后来深度学习兴起,这也可以认为是统计方法的升级版,它进一步提升了机器翻译的效果。另外,深度学习在图像领域也有重要应用。

再到现在的大模型阶段,它可能不会完全替代之前的技术,但在某些方面可以进一步改善现有结果,让我们原先认为不可能的事变成可能。

科技早知道:小米 2016 年就组建了 AI 团队,目前基本覆盖了所有主流机器学习能够触及的领域,比如计算机视觉、语音、NLP 等,也很快进军大模型领域。在这么多不同关于 AI 的领域中,小米都在做些什么?

王斌:小米很早就对人工智能进行布局。2016 年,AlphaGo 面世后,小米就组建了视觉团队,主要研究拍照功能。2017 年,小米 AI 实验室建立,整合了很多零散的团队。2018 年我加入小米,2019 年担任 AI 实验室负责人。在这个过程中,我们的布局不断完善,逐步建立了视觉、语音、声学、知识图谱、NLP、机器学习、多模态等 AI 技术能力。

602d77af80512eefb85683fd93944020.png

小米的研究涉及 AI 相关各领域,但我们并不是凭空布局,而是结合产品来规划,围绕小米当前或未来的应用场景来设置。小米很多设备对感知的要求都很高,我们需要研究声学和语音来帮助产品接收各种信息;感知之后又要求理解,我们需要研究 NLP、机器学习和知识图谱。我们进军大模型,也是由于大模型在小米很多使用场景里可以发挥重要作用。

科技早知道:可以看出,小米的研发与应用结合得非常紧密。我们知道还有很多科技公司是纯做研究的,可能 5 年10 年都不太考虑商业化的问题。您如何看待这两种方式?

王斌:每一家公司都需要同时考虑生存和发展,相较而言,可能生存是短期问题,发展是长期问题,公司处在不同阶段,考虑的重点也不太一样。

对于当下的小米而言,我们都会从短期和长期来考虑。小米的很多技术储备,也不仅是为当前业务服务,而是具有前瞻性的,比如我们最开始研究 AI,也不是马上就能看到应用场景,也是有逐渐迭代的过程。

40c27b52cafabf2c2fbb751231f379d4.png

做端侧大模型需要平衡和取舍

科技早知道:与很多公司在做的大模型不同,小米研发的大模型是轻量化、本地部署的端侧大模型。小米为什么有这样的选择?

王斌:目前市面上多数模型都非常大,参数级别达到千亿甚至万亿。但模型越大,消耗的计算资源越多,成本也越高。而云端计算机集群比本地计算机拥有更大算力和内存,所以现在大部分大模型都在云端运行。

与其他公司不同,小米拥有大量设备,目前这些设备的计算能力已经大幅提升,比如现在手机上搭载的芯片计算能力比以前提升很多。其次,我们是重端侧的公司,如果要大量调用云端算力,成本比较高。此外,用户隐私、用户使用手机时的网络情况等也是我们的考量因素。

比如翻译功能。翻译要求实时反应,而用户外出时,很多地方的网络并不好,导致翻译延迟严重,对方讲完一句话后不能立刻翻译出来,要等到讲完下一句才能出结果。如果在端侧实现翻译功能,就可以保证比较好的实时性。

当然,要实现端侧大模型,挑战非常大。大模型之所以厉害,就是因为它足够大,比如涌现能力需要很大的模型才能出现。而模型一做小,效果可能很难保证。所以我们要做很多平衡和取舍。

科技早知道:以 ChatGPT 为代表的大模型聊天机器人火了之后,各大公司都在加速普及大模型。小米有一个得天独厚的应用场景,就是语音助手小爱。大模型会给小爱带来哪些变化?

王斌:2017 年小爱团队就成立了,经过多年发展,运行小爱的场景设备也越来越多。其实很早之前,我们已经在研究小爱与大模型的结合。不过小爱毕竟是产品,需要在产品设计上做大量工作。我们目前的版本几个月前就已经研发完成,但直到最近才开始邀请测试。之后,我们要根据用户反馈继续打磨,争取能更好满足用户体验。

当然,小爱现在还有一些技术上没能完全攻克的问题,这需要技术人员和产品人员共同努力来降低问题出现的频率。在这个过程中,我们也希望用户可以给予一定的宽容度,新技术从产生到应用总是要经历一个长期过程。

c71faff3d480da824d0d67b256557d1e.png

以AI为基石,沉淀技术积累

科技早知道:在机器学习领域,有人认为,只需要一个超大参数量的模型就可以满足所有需求,也有人认为,在面向企业级市场的场景下,并不需要那么大的模型。您的观点是什么样的?

王斌:每个人站的角度不一样,看到的东西也不同。一方面,之前很多人对通用人工智能的发展持怀疑态度,但现在它的发展确实让我们看到曙光。大模型展现出的一些能力,在很多情况下不可解释,人们自然会对它抱有很大期望,甚至产生崇拜感。

但从落地角度看,无论是技术还是产品,都有很多问题要解决,包括价值观对齐、幻觉、耗能过大等等,都需要解决。

那我们在探索什么?我们觉得未来一定是大小模型共存,通用和专用共存的状态。我们相信除了通用能力,不同维度的小模型可能更适合某一项任务,所以最后可能是以混合体的形式出现,既有云端,也有端侧,既有大模型,也有小模型,通过共通的生态把用户体验做到极致。

科技早知道:很多人觉得大模型是实现通用人工智能的最佳路径,您觉得我们实现了通用人工智能吗?

王斌:首先,通用人工智能其实没有标准定义。从机器学习的角度来说,原来的机器学习都是根据某个任务,匹配一些数据,并尽量覆盖各种场景,相当于训练时已经极大覆盖了应用场景;而通用是指,即使遇到训练时没有覆盖的场景,也可以处理得很好,类似「无师自通」或「举一反三」,甚至出现一些想象不到的能力。

从大模型的目前的表现看,它似乎展现出了这种能力,不管我们提出什么问题,它都能给出一个看上去比较符合逻辑的回答,这就是大家感觉通用人工智能已经到来的一个原因。

但未来的通用人工智能就是这样吗?目前还没有共识。我们只是看到了一种可能性,未来还存在着各种可能性。

科技早知道:雷总在发布会上表示,AI 是未来的生产力,将来必须并且必然会全面赋能小米的业务。您怎么看雷总的判断?未来 AI 对小米的赋能跟过去相比会有什么不同?

王斌:目前 AI 还没有完全发挥出我能想象到的能力,所以我非常看好 AI 对整个社会赋能的前景。

小米早期是产品驱动的公司,产品更新和迭代非常迅速。现在我们能明显感觉到小米整体打法的变化,在研发和技术上的投入越来越大,对技术的布局也非常全面。而在所有技术中,AI 又是一个非常重要的变量。

很多人在做产品时把 AI 当作是锦上添花。但实际上,AI 越来越体现出「基座」的能力,也就是说它会下沉为基础设施,很多技术会基于 AI 重新构造,再映射到我们的产品上,以及内部效率的提高上。可以说, AI 对整个公司的赋能是全面性的。我可以很自信地说,我们的 AI 技术是行业一流的。

d889451b80fc4bf2be9ab1d75a78c144.png

希望通过我们的长期努力,我们不断的技术投入与技术积累,能让小米以一家伟大科技公司的面貌呈现在大家面前,让大家真正感受到,我们正在改变世界。

END

3aba7472bcd83d4afb4a5f663afbf8d8.gif

d390cc9f0de3378262f0f68a871621a4.png

猜你喜欢

转载自blog.csdn.net/pengzhouzhou/article/details/133108830