大模型这波作业，小米答得怎么样？

编者按：

今年 4 月，小米集团组建单独的大模型团队，4 个月后，小米新品发布会举行，自研大模型正式亮相。其实直到发布会举办前，小米集团 AI 实验室主任，自然语言处理（NLP）首席科学家王斌，对于大模型能否真正「跑通」，还没有底。

这个「跑通」，包含几方面的含义：首先是在手机端能跑出和在云端一样的效果；其次是能保障用户的体验感，文字生成速度跟得上大家的阅读速度；还有功耗不能太高等等。「这些都挺有挑战的。我们投入了一个团队集中攻关，发布会前约 10 天的时候，我们工作的群里突然发来了跑通的视频，大家都非常激动。」王斌回忆说。

眼下，小米正在经历一次科技战略升级。未来，AI 会成为小米最关键的变量之一，也将是小米长期投入的底层赛道之一。毫无疑问，王斌会成为其中的关键人物。他 2018 年加盟小米，之后全面负责计算机视觉、声学、语音、NLP、知识图谱、机器学习等 AI 技术在小米的研发和落地。

▲本文部分内容整理自播客「What's Next丨科技早知道」节目。更完整对话，请收听本期节目

「我们的研究不是凭空布局」

科技早知道：您最早在中科院研究机器学习，包括信息检索、NLP、机器翻译等，后来又经历了深度学习爆发的阶段，再到现在的大模型时代。其中重要的变化是什么？

王斌：我很幸运地经历了这几段技术变革。我读博士时，正是基于规则建立系统的时代，当时我做机器翻译，大部分的机器翻译系统都是基于规则的。

到我博士毕业时，学术界和产业界都有了一定改变，基于统计方法的机器翻译走到第二阶段。统计方法简单来说就是数据驱动，需要大量数据和算力支撑。经过几年迭代，特别是有谷歌这样的大公司投入，统计方法下的机器翻译效果大幅提升。市面上很多机器翻译产品已能满足一些理解需求，这是巨大的技术进步。

后来深度学习兴起，这也可以认为是统计方法的升级版，它进一步提升了机器翻译的效果。另外，深度学习在图像领域也有重要应用。

再到现在的大模型阶段，它可能不会完全替代之前的技术，但在某些方面可以进一步改善现有结果，让我们原先认为不可能的事变成可能。

科技早知道：小米 2016 年就组建了 AI 团队，目前基本覆盖了所有主流机器学习能够触及的领域，比如计算机视觉、语音、NLP 等，也很快进军大模型领域。在这么多不同关于 AI 的领域中，小米都在做些什么？

王斌：小米很早就对人工智能进行布局。2016 年，AlphaGo 面世后，小米就组建了视觉团队，主要研究拍照功能。2017 年，小米 AI 实验室建立，整合了很多零散的团队。2018 年我加入小米，2019 年担任 AI 实验室负责人。在这个过程中，我们的布局不断完善，逐步建立了视觉、语音、声学、知识图谱、NLP、机器学习、多模态等 AI 技术能力。

小米的研究涉及 AI 相关各领域，但我们并不是凭空布局，而是结合产品来规划，围绕小米当前或未来的应用场景来设置。小米很多设备对感知的要求都很高，我们需要研究声学和语音来帮助产品接收各种信息；感知之后又要求理解，我们需要研究 NLP、机器学习和知识图谱。我们进军大模型，也是由于大模型在小米很多使用场景里可以发挥重要作用。

科技早知道：可以看出，小米的研发与应用结合得非常紧密。我们知道还有很多科技公司是纯做研究的，可能 5 年10 年都不太考虑商业化的问题。您如何看待这两种方式？

王斌：每一家公司都需要同时考虑生存和发展，相较而言，可能生存是短期问题，发展是长期问题，公司处在不同阶段，考虑的重点也不太一样。

对于当下的小米而言，我们都会从短期和长期来考虑。小米的很多技术储备，也不仅是为当前业务服务，而是具有前瞻性的，比如我们最开始研究 AI，也不是马上就能看到应用场景，也是有逐渐迭代的过程。

做端侧大模型需要平衡和取舍

科技早知道：与很多公司在做的大模型不同，小米研发的大模型是轻量化、本地部署的端侧大模型。小米为什么有这样的选择？

王斌：目前市面上多数模型都非常大，参数级别达到千亿甚至万亿。但模型越大，消耗的计算资源越多，成本也越高。而云端计算机集群比本地计算机拥有更大算力和内存，所以现在大部分大模型都在云端运行。

与其他公司不同，小米拥有大量设备，目前这些设备的计算能力已经大幅提升，比如现在手机上搭载的芯片计算能力比以前提升很多。其次，我们是重端侧的公司，如果要大量调用云端算力，成本比较高。此外，用户隐私、用户使用手机时的网络情况等也是我们的考量因素。

比如翻译功能。翻译要求实时反应，而用户外出时，很多地方的网络并不好，导致翻译延迟严重，对方讲完一句话后不能立刻翻译出来，要等到讲完下一句才能出结果。如果在端侧实现翻译功能，就可以保证比较好的实时性。

当然，要实现端侧大模型，挑战非常大。大模型之所以厉害，就是因为它足够大，比如涌现能力需要很大的模型才能出现。而模型一做小，效果可能很难保证。所以我们要做很多平衡和取舍。

科技早知道：以 ChatGPT 为代表的大模型聊天机器人火了之后，各大公司都在加速普及大模型。小米有一个得天独厚的应用场景，就是语音助手小爱。大模型会给小爱带来哪些变化？

王斌：2017 年小爱团队就成立了，经过多年发展，运行小爱的场景设备也越来越多。其实很早之前，我们已经在研究小爱与大模型的结合。不过小爱毕竟是产品，需要在产品设计上做大量工作。我们目前的版本几个月前就已经研发完成，但直到最近才开始邀请测试。之后，我们要根据用户反馈继续打磨，争取能更好满足用户体验。

当然，小爱现在还有一些技术上没能完全攻克的问题，这需要技术人员和产品人员共同努力来降低问题出现的频率。在这个过程中，我们也希望用户可以给予一定的宽容度，新技术从产生到应用总是要经历一个长期过程。

以AI为基石，沉淀技术积累

科技早知道：在机器学习领域，有人认为，只需要一个超大参数量的模型就可以满足所有需求，也有人认为，在面向企业级市场的场景下，并不需要那么大的模型。您的观点是什么样的？

王斌：每个人站的角度不一样，看到的东西也不同。一方面，之前很多人对通用人工智能的发展持怀疑态度，但现在它的发展确实让我们看到曙光。大模型展现出的一些能力，在很多情况下不可解释，人们自然会对它抱有很大期望，甚至产生崇拜感。

但从落地角度看，无论是技术还是产品，都有很多问题要解决，包括价值观对齐、幻觉、耗能过大等等，都需要解决。

那我们在探索什么？我们觉得未来一定是大小模型共存，通用和专用共存的状态。我们相信除了通用能力，不同维度的小模型可能更适合某一项任务，所以最后可能是以混合体的形式出现，既有云端，也有端侧，既有大模型，也有小模型，通过共通的生态把用户体验做到极致。

科技早知道：很多人觉得大模型是实现通用人工智能的最佳路径，您觉得我们实现了通用人工智能吗？

王斌：首先，通用人工智能其实没有标准定义。从机器学习的角度来说，原来的机器学习都是根据某个任务，匹配一些数据，并尽量覆盖各种场景，相当于训练时已经极大覆盖了应用场景；而通用是指，即使遇到训练时没有覆盖的场景，也可以处理得很好，类似「无师自通」或「举一反三」，甚至出现一些想象不到的能力。

从大模型的目前的表现看，它似乎展现出了这种能力，不管我们提出什么问题，它都能给出一个看上去比较符合逻辑的回答，这就是大家感觉通用人工智能已经到来的一个原因。

但未来的通用人工智能就是这样吗？目前还没有共识。我们只是看到了一种可能性，未来还存在着各种可能性。

科技早知道：雷总在发布会上表示，AI 是未来的生产力，将来必须并且必然会全面赋能小米的业务。您怎么看雷总的判断？未来 AI 对小米的赋能跟过去相比会有什么不同？

王斌：目前 AI 还没有完全发挥出我能想象到的能力，所以我非常看好 AI 对整个社会赋能的前景。

小米早期是产品驱动的公司，产品更新和迭代非常迅速。现在我们能明显感觉到小米整体打法的变化，在研发和技术上的投入越来越大，对技术的布局也非常全面。而在所有技术中，AI 又是一个非常重要的变量。

很多人在做产品时把 AI 当作是锦上添花。但实际上，AI 越来越体现出「基座」的能力，也就是说它会下沉为基础设施，很多技术会基于 AI 重新构造，再映射到我们的产品上，以及内部效率的提高上。可以说， AI 对整个公司的赋能是全面性的。我可以很自信地说，我们的 AI 技术是行业一流的。

希望通过我们的长期努力，我们不断的技术投入与技术积累，能让小米以一家伟大科技公司的面貌呈现在大家面前，让大家真正感受到，我们正在改变世界。

END

大模型这波作业，小米答得怎么样？

猜你喜欢