“重塑商汤研发体系”“动员整个公司”，我和商汤首席科学家王晓刚聊AI大模型...

文丨谭婧

原创丨亲爱的数据

如今，大模型的故事，须写尽能写之事。

越是如此，观点越犹如过江之鲫，难辨优劣。

而大模型竞争犹如武火烹菜，顶级科学家没时间辟谣。

拿一组仅供我自己参考的数字——全国做大模型的人才规模应该不是一个庞大数字——一百人左右。

谭老师我特别希望围追堵截的专家亲身做过大模型。

2023年4月第二个周五，我有幸和商汤王晓刚教授聊了聊大模型。作为商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁，王晓刚同时亦为香港中文大学电子工程系教授。

话不多说，我来划聊天全程重点。

首先，了解复杂事物很需要一个好比喻。

王晓刚教授给我的比喻是这样的：

“把通用人工智能大模型比喻成核聚变。先有核装置，其次有核原料。核装置就是我们已有的基础硬件系统。核原料就是非常丰富的数据，各个行业里丰富的任务。”

我问王教授：“商汤多年人才和技术积累，对攻下大模型这个山头有什么样的积极作用？”

还是核聚变那个比喻。

他说道：“‘好的原材料’就是要深入到各个行业里积累非常多的know-how。美国公司OpenAI能够把ChatGPT做出来，背后也有多年积累，从小模型到大模型的研发，中间积累了非常多的know-how。”

再聊回商汤，王教授认为商汤具有非常类似的优势，商汤有非常多的研发人员能深入到一线，用模型去解决实际问题，有很好的积累。

他相信好的原材料，能帮助商汤大模型成功。

关于第二点，他这样强调：“需要好的顶层设计，很好地把原材料设计成一个体系，能朝着通用人工智能的目标努力。除了大装置和基础设施以外，还要能从算法、框架上，把整个系统设计好，这样研发团队就能够专注在第一个方面。”

如此，大模型成功这件事情才会发生。

对ChatGPT的困惑与焦虑，绝不仅仅来自普通人，也来自科技从业者、研究人员。他们往往有较好的教育和研究背景。

在GPT-4发布的那个清晨，北京一位国科大的研一学生梅灵睿同学（他也是我的读者）坦诚地和我分享了他的焦虑：

“GPT-4秒杀的好多指标和领域可能都有无数科研工作者用其他方法耕耘了数十年。GPT-4出来后，这些东西似乎一瞬间就变成了技术发展走过的弯路了。”

他说：“GPT-4发布那天上午，大学里那节《机器翻译》研讨课直接变成了GPT-4研讨课。”

（这里需要解释一句，《机器翻译》课程是有关NLP中间任务的课程。）

震撼与茫然同时袭来。

这一幕在我脑海中久久不能淡忘。不成功并不可怕，可怕的是对手成功了。

在GPT-4冲击而来的混沌中，很难保持清澈。

我特意写下了如下的问题，请教王晓刚教授，也可以说这个问题是替“亲爱的数据”的读者问的。

GPT-4问世。

开发者齐声说：NLP中间任务is dead。

SAM问世，开发者齐声说：CV is dead。

（这句话中英夹杂，大意是自然语言理解中间任务已经消亡，计算机视觉已经消亡。）

一种AI技术“干死”其他AI技术，这标志什么？

那些“被干掉”技术背后的从业者是高层次人才，此后他们从观念和行动上应做哪些转变？

您会如何鼓励商汤研发团队面对这样一种“变化”或者“挫败”？

简而言之，王晓刚教授给我的答案的关键词是“拥抱全新研究范式”和“转变观念”。

他回答道：“谢谢你的问题，这个事情并不是什么新鲜事儿，历史总是一遍一遍重演。我们回顾一下十年前深度学习取代传统算法的那个时代。那时候大家普遍都有传统技术的积累。而深度学习一下子颠覆了所有传统。

一开始，人们还不太相信，大家觉得深度学习也许只在语音上能够做好。很快发现，新技术在计算机视觉分类问题上也可行。再后来，基本上是大家觉得新技术做不了的事情，后来都能做了。”

他强调：“颠覆会不断出现，且以非常快的速度出现。”

在他看来，现在重新有了一个机会。这对于整个行业发展非常好。

他谈道：“我们要拥抱全新研究范式，这里面的关键是我们要转变观念。十年前，商汤还没有诞生，我们创始团队在当时做的决定就是-All in deep learning。我们之前在传统视觉技术里也有较长积累，但是，当新技术来了，我们就果断地去拥抱新技术。今天也一样。”

他谈道：“如今，商汤研发想要做的事情就是怎么样去用好这些新技术。它带来的新范式包括人机共智，一起去创造新智慧。核心在于怎样用好我们的这个大模型，能够去形成正向的反馈，而不是一味地说‘很害怕’‘被颠覆了’。”

他指出，对研究人员来说，这是一件很让人兴奋的事情。

谭老师观察，没有犹豫，快速共识几乎是所有大模型参与者的共同特征。既是追求商业回报，也是追求技术卓越。

下一个问题是关于“涌现”。

最近，谭老师我在和多位大模型负责人聊天的时候，开口第一个问题往往是：

“您的大模型涌现了吗？”

听到这个问题，大家莞尔一笑。给人一种只有内行人才懂“内部笑话（inside joke）”的感觉。

王晓刚教授给出了肯定答案，也顺手科普了“涌现”这个技术术语。

他谈道：“涌现这个现象的出现意味着大模型会不断给你惊喜，大模型能有新能力。”

他说道：“通过人机交互，或者思维链条的设计，科学家将不断解锁大模型新能力。比如，解答之前没遇到过的题目，它能够给出非常高质量的推理步骤。”

简单理解，“之前没遇到过的题目”是一种“未知任务”。

紧接着，王晓刚教授谈到了商汤的调整。

他谈道：“后面的话，我们会沿着既定方向和节奏更好地重塑商汤研发体系。动员整个商汤研究团队力量，形成合力，最终能够把通用人工智能大模型这件事情做好。这绝对不只是说训练一个参数量非常大的模型，它是一个体系化的大工程。”

王晓刚公开表达了对大模型的重视。通过这次对话，我相信大家也读到了商汤对于做好大模型的决心。

“重塑研发体系”“动员整个公司”，这对任何一家科技公司来讲都是大事，往往牵动组织战略与文化，团队管理与业务经营。

对于一家上市公司来说，拥抱新范式，所要面对的不仅仅是技术上的挑战。

我非常关心多模态大模型的技术发展。于是，追问了技术难点。

王晓刚教授强调了一遍问题之后才作答。“这里涉及到的难点在什么地方呢？”

他谈道：“图像和自然语言截然不同，表达的颗粒度，表述的能力完全不一样。将图像和自然语言两个技术结合在一起，那么界面或者任务接口需要再设计。图像是一种描述，自然语言是另外一种表述。”

他特意强调了创新关键点，他说道：“如何设计是我觉得需要花很多精力，要用创新实现的事情。”

要分两步，且调动不同力量。

第一，定义任务本身。

定义工作完成之后，学者们会非常擅长用各种数学工具去解决交互界面的问题。

(我与王晓刚教授讨论了“交互”一词的用法。我建议是否可以使用“融合”一词，他认为还是交互，因为相比交互，融合的路可能还要很长。)

比如，自动驾驶场景里，怎么用自然语言去描述一个自动驾驶系统。计算机视觉技术现在的做法是用检测框，用像素来描述，这跟人使用语言去理解的方式完全不一样。

谭老师我隐约感到很多人对于多模态大模型技术不关注，不了解，又因为太复杂而更加不愿意理解。而我却觉得多模态大模型技术日益重要。

对于多模态大模型技术，GPT-4已有建树，国内多个大模型团队业已布局。（因为国内很多大模型尚未发布，我不便多说。）

我问的最后一个问题是：“您认为多模态大模型技术之前有没有被低估？”

王晓刚回答道：“对，那肯定是的。”

他回答道：

“自然语言的大模型展现出来的各种能力，涌现出来新的功能，确实是让我们眼前一亮。人们自然联想，怎么让自然语言跟图像能有一个更好的结合。毕竟人摄取的信息中有90%是视觉信息。语言已经给我们打开了一个非常大的想象的空间。后面，怎么跟视觉结合？

我觉得这是一个全新的需要思考的问题。之前也强调，两者大为不同，融合的方式更是完全不一样。在计算视觉里面，可能也涉及各种不同的信息源，基本上就做一个加权平均，做类似的融合。但是，自然语言技术有其处理上的独特性。”

他强调：“所谓的多模态，并不单单是把语言跟图像放在一起就可以了。怎样让两者相交互，彼此能够有帮助，我觉得这个可能是后面我们要充分挖掘的重点。”

技术变革，无情又残忍。它制服嘴硬的人，但无法驯服心坚志硬的人。

（完）

更多阅读

AI框架系列：

1.搞深度学习框架的那帮人，不是疯子，就是骗子（一）

2.搞AI框架那帮人丨燎原火，贾扬清（二）

3.搞 AI 框架那帮人（三）：狂热的 AlphaFold 和沉默的中国科学家

4.搞 AI 框架那帮人（四）：AI 框架前传，大数据系统往事

注：（三）和（四）现在并未公开发表，将会以图书出版的形式与各位见面。

漫画系列

1. 解读硅谷风投A16Z“50强”数据公司榜单

2. AI算法是兄弟，AI运维不是兄弟吗？

3. 大数据的社交牛逼症是怎么得的？

4. AI for Science这事，到底“科学不科学”？

5. 想帮数学家，AI算老几？

6. 给王心凌打Call的，原来是神奇的智能湖仓

7. 原来，知识图谱是“找关系”的摇钱树？

8. 为什么图计算能正面硬刚黑色产业薅羊毛？

9. AutoML：攒钱买个“调参侠机器人”？

10. AutoML：你爱吃的火锅底料，是机器人自动进货

11. 强化学习：人工智能下象棋，走一步，能看几步？

12. 时序数据库：好险，差一点没挤进工业制造的高端局

13. 主动学习：人工智能居然被PUA了？

14. 云计算Serverless：一支穿云箭，千军万马来相见

15. 数据中心网络：数据还有5纳秒抵达战场

16. 数据中心网络“卷”AI：迟到不可怕，可怕的是别人都没迟到

AI大模型与ChatGPT系列：

17. ChatGPT大火，如何成立一家AIGC公司，然后搞钱？

18. ChatGPT：绝不欺负文科生

19. ChatGPT触类旁通的学习能力如何而来？

20. 独家丨从大神Alex Smola与李沐离职AWS创业融资顺利，回看ChatGPT大模型时代“底层武器”演进

21. 独家丨前美团联合创始人王慧文“正在收购”国产AI框架OneFlow，光年之外欲添新大将

22. ChatGPT大模型用于刑侦破案只能是虚构故事吗？

DPU芯片系列：

1. 造DPU芯片，如梦幻泡影？丨虚构短篇小说

2. 永远不要投资DPU？

3. DPU加持下的阿里云如何做加密计算？

4. 哎呦CPU，您可别累着，兄弟CIPU在云上帮把手

长文系列：

1. 我怀疑京东神秘部门Y，悟出智能供应链真相了

2. 超级计算机与人工智能：大国超算，无人领航

最后，再介绍一下主编自己吧，

我是谭婧，科技和科普题材作者。

为了在时代中发现故事，

我围追科技大神，堵截科技公司。

偶尔写小说，画漫画。

生命短暂，不走捷径。

原创不易，多谢转发

还想看我的文章，就关注“亲爱的数据”。

“重塑商汤研发体系”“动员整个公司”，我和商汤首席科学家王晓刚聊AI大模型...

猜你喜欢