让机器人飞入寻常百姓家丨青源Workshop「人形机器人」观点集锦

人形机器人并非新事物，早在上世纪70年代，日本早稻田大学加藤一郎就带领团队研发出世界上第一台人形智能机器人——WABOT-1。而去年马斯克Optimus的发布，也对“机器人热”再度推波助澜。人形机器人领域的发展，需要软件和硬件的共同迭代和优化，同时相比于无人驾驶，人形机器人涉及更加复杂的真实世界多模态环境。机器人技术依赖于机械控制、自动化、机器视觉、高精度定位、场景建模、导航与决策等基础，形成了极为复杂的技术体系。

同时对于普通用户来讲，人形机器人究竟多久从实验室走入千家万户？让机器人辅助倒咖啡、从事家居服务、甚至为人类提供情感陪伴，是否能成为未来真正的刚需？

上周的「人形机器人」青源Workshop上，与会专家就人形机器人前沿进展进行了深入探讨，以下为观点集锦，供读者参考（扫码文末二维码或点击阅读原文，下载完整版观点集锦）

报告目录

◆ 清华大学陈建宇：构建人形通用智能机器人

◆ 达闼机器人王斌：云网端融合的具身智能人形机器人

◆ 香港城大殷鹏：从无人驾驶到人形机器人落地的思考

研讨嘉宾名单（无先后顺序）

眭亚楠丨清华大学副教授

殷鹏丨香港城市大学助理教授、前卡内基梅隆大学项目科学家

高阳丨清华大学交叉信息研究院助理教授

王斌丨达闼机器人股份有限公司副总裁

陈建宇丨清华大学交叉信息研究院助理教授、星动纪元创始人

赵行丨清华大学交叉信息研究院助理教授

车万翔丨哈尔滨工业大学教授

青源Workshop丨No.24

人形机器人主题研讨会

构建人形通用智能机器人

陈建宇丨清华大学交叉信息研究院助理教授、星动纪元创始人

ChatGPT 的强大能力有目共睹，然而要解放语言大模型的能力还需要将其与物理载体（机器人）结合起来，赋予它手、脚、眼睛、耳朵。我们认为，机器人的形态越接近人类，其通用性可能越高。

我们期望，人形机器人可以前往所有人类可以到达的场所，做到人类所有可以做的事情，包括运动、感知、导航、操作物体等。

为了实现上述功能，从硬件和软件上说，人形机器人研发遭遇了前所未有的挑战。同时，人形机器人强大、全面的功能也解锁了广阔的商业应用空间，有望定义新的商业生态。就专用机器人而言，面对新的应用场景，需要重新研发新的硬件和软件。而就人形机器人而言，随着技术的积累，其软硬件可以复用，面临新业务可以节省较大的成本。

硬件技术路线

目前，人形机器人硬件整体构造的技术路线主要包含 4 类：（1）传统工业机械臂的方案（2）液压方案（3）串联弹性制动器（3）本体感知驱动器的方案

将继承自工业机器人本体构建的技术直接应用到人形机器人的研发具有诸多缺陷，无法满足个性化的需求。实际上，波士顿动力和 ETH 提出的方案面临着成本较高或动态性能不够好的问题，大多数成功商业化的案例采用的是 MIT 的技术路线，比如现在市面上的四足机器人。

基于本体感知驱动器的机器人路线兼具高性能和低成本的特性，促成了四足机器人的商业化落地，这种四足机器人可以较快地奔跑，完成空翻、跳跃等动作。然而，人形机器人的重量远远大于四足机器人，其关节的自由度也更高，需要用两条腿支撑起整个机器人的身体。直到今年年初，基于这种方案的人形机器人硬件技术路线才被打通。

陈建宇博士团队目前已开发出了五款用于人形机器人的本体感知制动器模组，包括高扭矩密度电机、行星齿轮减速器。目前，星动纪元研发的「小星」系列机器人已经迭代到第三代，已展现了户外陪伴、家居服务等功能演示。

软件技术路线

用于人形机器人的软件技术路线经过了三个阶段的发展：

（1）简化模型+基于规则的控制（LIPM+ZMP）。该方案易于实现，但是机器人的步态并不自然，只能进行周期性的行走；

（2）动力学模型+数值优化。该方案支持更多的动作，但是难以对复杂的环境和机器人模型进行建模和优化；

（3）物理仿真+强化学习。该方案可以与复杂环境交互，用仿真代替了建模，可以通过神经网络学习代替在线的优化。

陈建宇博士团队将人体运动数据作为参考运动数据，将模仿学习和强化学习相结合，引导机器人更好地学会自然的控制策略。同时，他们也使用强化学习技术尝试挖掘机器人的极限运动性能，使其胜任具有挑战性的任务。

有关双臂灵巧手的研究是人形机器人特有的研究领域，旨在探究如何同时控制两个手臂完成较为复杂的任务。我们很难通过传统方法对这种复杂的物理过程建模、优化，通常采用基于强化学习的方法，进行大规模的并行训练。目前，陈建宇博士团队的机器人已经可以完成传递物品、托举、开门等双臂动作。

去中心化手腿协同训练

对于人形机器人而言，结合手部操作和腿部移动，实现手腿协同是重要的研究方向。人形机器人可以在行走的过程中做出很多不同的手部操作。目前，中心化的训练框架会同时将所有环节的信息输入，直接输出所有控制量，而此时机器人做出的某些动作会影响整体的稳定性。

为此，陈建宇博士团队在论文《Decentralized Motor Skill Learning for Complex Robotic Systems》中提出了一种用于复杂机器人系统的去中心化运动学习框架。他们的方案可以让机器人自动判断在做出某些动作时，需要解耦或耦合的部分，可以在稳定移动的同时完成手部操作。

将语言模型用于机器人任务

目前，有研究探究通过 Transformer 模型将任务规划和运动执行结合，即融合机器人的「大脑」和「小脑」。仅仅从算力层面上来说，机器人「大小脑」的融合难度较大。在论文《DoReMi:Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment》中，陈建宇博士团队利用大语言模型进行顶层的任务规划，再利用强化学习模块进行底层的控制器执行。他们引入了一个通用的「视觉-语言」模型，将其作为约束，实时监控下层任务的执行，反馈检测结果，并在出现问题时重新进行任务规划。

在论文《Asking Before Action:Gather Information in Embodied Decision Making with Language Models》中，陈建宇博士团队赋予机器人「提出问题」的动作，使其不仅可以调用语言模型，还可以通过与具有「上帝视角」的另一个语言模型主动对话，从而获取更多的信息，对机器人的语言模型进行微调，增强其功能。

扫码下方二维码，下载完整版观点集锦

让机器人飞入寻常百姓家丨青源Workshop「人形机器人」观点集锦

猜你喜欢