原创 | 文 BFT机器人

03

机器人3D视觉应用案例

1.波士顿动力Atlas

Atlas 使用 TOF 深度相机以每秒 15 帧的速度生成环境的点云，点云是测距的大规模集合。Atlas 的感知软件使用一种名为多平面分割的算法从点云中提取平面。多平面分割算法的输入馈入到一个映射系统中，该系统为 Atlas 通过相机看到的各种不同对象构建模型。

下图显示了 Atlas 的视觉以及如何使用这种视觉感知来规划行为。左上角是深度相机拍摄的红外图像。主图像中的白点形成点云。橙色轮廓标记了检测到的跑酷障碍物的矩形面，随着时间的推移从传感器观察结果中对其进行跟踪。然后将这些检测到的对象用于规划特定行为。例如，绿色的脚步代表下一步要跳到哪里。

图：TOF视觉的深度感知与决策

2.特斯拉OPTIMUS

由于在电动车FSD积累的成熟的视觉感知技术，特斯拉机器人的 3D传感模块以多目视觉为主，使用三颗Autopilot摄像头作为感知系统，在采集信息后，通过强大的神经网络处理和识别不同任务，依靠其胸腔内部搭载的 FSD 全套计算机完成。

图：特斯拉的三颗Autopilot摄像头画面

3.小米CyberOne

CyberOne搭载的Mi-Sense深度视觉模组是由小米设计，欧菲光协同开发完成。由于Mi-Sense深度视觉模组的相关资料不多，所以可以从欧菲光自研的机器视觉深度相机模块进行观察。该模块主要由iToF模组、RGB模组、可选的IMU模块组成，产品在测量范围内精度高达1%，应用场景十分广泛，可通过第三方实验室IEC 60825-1认证，满足激光安全Class1标准。

图：CyberOne传感器模块

4.优必选WALKER X

优必选WALKER X采用基于多目视觉传感器的三维立体视觉定位，采用Coarse-to-fine的多层规划算法，第一视角实景AR导航交互及2.5D立体避障技术，实现动态场景下全局最优路径自主导航。WALKER应用视觉SLAM算法，视觉定位技术已经达到商用水平。

图：优必选WALKER的视觉应用

04

多模态GPT+机器人视觉，开启无限可能

在ChatGPT和GPT-4发布后，全球对于OpenAI的关注度持续提升。

GPT-4具备强大的文本和图像处理功能，而未来的GPT-5将在多模态理解方面表现更加出色，甚至能加入音频和视频的处理服务。未来多模态有望在机器人视觉领域得到广泛应用，输入输出将包括3D模型，有望赋能机器人感知、规控和仿真能力，也有望提高3D模型生产效率，助力游戏内容与元宇宙构造。

多模态AI模型有望具备与真实世界所有输入交互的能力，极大提升人形机器人的能力，加速人形机器人加速普及。

目前，虽然多模态GPT还未完全研发和应用，但类似的多模态大模型已经初显威力，吹响了多模态GPT的号角。

1.Meta SAM

Meta发布AI图像分割模型Segment Anything Model，该模型将自然语言处理领域的prompt范式引入计算机视觉领域，可以通过点击、框选和自动识别三种交互方式，实现精准的图像分割，突破性地提升了图像分割的效率。

英伟达人工智能科学家 Jim Fan 表示：「对于 Meta 的这项研究，我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念，即使对于未知对象、不熟悉的场景（例如水下图像）和模棱两可的情况下也能进行很好的图像分割。最重要的是，模型和数据都是开源的。恕我直言，Segment-Anything 已经把所有事情（分割）都做的很好了。」

所以，SAM证明了多模态技术及其泛化能力，也为未来GPT向多模态方向发展提供指引。

图：SAM的图形切割

2.微软 KOSMOS-1

微软推出多模态大语言模型 KOSMOS-1，印证大语言模型能力可延伸至 NLP 外领域。

该模型采用多模态数据训练，可感知图片、文字等不同模态输入，并学习上下文，根据给出的指令生成回答的能力。

经过测试比较，KOSMOS 在语言理解、语言生成、无 OCR 文本分类、常识推理、IQ 测试、图像描述、零样本图像分类等任务上都取得了相比之前其他单模态模型更好的效果。

专家测试了 KOSMOS-1 的不同能力，并分别与其他 AI 模型进行了对比，包括：

语言任务：语言理解、语言生成、无 OCR 文本分类（不依赖光学字符识别直接理解图中文本）
跨模态迁移：常识推理（如提问物体的颜色，问两个物体比大小，将 KOSMOS-1 和单模态的大语言模型比较，发现 KOSMOS-1 受益于视觉知识能完成更准确推理）
非语言推理：IQ 测试(如图中的图形推理)
感知-语言任务：图像描述生成、图像问答、网页问答
视觉任务：零样本图像分类、带描述的零样本图像分类(如图中的鸟类识别问题)

图：KOSMOS-1 的多种能力展示，包括：（1-2）视觉解释（3-4）视觉问答（5）网页问题解答（6）简单数学方程（7-8）数字识别

05

机器人视觉与多模态GPT之间的交互关系

1.机器人视觉为多模态GPT提供大量训练样本

由于GPT是大规模模型，模型的训练需要很大数量的样本，而四处活动的机器人可以获取大量图片、视频等信息，可以作为GPT的训练样本。

特斯拉的Optimus机器人在训练视觉算法时，采用的数据集来自于特斯拉自动驾驶电动车采集的大量图像信息，这些自动驾驶带来的样本量远大于人工采集的样本量。同理，训练GPT模型时，可以使用高度自动化的机器人采集的各种情形下的图像信息作为训练样本，满足GPT模型对大规模数据量的需求。

2.GPT为机器人提供与人类交互的能力，间接带动机器人视觉产品的起量

GPT为机器人带来的最核心的进化是对话理解能力，具备多模态思维链能力的GPT-4模型具有一定逻辑分析能力，已不再是传统意义上的词汇概率逼近模型。

机器人接入GPT的可以粗略分为L0~L2三个级别：

L0是仅接入大模型官方API，几乎没有做二次开发，难度系数较低；
L1是在接入大模型的基础上，结合场景理解满足需求做产品开发，这才达到及格线；
L2则是接入大模型的机器人企业基于本地知识做二次开发，甚至得到自己的（半）自研大模型（平民化大模型），解决场景问题，产品能做出来、卖出去，这才达到优秀线。

图：接入GPT的Ameca机器人的情绪表达

用好GPT只是技术的一部分，更大的难度在于机器人本身。

如果机器人本身的传感器不能获取最准确的语音、图片、视频等信息，接入的GPT模型就很难达到期望的效果。虽然接入GPT应用的接口只是一瞬间的事，但打好机器人“身体底子”、进一步叠技能却仍是一件难度较高的事，不是人人都具备“入场券”，能推出最先进的机器人视觉产品的厂商将在新机器人市场取得主动权。

文章参考：热点投研

编辑：BFT机器人

更多精彩内容请关注公众号：BFT机器人
本文为原创文章，版权归BFT机器人所有，如需转载请与我们联系。若您对该文章内容有任何疑问，请与我们联系，将及时回应。

机器人视觉梳理（下）

03

机器人3D视觉应用案例

04

多模态GPT+机器人视觉，开启无限可能

05

机器人视觉与多模态GPT之间的交互关系

猜你喜欢