Визуальное прочесывание роботом (Часть 2)

Оригинал | Робот Wen BFT 

03 

Кейс для роботов с трехмерным зрением

1. Бостонский атлас динамики

Atlas использует камеру глубины TOF для создания облака точек окружающей среды, которое представляет собой крупномасштабную коллекцию одометрических данных со скоростью 15 кадров в секунду. Программное обеспечение Atlas для восприятия использует алгоритм, называемый многоплоскостной сегментацией, для извлечения плоскостей из облаков точек. Входные данные для алгоритма многоплоскостной сегментации поступают в картографическую систему, которая строит модели для различных объектов, которые Atlas видит через камеру.

На приведенной ниже диаграмме показано видение Атласа и то, как это визуальное восприятие используется для планирования поведения. В верхнем левом углу — инфракрасное изображение, полученное камерой глубины. Белые точки на основном изображении образуют облако точек. Оранжевые контуры отмечают прямоугольные грани обнаруженных препятствий паркура, которые отслеживаются на основе наблюдений датчиков с течением времени. Эти обнаруженные объекты затем используются для планирования определенного поведения. Например, зеленые шаги показывают, куда прыгать дальше.

Рисунок: Восприятие глубины и принятие решений по концепции TOF

2. Тесла ОПТИМУС

Благодаря зрелой технологии визуального восприятия, накопленной в электромобиле FSD, 3D-сенсорный модуль робота Tesla в основном основан на многоглазом зрении с использованием трех камер автопилота в качестве системы восприятия.После сбора информации она обрабатывается с помощью мощного нейронная сеть и распознавание различных задач осуществляется полным набором компьютеров FSD, установленных в его грудной полости.

Рисунок: три изображения камер автопилота Теслы.

3. Сяоми КиберУан

Модуль глубинного видения Mi-Sense от CyberOne разработан Xiaomi совместно с OFILM. Поскольку информации о модуле глубинного зрения Mi-Sense не так много, его можно наблюдать с помощью модуля камеры машинного зрения собственной разработки OFILM. Модуль в основном состоит из модуля iToF, модуля RGB и дополнительного модуля IMU.Точность продукта достигает 1% в пределах диапазона измерения, а сценарии применения очень широки.Он может пройти стороннюю лабораторию IEC Сертификация 60825-1 и соответствие стандарту лазерной безопасности класса 1.

Рис.: Сенсорный модуль CyberOne

4. УОКЕР UBTECH Х

UBTECH WALKER X использует позиционирование стереозрения 3D на основе многоглазого датчика зрения, использует алгоритм многоуровневого планирования от грубого к точному, интерактивную навигацию AR в режиме реального времени с первого взгляда и технологию предотвращения препятствий 2,5D стерео, чтобы достичь самых глобальных результатов. динамическая сцена Автономная навигация по оптимальному пути. WALKER применяет алгоритм визуального SLAM, а технология визуального позиционирования достигла коммерческого уровня.

Рис. Приложение UBTECH WALKER для машинного зрения

04

 Мультимодальное роботизированное зрение GPT+, открывающее бесконечные возможности

После выпуска ChatGPT и GPT-4 глобальное внимание к OpenAI продолжает расти.

GPT-4 имеет мощные функции обработки текста и изображений, а будущий GPT-5 будет лучше работать в многомодальном понимании и может даже добавлять службы обработки аудио и видео. Ожидается, что в будущем мультимодальность будет широко использоваться в области зрения роботов.Ввод и вывод будут включать 3D-модели, которые, как ожидается, наделят роботов возможностями восприятия, регулирования и моделирования, а также улучшат эффективность производства 3D-моделей, помогая игровому контенту и созданию метавселенной.

Ожидается, что мультимодальная модель ИИ сможет взаимодействовать со всеми входными данными в реальном мире, что значительно улучшит возможности роботов-гуманоидов и ускорит популяризацию роботов-гуманоидов.

В настоящее время, хотя мультимодальная ТШП еще не полностью разработана и применена, аналогичные мультимодальные большие модели начали демонстрировать свою мощь, звуча громким призывом к мультимодальной ТШП.

1. Целевой ЗРК

Meta выпустила модель сегментации изображений AI Segment Anything Model, которая вводит парадигму оперативной обработки естественного языка в область компьютерного зрения и позволяет достичь точной сегментации изображения с помощью трех интерактивных режимов: щелчок, выбор кадра, и автоматическое распознавание, которое совершило прорыв.Эффективность сегментации изображений.

Джим Фан, специалист по искусственному интеллекту в Nvidia, сказал: «Для этого исследования Meta я думаю, что это один из моментов GPT-3 в области компьютерного зрения. Он понял общую концепцию объектов, даже для неизвестных объектов. , незнакомые сцены (например, подводные изображения) и неоднозначные ситуации также могут выполнять хорошую сегментацию изображения. Самое главное, модель и данные имеют открытый исходный код. ИМХО, Segment-Anything сделал все (сегментация) очень хорошо.

Таким образом, SAM доказывает мультимодальную технологию и ее способность к обобщению, а также дает рекомендации для будущего развития GPT в направлении мультимодальности.

Рисунок: Графическая нарезка SAM

2. Майкрософт КОСМОС-1

Microsoft запустила мультимодальную крупноязыковую модель KOSMOS-1, которая доказывает, что возможности больших языковых моделей могут быть расширены за пределы НЛП.

Модель обучается на мультимодальных данных, она может воспринимать различные модальные входные данные, такие как изображения и текст, и изучать контекст, чтобы генерировать ответы в соответствии с заданными инструкциями.

После тестирования и сравнения KOSMOS добился лучших результатов, чем другие предыдущие одномодальные модели, в таких задачах, как понимание языка, генерация языка, классификация текста без оптического распознавания символов, рассуждение на основе здравого смысла, тестирование IQ, описание изображений и классификация изображений с нулевой выборкой.

Эксперты протестировали различные возможности КОСМОС-1 и сравнили их с другими моделями ИИ, в том числе:

  • Языковые задачи: понимание языка, генерация языка, классификация текста без OCR (непосредственно понимать текст на картинке, не полагаясь на оптическое распознавание символов)

  • Кросс-модальная миграция: рассуждение на основе здравого смысла (например, вопрос о цвете объекта, вопрос о размере двух объектов, сравнение КОСМОС-1 с одномодальной большой языковой моделью и обнаружение того, что КОСМОС-1 выигрывает от визуальных знаний и может завершить более точные рассуждения)

  • Невербальное рассуждение: тест IQ (графическое рассуждение, как показано)

  • Задания на язык восприятия: генерация описания изображения, ответ на вопрос по изображению, ответ на вопрос веб-страницы

  • Зрительные задачи: классификация нулевого изображения, классификация нулевого изображения с описанием (как показано в задаче распознавания птиц)

Рисунок: Демонстрация различных возможностей КОСМОС-1, в том числе: (1-2) Визуальное объяснение (3-4) Наглядный ответ на вопрос (5) Ответ на вопрос веб-страницы (6) Простые математические уравнения (7-8) Распознавание чисел

05 

Взаимодействие между Robot Vision и Multimodal GPT

1. Роботизированное зрение предоставляет большое количество обучающих выборок для мультимодальной GPT.

Поскольку GPT является крупномасштабной моделью, для обучения модели требуется большое количество выборок, а передвигающиеся роботы могут получать большое количество изображений, видео и другой информации, которую можно использовать в качестве обучающих выборок для GPT.

Когда робот Tesla Optimus тренирует алгоритм зрения, используемый набор данных поступает из большого количества информации об изображениях, собранной беспилотными электромобилями Tesla.Размер выборки, полученный этим автоматическим вождением, намного больше, чем размер выборки, собранной вручную. Точно так же при обучении модели GPT информация об изображениях в различных ситуациях, собранная высокоавтоматизированными роботами, может использоваться в качестве обучающих образцов для удовлетворения требований модели GPT к крупномасштабным объемам данных.

2. GPT предоставляет роботам возможность взаимодействовать с людьми, косвенно увеличивая объем продуктов роботизированного зрения.

Основная эволюция, принесенная GPT роботам, - это способность понимать диалоги.Модель GPT-4 со способностью мультимодальной цепочки мышления обладает определенной способностью логического анализа и больше не является моделью аппроксимации словарной вероятности в традиционном смысле.

Доступ робота к GPT можно условно разделить на три уровня: L0~L2:

  • L0 подключен только к официальному API большой модели, вторичная разработка практически не проводилась, коэффициент сложности низкий;

  • L1 основан на доступе к большой модели в сочетании с пониманием сцены для удовлетворения потребностей разработки продукта, это пропускная способность;

  • L2 — это компания-робот, которая получает доступ к большой модели для вторичной разработки на основе местных знаний и даже получает свою собственную (полу) самостоятельную большую модель (гражданскую большую модель), решает проблему сцены, и продукт может быть изготовлен и продано, чтобы достичь линии совершенства.

Рисунок: Эмоциональное выражение робота Ameca, подключенного к GPT

Правильное использование GPT — это только часть технологии, и большая сложность заключается в самом роботе.

Если датчик самого робота не может получить максимально точную информацию о голосе, изображении, видео и другой информации, подключенной модели GPT будет сложно добиться желаемого эффекта. Несмотря на то, что доступ к интерфейсу приложения GPT является лишь вопросом времени, заложить хорошую основу для «тела» робота и дальнейших навыков стека по-прежнему сложно.Не у всех есть «билет» для запуска приложения большинство поставщиков передовых продуктов роботизированного зрения возьмут на себя инициативу на новом рынке роботов.

Ссылка на статью: Горячие инвестиционные исследования

РЕДАКТИРОВАТЬ: Робот BFT

Для более интересного контента, пожалуйста, обратите внимание на официальный аккаунт: BFT Robot
Эта статья является оригинальной статьей, авторские права принадлежат BFT Robot Если вам нужно перепечатать, пожалуйста, свяжитесь с нами. Если у вас есть какие-либо вопросы по содержанию этой статьи, пожалуйста, свяжитесь с нами, и мы оперативно ответим.

Supongo que te gusta

Origin blog.csdn.net/Hinyeung2021/article/details/131242702
Recomendado
Clasificación