Появляется чат в мире CV — Сегмент Все может разделить все

Введение

Сегодня я лично испытал Сегментировать что угодно, выпущенный метакомпанией. Мы думаем, что это chatgpt в мире cv. Эта модель настолько мощна, что может сегментировать любое изображение. Примеры на их веб-сайте также довольно сложны, что может проиллюстрировать ее мощь. возможность - демонстрационная ссылка , технологическая итерация искусственного интеллекта действительно слишком быстрая. Во введении к модели есть действительно удивительное предложение: «СЭМ усвоил общее понятие о том, что такое объект»:
вставьте сюда описание изображения

Принято считать, что искусственный интеллект можно условно разделить на три этапа:

(1) Слабый ИИ (Слабый ИИ)

Слабый ИИ, называемый умственно отсталым, относится к решению проблем в определенных областях в определенных сценариях. Например, AlphaGo, появившаяся некоторое время назад, реализовала искусственный интеллект в сфере Го.

(2) Сильный искусственный интеллект (общий ИИ)

Более подходящим переводом сильного искусственного интеллекта является общий искусственный интеллект, который представляет собой полный искусственный интеллект, представленный ChatGPT, тип искусственного интеллекта, который может адаптироваться к большинству или даже ко всем сферам человеческой деятельности. Можно сказать, что сейчас мы находимся на поворотном моменте в прорыве общей технологии искусственного интеллекта.

(3) Супер ИИ (Супер ИИ)

Как следует из названия, в настоящее время искусственный интеллект полностью превзошел людей в области «разума», определяемого людьми.С развитием таких технологий, как квантовые вычисления, считается, что это будет вопросом времени, прежде чем он станет осуществленный. Я очень надеюсь, что эта эра наступит позже, или в то время люди, возможно, слились с суперискусственным интеллектом и стали новым поколением сверхлюдей. Я также надеюсь, что в ту эпоху будет полностью осознана и нравственная сфера человека.

2. Некоторые знакомства с SAM

2.1 Какова структура модели?

  • Кодер изображений ViT-H, запускается один раз для каждого изображения и выводит встраивание изображения.
  • Кодировщик подсказок для встраивания подсказок ввода, таких как щелчок или поле
  • Облегченный декодер маски на основе преобразователя для прогнозирования масок объектов на основе вложений изображений и вложений подсказок.

2.2 Какие типы подсказок поддерживаются?

  • точка переднего/заднего плана
  • Ограничительная рамка
  • маска

2.3 Какая платформа используется в модели?

  • Кодер изображений реализован в PyTorch и требует GPU для эффективного вывода.
  • Кодировщик подсказок и декодер маски можно запускать непосредственно с помощью PyTroch или конвертировать в ONNX и эффективно работать на ЦП или графическом процессоре на различных платформах, поддерживающих среду выполнения ONNX.

2.4 Насколько велика модель?

  • Кодировщик изображения имеет 632M параметров.
  • Кодер подсказки и декодер маски имеют 4M параметров.

2.5 Сколько времени занимает вывод?

  • Кодировщик изображений занимает ~15 100 секунд на графическом процессоре NVIDIA A0. (Я не нашел этот GPU, сообщите мне об этом в разделе комментариев)
  • Кодировщик подсказок и декодер маски занимают ~ 50 мс на ЦП, используя многопоточное выполнение SIMD в браузере.

2.6 Сколько времени занимает обучение модели?

  • Модель обучалась 256-100 дней на 3 графических процессорах A5.

2.7 На каких данных обучается модель?

  • Модель обучается на наборе данных мета SA-1B.

2.8 Генерирует ли модель маскированные метки?

  • Нет, модель только предсказывает маски объектов и не генерирует метки.

3. Тест шахматного мата

Автор загрузил собственное изображение шахматной доски и протестировал его с помощью инструмента моделирования, предоставленного Segment Anything.Результаты тестирования показали, что шахматные фигуры на шахматной доске могут быть хорошо извлечены.

3.1. Загрузка изображения

вставьте сюда описание изображения

3.2. Ответ объекта мыши

После загрузки, после небольшого времени распознавания, наведите мышку на картинку, вы сможете ответить на шахматные фигуры выше, и, очевидно, шахматная доска автоматически разделится. Одна мощная вещь заключается в том, что он также распознает толщину шахматных фигур и считает их частью шахматных фигур.
вставьте сюда описание изображения

3.3 Карта вывода в один клик

Segment Anything обеспечивает ручной выбор кадра и функцию сегментации.Кроме того, есть замечательная функция для автоматической сегментации изображения: после нажатия на автоматическую сегментацию
вставьте сюда описание изображения
шахматные фигуры могут быть точно распознаны: после распознавания
вставьте сюда описание изображения
он автоматически вырежет разделенные объекты Есть 32 шахматные фигуры следующим образом:
вставьте сюда описание изображения

4. Тест спортивной сцены

Введите случайное изображение бадминтона:
вставьте сюда описание изображения

Результаты распознавания таковы:
вставьте сюда описание изображения
Что ж, признаю, что я далек от достижения вышеуказанного эффекта с opecv.

5. Постскриптум

Приведенные выше изображения шахмат и бадминтона на самом деле не являются сложными сценами, намного проще, чем изображения на его веб-сайте, но достаточно объяснить одну вещь, модель может быть компетентна для задач машинного зрения в нескольких областях или для резюме в различных областях. предоставить основные решения или идеи.

Supongo que te gusta

Origin blog.csdn.net/kanbide/article/details/130051453
Recomendado
Clasificación