Чтение мозга! Реализован метод построения видео высокой четкости из сигналов мозга, и Stable Dinfusion все еще можно использовать таким образом.


Источник Си Сяояо по обмену наукой и технологиями | автор кубита | Цзинь Лэй

Теперь ИИ может отображать информацию в человеческом мозгу с помощью видео высокой четкости!

Например, информация о красивых пейзажах, которыми вы наслаждаетесь, сидя за вторым пилотом, восстанавливается ИИ за считанные минуты:

Рыба в воде и лошади в прерии, которых я видел, не проблема:


Это последнее исследование, проведенное совместно Национальным университетом Сингапура и Китайским университетом Гонконга под названием MinD-Video.

Эта волна операций похожа на Люси, читающую память злодея из фантастического фильма «Супертело»:

Пользователи сети кричали:

Раздвигая границы искусственного интеллекта и нейронауки.

Стоит отметить, что Стабильная диффузия большого пожара также внесла большой вклад в это исследование.

Портал исследований и испытаний больших моделей

Портал ChatGPT (без стены, можно протестировать напрямую):

https://yeschat.cn

Портал GPT-4 (без стены, можно протестировать напрямую, в случае предупреждения браузера расширено/продолжить посещение):

https://gpt4test.com

Как ты сделал это?

Реконструкция зрительных задач человека по активности мозга, особенно неинвазивный метод функциональной магнитно-резонансной томографии (фМРТ), всегда привлекала больше внимания академического сообщества.

Потому что подобные исследования помогают понять наши когнитивные процессы.

Однако предыдущие исследования в основном были сосредоточены на реконструкции статических изображений, и работа, представленная в виде видео высокой четкости, все еще относительно ограничена.

Причина этого в том, что в отличие от реконструкции статической картины изменения в сценах, действиях и объектах, которые мы видим визуально, непрерывны и разнообразны.

Суть технологии фМРТ заключается в измерении сигналов, зависящих от уровня кислорода в крови (BOLD), и получении снимков активности мозга каждые несколько секунд.

Напротив, типичное видео содержит около 30 кадров в секунду.Если вы хотите использовать фМРТ для реконструкции 2-секундного видео, вам необходимо представить не менее 60 кадров.

Таким образом, задача этой задачи состоит в том, чтобы декодировать фМРТ и восстановить видео со скоростью FPS, намного превышающей временное разрешение фМРТ.

Чтобы преодолеть разрыв между декодированием изображения и видео мозгом, исследовательская группа предложила метод MinD-Video.

В целом, этот метод в основном включает в себя два основных модуля, которые обучаются отдельно, а затем совместно дорабатываются.

Модель постепенно учится на сигналах мозга, и в ходе нескольких этапов первого модуля можно получить более глубокое понимание семантического пространства.

В частности, мы сначала используем крупномасштабное неконтролируемое обучение и моделирование мозга по маске (MBM), чтобы изучить общие визуальные функции фМРТ.

Затем команда использовала мультимодальность помеченного набора данных для извлечения семантически релевантных признаков, обучая кодировщик фМРТ с использованием контрастного обучения в пространстве контрастного предобучения языка и изображения (CLIP).

Во втором модуле команда доработала изученные функции путем совместного обучения с расширенной версией модели стабильной диффузии, которая специально предназначена для создания видео с использованием методов фМРТ.

Используя этот метод, команда также сравнила многие предыдущие исследования, и ясно видно, что качество изображений и видео, созданных методом MinD-Video, намного превосходит другие методы.

Более того, в процессе непрерывной смены сцен также могут быть представлены непрерывные кадры высокой четкости и смысла.

Исследовательская команда

Одним из соавторов исследования является Цзыцзяо Чен, докторант Национального университета Сингапура, который в настоящее время работает в Университетской лаборатории мультимодальной нейровизуализации нейропсихиатрических расстройств (MNNDL_Lab).

Другой автор — Цзясинь Цин из Китайского университета Гонконга, специализирующийся на кафедре информационной инженерии.

Кроме того, соответствующим автором является Хуан Хелен ЧЖОУ, доцент Национального университета Сингапура.

Понятно, что это новое исследование является продолжением предыдущей работы их команды по реконструкции изображений фМРТ под названием MinD-Vis.

MinD-Vis был принят CVPR 2023.

Рекомендации

[1]https://mind-video.com/
[2]https://twitter.com/ZijiaoC/status/1660470518569639937
[3]https://arxiv.org/abs/2305.11675

Supongo que te gusta

Origin blog.csdn.net/xixiaoyaoww/article/details/130864599
Recomendado
Clasificación