По незнанию прошел месяц с тех пор, как GPT-4 впервые стал общедоступным.
В этот период многие люди получили разрешение API GPT-4, открыли ChatGPT Plus и заранее испытали возможности GPT-4.
Все без исключения люди были глубоко впечатлены мощным логическим анализом GPT-4 и общими возможностями планирования.
Будь то написание бумаги, кодирование или анализ данных, GPT-4 показал потрясающую производительность.
Однако не забывайте, что GPT-4 — это мультимодальная модель большого языка, которая может не только генерировать текстовый контент, но и понимать входное изображение, позволяя пользователям напрямую общаться с изображениями.
Месяц назад OpenAI продемонстрировал внешнему миру, как GPT-4 может напрямую генерировать веб-сайт с помощью нарисованных от руки эскизов, что в то время ошеломило многих зрителей.
Мало того, он также может понимать шутки по изображению, определять математические задачи и давать ответы по очереди.
Мне всегда кажется, что диалоги изображений — это действительно захватывающая часть GPT-4. Но, к сожалению, эта функция до сих пор не открыта для публики.
За исключением нескольких компаний, таких как Be My Eyes и Khan Academy, которые наладили сотрудничество с OpenAI, большинство людей могут испытать только возможности текстового диалога GPT-4.
Первоначально я думал, что смогу испытать эту функцию, только дождавшись выпуска обновления OpenAI, но я не ожидал найти такой проект сегодня.
Проект под названием MiniGPT-4 был выполнен несколькими докторами наук из Университета науки и технологий имени короля Абдуллы.
Он может обеспечивать понимание изображений и диалоговые возможности, аналогичные GPT-4, позволяя вам почувствовать всю мощь диалогов с изображениями на шаг впереди.
GitHub: https://github.com/Vision-CAIR/MiniGPT-4
Онлайн-опыт: https://minigpt-4.github.io/
По мнению авторов проекта, ГПТ-4 достигает многого