Соперник Midjourney снова появляется! «Пользовательский мастер» Google StyleDrop взорвал кружок искусств ИИ

67b0fd0633bd7cd435820d3f43892b3a.gif

c858af34d02dbaf50cab6739a8944713.jpeg

Как только вышел Google StyleDrop, он моментально заполонил Интернет.

Учитывая звездное небо Ван Гога, ИИ воплощается как Мастер Ван Гог, и после понимания этого абстрактного стиля на высшем уровне он создал бесчисленное количество подобных картин.

3cfe152efa249dabd4815ddafb1f1ba5.png

Еще один мультяшный стиль, объекты, которые я хочу нарисовать, намного симпатичнее.

be3b9090c0484ab97f48cfc2e338c2a0.png

Даже он может точно контролировать детали и создавать оригинальный стиль логотипа.

0ce6f1d5f877683fbee493130ed98c5a.png

Прелесть StyleDrop в том, что в качестве референса нужна только одна картинка, какой бы сложный художественный стиль ни был, его можно разобрать и воспроизвести.

Пользователи сети говорят, что это инструмент искусственного интеллекта, который устраняет дизайнеров.

f5860dbc9876173b014facd4356ac3b0.jpeg

Взрывное исследование StyleDrop — это последний продукт исследовательской группы Google.

def8b490e295d59a92e6495f0d098069.png

Адрес статьи: https://arxiv.org/pdf/2306.00983.pdf

Теперь с такими инструментами, как StyleDrop, вы можете не только рисовать с большим контролем, но и выполнять ранее невообразимую тонкую работу, например рисовать логотип.

Даже ученые Nvidia назвали это «феноменальным» результатом.

7c2deb317fcc54d748394ff92561f71e.png

Мастер настройки


Автор статьи сообщил, что источником вдохновения для StyleDrop послужила Eyedropper (инструмент для поглощения/выбора цвета).

Точно так же StyleDrop также надеется, что вы сможете быстро и без усилий «выбрать» стиль из одного или нескольких эталонных изображений, чтобы создать изображение этого стиля.

e50fac5df27e0a88557737d290ae78c8.png

У ленивца может быть 18 стилей:

7e9ca4255de528a6f559730250299a2b.png

У панды 24 стиля:

6c0d959fbaf4358ff4c250a01fceb190.png

Акварель, нарисованная детьми, отлично контролировалась StyleDrop, и даже морщины на бумаге были восстановлены.

Должен сказать, это слишком сильно.

aa5e13d43d8c4cf70df76150be5c6e28.png

Также есть StyleDrop, относящийся к оформлению английских букв в разных стилях:

f5337e1b4f7341119a9d28bd269380b5.png

То же самое письмо стиля Ван Гога.

eb813b621bc1d0bc37d7334783281174.png

Есть и линейные рисунки. Штриховой рисунок представляет собой высокий уровень абстракции изображений, и к нему предъявляются очень высокие требования к рациональности композиции экранной генерации.Прошлые методы были трудновыполнимы.

a99fa0a0ea701d4c64b976ecb9826b33.png

Штрихи сырной тени на исходном изображении восстанавливаются для объектов на каждом изображении.

389d6d4bff60d12845ed138b9bfb1a7a.png

См. Создание логотипа Android.

0e8ea7060a4d69c3ce0622d66fdd0685.png

Кроме того, исследователи также расширили возможности StyleDrop не только для настройки стиля в сочетании с DreamBooth, но и для настройки контента.

Например, еще в стиле Ван Гога сгенерируйте подобный стиль рисования для корги:

308c91f95f5ceeac37f0385c7bda277a.png

Вот еще один, корги внизу имеет ощущение «Сфинкса» на египетской пирамиде.

f8d87d4b98e425891a461d7780f94c1e.png

как работать?


StyleDrop построен на основе Muse и состоит из двух ключевых частей:

Один из них — эффективная тонкая настройка параметров сгенерированного визуального преобразователя, а другой — итеративное обучение с обратной связью.

После этого исследователи синтезировали изображения из двух точно настроенных моделей.

Muse — это современная модель синтеза текста в изображение, основанная на преобразователе изображений, сгенерированном по маске. Он содержит два модуля синтеза для генерации базового изображения (256 × 256) и сверхвысокого разрешения (512 × 512 или 1024 × 1024).

03e9e7a9852c574c5eeff5c17d7bb0fa.png

Каждый модуль состоит из кодировщика текста T, преобразователя G, сэмплера S, кодировщика изображений E и декодера D.

T отображает текстовые подсказки t ∈ T в непрерывное пространство вложения E. G обрабатывает вложения текста e ∈ E для генерации логарифмов l ∈ L последовательностей визуальных токенов. S извлекает последовательность визуальных маркеров v ∈ V из логарифма с помощью итеративного декодирования, которое выполняет несколько шагов вывода преобразователя, обусловленного текстовым вложением e и визуальными маркерами, декодированными на предыдущих шагах.

Наконец, D отображает дискретную последовательность токенов в пространство пикселей I. В общем, при наличии текстовой подсказки t изображение I синтезируется следующим образом:

cf8c0e60e24cb8763069d8521676637d.png

На рис. 2 представлена ​​упрощенная архитектура уровня преобразователя Muse, которая была частично изменена для поддержки эффективной точной настройки параметров (PEFT) и адаптеров.

Последовательность визуальных токенов, показанных зеленым цветом, обусловленная встраиванием текста e, обрабатывается с помощью преобразователя L-слоя. Изученные параметры θ используются для построения весов для настройки адаптера.

46656d686b62caa9269cf5ec1ca9366c.png

Для обучения θ во многих случаях исследователям могут быть предоставлены только изображения в качестве эталонов стиля.

Исследователям необходимо вручную прикреплять текстовые подсказки. Они предлагают простой шаблонный подход к созданию текстовых подсказок, состоящих из описания содержимого, за которым следует фраза, описывающая стиль.

Например, исследователи описывают объект словом «кошка» в таблице 1 и добавляют «акварельную живопись» в качестве описания стиля.

5ef08e767e111e75fe813a55aeb106d0.png

Включение описания содержания и стиля в текстовые подсказки имеет решающее значение, поскольку помогает отделить содержание от стиля, что является основной целью исследователей.

На рис. 3 показано итеративное обучение с обратной связью.

При обучении на одном эталонном изображении стиля (оранжевая рамка) некоторые изображения, сгенерированные StyleDrop, могут отображать содержимое, извлеченное из эталонного изображения стиля (красная рамка, изображение с домом, похожее на изображение стиля на заднем плане).

Другие изображения (синие прямоугольники) лучше отделяют стиль от содержания. Итеративное обучение StyleDrop на хороших примерах (синие прямоугольники) приводит к лучшему балансу между стилем и точностью текста (зеленые прямоугольники).

d12a1506a1b0db288c1f70551ef499c6.png

Здесь исследователи также использовали два метода:

-CLIP оценка

Этот метод используется для измерения выравнивания изображений и текста. Следовательно, он может оценивать качество сгенерированных изображений путем измерения показателя CLIP (т. е. косинусного сходства визуальных и текстовых вложений CLIP).

Исследователи могут выбрать изображение CLIP с наивысшим баллом. Они называют этот метод итеративным обучением с обратной связью CLIP (CF).

В ходе экспериментов исследователи обнаружили, что использование оценки CLIP для оценки качества синтетических изображений является эффективным способом улучшить запоминание (то есть точность текста) без слишком большой потери точности стиля.

Однако, с другой стороны, оценки CLIP могут не полностью соответствовать человеческим намерениям и не отражать тонкие стилистические атрибуты.

-ВЧ

Человеческая обратная связь (HF) — это более простой способ прямого внедрения намерений пользователя в синтетическую оценку качества изображения.

HF доказал свою мощь и эффективность в тонкой настройке LLM для обучения с подкреплением.

HF можно использовать для компенсации неспособности оценок CLIP фиксировать тонкие стилистические атрибуты.

В настоящее время большое количество исследований сосредоточено на проблеме персонализации моделей диффузии текста в изображение для синтеза изображений, содержащих несколько личных стилей.

Исследователи показали, как простым способом объединить DreamBooth и StyleDrop, что позволяет персонализировать как стиль, так и контент.

Это делается путем выборки из двух модифицированных генеративных распределений, руководствуясь θs для стиля и θc для контента, соответственно, параметры адаптера обучаются независимо от эталонных изображений стиля и контента.

В отличие от существующих готовых продуктов, командный подход не требует совместного обучения обучаемых параметров на нескольких концепциях, что приводит к большей комбинаторной мощности, поскольку предварительно обученные адаптеры отдельно обучаются одной теме и стилю обучения.

Общий процесс выборки исследователей следует итеративному декодированию уравнения (1), при этом логарифмы выбираются по-разному на каждом этапе декодирования.

Пусть t — текстовая подсказка, а c — текстовая подсказка без дескриптора стиля, а логарифм вычисляется на шаге k следующим образом:

0db9c51681bdc19ff3e94c56f4f0e943.png

72c7ae632d0572f157eef92008fa2d8a.png

Где: γ используется для балансировки StyleDrop и DreamBooth — если γ равно 0, мы получаем StyleDrop, если γ равно 1, мы получаем DreamBooth.

Установив разумно γ, мы можем получить подходящее изображение.

настройки эксперимента

До сих пор не было проведено никаких обширных исследований по настройке стиля для генеративных моделей преобразования текста в изображение.

Поэтому исследователи предложили новый экспериментальный протокол:

-Сбор данных

Исследователи собрали десятки изображений в разных стилях, начиная от акварельных и масляных картин, плоских иллюстраций, 3D-рендеринга и заканчивая скульптурами из разных материалов.

-конфигурация модели

Исследователи настроили StyleDrop на базе Muse с помощью адаптеров. Для всех экспериментов веса адаптера обновлялись для 1000 шагов с использованием оптимизатора Adam со скоростью обучения 0,00003. Если не указано иное, исследователи используют StyleDrop для обозначения модели второго этапа, обученной на более чем 10 синтетических изображениях с обратной связью от человека.

-Оценивать

Количественная оценка отчетов об исследованиях основана на CLIP, который измеряет стилистическую согласованность и выравнивание текста. Кроме того, исследователи провели исследование предпочтений пользователей, чтобы оценить согласованность стиля и выравнивание текста.

Как показано на рисунке, 18 изображений разных стилей, собранных исследователями, являются результатом обработки StyleDrop.

Как видите, StyleDrop способен улавливать нюансы текстуры, оттенка и структуры в различных стилях, обеспечивая больший контроль над стилем, чем раньше.

cb471e5f4e574df2390a550a8555cc2f.png

Для сравнения исследователи также представляют результаты DreamBooth на Imagen, реализацию DreamBooth LoRA на Stable Diffusion и результаты инверсии текста.

7f74029ae6f13f55ab1a5c30e906577a.png

Конкретные результаты показаны в таблице, индикаторы оценки человеческой оценки (вверху) и оценки CLIP (внизу) выравнивания изображения и текста (Текст) и выравнивания визуального стиля (Стиль).

6937841e39a6a56e91707cc1848ee3dd.png

Качественное сравнение (а) DreamBooth, (б) StyleDrop и (в) DreamBooth + StyleDrop:

a892afa6f661727f55c7edc139fbc4ef.png

Здесь исследователи применили две упомянутые выше метрики оценки CLIP — оценки текста и стиля.

Для оценки текста исследователи измеряют косинусное сходство между встраиванием изображения и текста. Для оценки стиля исследователи измеряют косинусное сходство между ссылкой на стиль и встраиванием синтетического изображения.

Исследователи создали в общей сложности 1520 изображений для 190 текстовых реплик. Хотя исследователи надеялись, что итоговый балл будет выше, на самом деле эти показатели не идеальны.

А итеративное обучение (ИТ) улучшает оценку текста, что соответствует цели исследователей.

Однако в качестве компромисса они страдают от снижения оценок стиля на моделях первого прохода, поскольку они обучаются на синтетических изображениях, где стили могут быть смещены из-за предвзятости выбора.

DreamBooth на Imagen уступает StyleDrop по показателю стиля (0,644 против 0,694 для HF).

Исследователи заметили, что увеличение оценки стиля DreamBooth на Imagen было незначительным (0,569 → 0,644), в то время как увеличение StyleDrop на Muse было более очевидным (0,556 → 0,694).

Исследователи проанализировали, что тонкая настройка стиля в Muse более эффективна, чем в Imagen.

Кроме того, для точного управления StyleDrop фиксирует тонкие стилистические различия, такие как изменение цвета, слои или острые углы.

44035c98b27b22120db46df42e83bf43.png

Горячие комментарии пользователей сети.


Если у дизайнеров есть StyleDrop, эффективность работы уже увеличилась в 10 раз.

2928066a81a1d62b66924b3ae7c0a1fb.png

Один день в ИИ, 10 лет в мире, AIGC развивается со скоростью света, скоростью света, которая ослепляет людей!

bfa72c3053319e980492383ffb674365.png

Инструменты просто следуют за тенденцией, а то, что должно быть устранено, уже устранено.

59cb55ab2adb798c9157b0efbac0627d.png

Этот инструмент намного лучше, чем Midjourney для создания логотипа.

329e8327c9b1efc552ff639fff40c7c1.png

Использованная литература:

https://styledrop.github.io/

Бэббит Парк открыт для сотрудничества!

c47aaf56a11b195a354f63493446eccc.png

bb2cfd5d08116c516ee3a05e6293aae1.jpeg

fbd8a9f48919aebdd78dde0af85d045e.gif

Китайский Твиттер: https://twitter.com/8BTC_OFFICIAL

Английский Твиттер: https://twitter.com/btcinchina

Дискорд-сообщество: https://discord.gg/defidao

Telegram-канал: https://t.me/Mute_8btc

Сообщество Telegram: https://t.me/news_8btc

8d7613afbd3db42520b95655ed296ff6.jpeg

Supongo que te gusta

Origin blog.csdn.net/weixin_44383880/article/details/131039386
Recomendado
Clasificación