От данных к применению больших моделей: 25 ноября в Ханчжоу прошла конференция Yuanchuang, на которой были обменяны советами по разработке.

Автор | Тяньбао

Введение

С 2023 года технология AIGC породила новую волну искусственного интеллекта. Живопись с помощью искусственного интеллекта, как одна из наиболее привлекательных областей применения крупных моделей, также добилась серьезных прорывов в последние годы. Система рисования AI может генерировать изображения различных стилей на основе пользовательского ввода или подсказок, что предоставляет мощные инструменты для художников, дизайнеров и создателей, а также открывает новые возможности в области цифрового творчества.

Недавно Тяньбао, главный архитектор Baidu Search, был приглашен принять участие в диалоговой программе «Geeks Meet» известного технологического СМИ InfoQ и провел углубленное обсуждение с ведущим и аудиторией технологий генерации изображений, в том числе сценарии применения поиска Baidu и связанных с ним технологий.Мышление и опыт применения в сценариях поискового бизнеса.

В этой статье подробно описаны интервью.

Полный текст составляет 10 034 слова, предполагаемое время чтения — 26 минут.

Основные моменты:

1. Это огромное изменение. От прошлого, когда пользователи искали изображения по всему Интернету, к сочетанию поиска изображений и создания изображений для удовлетворения более конкретных потребностей пользователей. Это также побуждает пользователей быть более активными в отношении определенных выражать свои истинные потребности.

2. Чтобы модель лучше понимала китайский язык, очень важно подготовить и очистить корпус, связанный с китайской семантикой.

3. Возможность удалять образцы низкого качества и создавать образцы высокой ценности необходима для выравнивания изображения и текста.

4. Поиск Baidu должен удовлетворять разнообразные потребности пользователей с точки зрения содержания и стиля. В настоящее время поиск Baidu поддерживает тысячи различных определений стилей изображений.

5. Следуйте эстетическим стандартам и формируйте свое собственное эстетическое познание. Будь то общее построение модели или оптимизация алгоритма, соответствующие рекомендации и оценка должны осуществляться в соответствии с этими передовыми стандартами.

01 Процесс технической разработки диаграмм Винсента

Модератор: Начиная с сентября прошлого года AIGC и по сей день, мы можем наблюдать появление множества моделей и компаний. С самого начала все использовали Stable Diffusion для создания простых изображений, позже стали использовать некоторые другие методы генеративного редактирования изображений.Позже Adobe Photoshop даже поддерживал использование естественного языка для изменения изображений. Я думаю, что есть более интересные области применения, помимо достижений AIGC в создании текста, которые я видел раньше. Помимо создания изображений, он также может генерировать видео и аудио. Недавно я также увидел несколько потрясающих генеративных видеопродуктов. Сегодня я хотел бы попросить Учителя Тяньбао представить вам текущую общую тенденцию развития технологии винсентианских графов.

TianBao : 2022 год можно считать первым годом Wenshengtu. Обычно его разделяют на жанр с открытым исходным кодом, представленный Stable Diffusion, и модель с закрытым исходным кодом, представленную Midjourney, Adobe's Firefly и Dall-E 3. Причина, по которой этот год стал первым, заключается в Disco Diffusion. Основная цель Disco Diffusion — создание ландшафтных произведений, таких как пейзажи. Пейзажные сцены — это сцены с относительно высоким уровнем отказоустойчивости, сочетающиеся с визуально эффектными цветами и художественной фактурой. Это очень смелый шаг с конца 2021 года к началу. 2022 года. Очень потрясающая попытка.

До февраля 2022 года Midjourney выпустила версию v1. Общий эффект v1 просто потрясающий, но его производительность при создании портретов далека от удовлетворительной. Лишь в середине июля того же года Midjourney v3 смогла нормально генерировать обычные портреты. В августе работа «Космическая опера» была создана с помощью Midjourney v3 в сочетании с постобработкой в Photoshop, благодаря чему Midjourney успешно произвела фурор.

Это событие с открытым исходным кодом стало важной вехой, поскольку с тех пор все больше пользователей, таких как Station C, начали стекаться в область децентрализованных моделей и оптимизации. С развитием технологий с открытым исходным кодом вся экосистема, включая последующие приложения, пережила взрывной рост и появление. С тех пор технологические достижения и разработка последующих приложений продолжали усиливать друг друга.

02 Исследование и результаты Baidu Wenshengtu

Модератор : Начиная с сентября прошлого года AIGC и по сей день мы видим появление множества моделей и компаний. С самого начала все использовали Stable Diffusion для создания простых изображений, позже стали использовать некоторые другие методы генеративного редактирования изображений.Позже Adobe Photoshop даже поддерживал использование естественного языка для изменения изображений. Я думаю, что есть более интересные области применения, помимо достижений AIGC в создании текста, которые я видел раньше. Помимо создания изображений, он также может генерировать видео и аудио. Недавно я также увидел несколько потрясающих генеративных видеопродуктов. Сегодня я хотел бы попросить Учителя Тяньбао представить вам текущую общую тенденцию развития технологии винсентианских графов.

Я еще примерно помню, что первоначальный эффект Stable Diffusion был не очень хорошим, например, при попытке создать портрет было много искаженных результатов, например, человек с тремя ногами или несколькими глазами. Со временем эта технология постепенно стала более реалистичной. В то же время также появились технологии искусственного интеллекта, такие как Civitai, позволяющие людям создавать различные сцены на основе своих изображений, например, популярная серия Genshin Impact. Развитие этой технологии создания изображений привело к появлению множества приложений. Например, в карточных играх оригинальные художники могут использовать эту технологию для создания игровых компонентов. Как в приложениях национального уровня, таких как поиск Baidu, изображения Винсента интегрируются со сценами? Вначале я понимаю, что это может быть в окне поиска, и пользователи смогут найти похожие изображения после ввода ключевых слов, но я думаю, что у вас будет больше разных нововведений.

**ТяньБао **: На заре Baidu также предприняла несколько попыток создания изображений AIGC. Как только что обсуждалось с вами, технология диаграмм Винсента постепенно стала пригодной для использования по сравнению с первоначальными результатами, которые были непригодны для использования, и может дать волю воображению, создавая привлекательный визуальный эффект.

При поиске пользователи, которые ранее хотели найти изображение, обычно выполняли текстовый поиск. Например, кот в темных очках и шляпе, делающий сердитые жесты, — это картинка, которую пользователи рисуют в своем воображении. Обычно они могут только искать по всей сети, чтобы найти контент, который был создан и воспринят. Но для некоторых более конкретных сцен, таких как кошки, делающие злые жесты и носящие специальную одежду, если никто во всей сети не будет создавать такие изображения, удовлетворение потребностей пользователей будет ограничено, в результате чего потребности перерастут в поиск разгневанного кота. После этого они обратятся к просмотру потребностей, пытаясь увидеть, есть ли в сети такие же злые кошки, которые удовлетворяли бы их потребности.

Однако благодаря быстрому развитию генеративных технологий у нас теперь есть возможность конкретно представлять изображения в сознании пользователя для удовлетворения его потребностей. Мы преобразовали поисковые потребности пользователей в комбинацию поиска изображений и генерации изображений для удовлетворения более конкретных потребностей пользователей. Это также побуждает пользователей в определенной степени более активно выражать свои реальные потребности. Что касается продуктов, пользователи могут выполнить поиск «нарисовать злого кота» или «нарисовать картинку» через приложение Baidu, а затем перейти на соответствующую функциональную страницу Wen Sheng Tu, где каждый сможет испытать это на себе.

Поиск изображения — это первый шаг в вашем поиске. В области изображений многим создателям сначала необходимо найти изображение, соответствующее их потребностям, а затем им может понадобиться использовать это изображение в качестве аватара, использовать его в качестве творческого материала или использовать в своей работе. Поэтому в процессе генерации мы добавляем работы по редактированию, такие как закрашивание и закрашивание. Например, если на изображении изображен кот в шляпе, посредством естественного языкового взаимодействия мы можем заменить кошку собакой, тем самым увеличивая возможность повторного использования изображения. Обычно это включает в себя большую предварительно обученную модель на основе графов Винсента для редактирования изображений.

В целом первоначальный поиск изображений превратился в процесс «поиска изображений» плюс «генерации изображений», а затем переход ко второму этапу, который представляет собой использование изображений для удовлетворения потребностей пользователей в области изображений.

03 Практика и проблемы диаграмм Винсента

Модератор : Похоже, это очень интересный сценарий применения, потому что много раз, например, когда я создавал PPT, мне нужно было найти изображения, которые могли бы соответствовать моим воображаемым сценам, например, сценам использования продуктов покупателями или фотографиям определенная отрасль. Однако я не хочу нарушать авторские права или избегать споров, связанных с различными источниками изображений. В этом случае возможность найти изображение и выполнить на этой основе модификацию зарисовки, завершение границ и даже обработку изображения со сверхвысоким разрешением на самом деле является очень практичным сценарием применения.

Посторонние могут подумать, что мы поддерживаем только некоторые базовые функции создания и редактирования изображений, такие как генерация, простое редактирование, расширение границ и завершение изображений с высоким разрешением. Но на самом деле, насколько я понимаю, эта технология довольно сложна в контексте Китая. Большинство моделей обычно обучаются в англоязычном контексте, особенно для китайской культуры и семантических сценариев, а их исходные корпуса в основном англоязычные. Однако, будучи гигантом в области китайских поисковых систем, Baidu приходится иметь дело с китайским, английским и даже некоторыми диалектами.

TianBao : Как крупнейшая китайская поисковая система, Baidu имеет большие преимущества в понимании китайского языка, включая понимание уникальных китайских элементов, китайских выражений и диалектов. Чтобы модель могла лучше понимать китайский язык, подготовка и очистка корпуса, связанного с китайской семантикой, очевидно, является обязательным шагом.

В области поиска у нас есть возможность воспринимать наиболее полный корпус китайского языка во всем Интернете, что является естественным преимуществом. Но кроме того, для лучшего понимания семантики общей модели также необходимы очистка выборки, более полный охват знаний и получение более разнообразных качественных выборок. В то же время, если мы хотим, чтобы изображения, создаваемые моделью, были более высокого качества, нам необходимо учитывать качество изображения и эстетические факторы, такие как очевидные характеристики объектов на изображении и точное представление эстетического стиля. Кроме того, требуется также обработка дедупликации, что требует поддержки базовых возможностей оператора.

Поэтому для очистки инфраструктуры базовых операторов также является очень важной задачей. Baidu имеет многолетний опыт базового уровня системы характеристики изображений, поэтому мы можем быстро организовывать и фильтровать образцы на основе различных целей модели, основываясь на преимуществах собранных данных. Например, нам нужны лучшие семантические выборки, нам нужно добиться сбалансированной выборки и накопить образцы с разными уровнями качества и эстетики, включая некоторые портреты или специальные концепции ИС. Мы быстро изучаем эти образцы и затем применяем их к модели.

Модератор : Для генерации больших моделей изображений, с одной стороны, в процессе обучения нам необходимо подготовить качественные наборы данных и заложить хорошую основу. С другой стороны, при их использовании пользователи могут предоставлять различные сложные описания. Например, для описания чашки пользователи могут добавлять множество прилагательных, таких как высокий, прозрачный, синий, содержащий сверчок и т. д. Эти дескрипторы могут выходить за рамки длина токена, поддерживаемая стандартной моделью. Особенно в китайском контексте описание пользователя может быть длиннее, как то, что вы только что упомянули: кот в шляпе, стоящий на вершине горы, дует северо-западный ветер и падают снежинки. В этом случае сложно ли иметь дело с изображениями с множеством дескрипторов и прилагательных?

ТяньБао : Это очень хороший вопрос. Качество сочетания изображения и текста очень важно. В настоящее время всех в основном беспокоит Laion-5b с открытым исходным кодом, английская модель, содержащая 5 миллиардов образцов, в основном основанная на английских наборах данных, а китайских данных относительно мало. В то же время в этом наборе данных мы также наблюдали множество проблем с нерелевантными парами изображение-текст, которые могут быть вызваны некоторыми примесями. Поэтому нам необходимо использовать алгоритмы корреляционного моделирования, чтобы отфильтровать эти нерелевантные пары изображение-текст.

Для использования китайских наборов данных, таких как Laion-5b, существует более быстрый метод — перевод с английского на китайский. Однако этот метод может привести к возникновению множества лингвистических неясностей, особенно двусмысленностей в выражениях между китайским и английским языками, а также некоторой семантики, уникальной для китайского языка. Например, если мы переведем слово «трансформер» на китайский язык, оно может стать «трансформером», а если оно относится к аватару, соответствующим английским эквивалентом может быть «Аватар». Все эти ситуации вызваны недостаточной способностью понимать китайский язык из-за недостаточного построения китайского корпуса. Что касается проблемы качества корреляции пар изображение-текст, упомянутой только что, то для фильтрации пар изображение-текст низкого качества необходимо использовать методы, аналогичные обычному CLIPScore, для измерения корреляции изображений и текстов.

Другое направление – построение качественных наборов данных. Ведь картинку можно очень подробно описать сотнями слов, а данных о столь подробных описаниях в настоящее время в Интернете относительно мало. Описания в современном Интернете зачастую кратки, возможно, содержат всего несколько десятков тегов, а то и меньше. Следовательно, с точки зрения создания высококачественного набора данных необходимо объединить несколько высококачественных изображений с силой и перспективой текстовых описаний, чтобы дополнить текстовые описания. Обычно люди могут описать предмет и художественную концепцию изображения, но могут игнорировать фон, количество объектов и описание основных объектов изображения. Поэтому то, как добиться согласованного понимания изображений и текста, очень важно для построения диаграмм Винсента.

Поэтому для задачи предоставления высококачественных образцов могут потребоваться модели, более подходящие для задач генерации изображений, например модели генерации подписей. Baidu накопила некоторый опыт в этой области, поэтому для удаления некачественных образцов и построения ценных образцов эти возможности необходимы для выравнивания изображений и текста.

04 Оценка эстетики картины

Модератор : Действительно, сложность этого процесса гораздо выше, чем я предполагал. Вы только что упомянули, что важно устранить низкое качество и сохранить высокое качество. Под низкими и высокими значениями вы подразумеваете качество изображения, верно? Если при создании изображения вы хотите создать кота, то, во-первых, это должен быть кот, а во-вторых, он должен быть эстетически приятным. Оно должно соответствовать форме кошки или форме собаки, а красота — вещь очень субъективная. Например, даже если это кошка, некоторым людям нравятся круглые, толстые и волосатые кошки, и они думают, что лучше быть похожими на мяч, но некоторые люди думают, что кошки должны быть похожими на кошек и иметь кошачьи характеристики, голова – это голова, ноги – это ноги, а шея – это шея. Как в таком случае Baidu решает вопрос, как должна выглядеть кошка?

ТяньБао : Что касается эстетики, как уже упоминалось, это субъективное восприятие. На самом деле, оно у каждого разное. У каждого может быть разное восприятие красоты, но здесь мы на самом деле надеемся использовать ее через каждого. Эстетическое познание некоторых людей выдвигает вперед некоторые определения эстетики.

Например, определение эстетики часто включает в себя композицию изображения, общую структуру изображения, а также применение цвета, например насыщенность, контрастность, общее соответствие цветов и восприятие света, например как настройки освещения в студии, как создать лучшее и более подходящее освещение для разных сцен. Помимо определения визуального цвета, содержание изображения может также отражать эстетику, например, богатство содержания изображения или повествование изображения, которые все состоят из содержания изображения. Следовательно, эти размеры образуют более универсальные эстетические стандарты.

Мы следуем этим эстетическим стандартам, а затем создаем наше собственное эстетическое познание. Будь то общее построение модели или оптимизация алгоритма, мы проводим соответствующие рекомендации и оценку в соответствии с этими передовыми стандартами. Помимо эстетики, четкость изображения влияет и на общую текстуру. При этом важна и последовательность контента : если вы видите кота с тремя ногами, несогласованность сущностей контента приведет к дефектам, что косвенно скажется на удобстве использования и красоте изображения.

Модератор : Вы только что упомянули последовательность контента. Можете ли вы подробнее рассказать об этом и объяснить эту концепцию?

ТяньБао : Под согласованностью контента можно грубо понимать качество или доступность контента. Например, если вы рисуете руку и наблюдается деформация или искажение руки, это на самом деле не соответствует нашему обычному представлению о руках. Это приводит к тому, что объект руки становится непоследовательным, поэтому можно считать, что у него проблема с качеством.

05 Подсказка по проекту диаграммы Винсента

Модератор : Разные сцены и способы использования предъявляют разные эстетические требования. Взяв в качестве примера кота в шляпе и солнцезащитных очках, пользователи могут захотеть создавать комиксы разных стилей, например японские комиксы и американские комиксы, которые имеют существенные различия в визуальном восприятии. Американские комиксы обычно насыщены цветами и четкими контурами, тогда как японские комиксы в основном черно-белые и имеют сильное визуальное воздействие. Как Baidu получает необходимую информацию из подсказок пользователей в разных стилях, чтобы обеспечить создание разных стилей рисования, учитывая требование обеспечения согласованности контента?

ТяньБао : Давайте посмотрим на сценарии применения современных текстовых графиков. В настоящее время в основных взаимодействиях обычно есть несколько четко определенных вариантов определенного стиля, например стиль комиксов или стиль акварели. Но для пользователей ограничений не должно быть слишком много: например, если пользователю нужно сгенерировать кота в стиле киберпанк, то рисование его в мультяшном стиле не будет отвечать потребностям пользователя. То есть пользователи могут описывать не только то, что появляется на сгенерированных изображениях, например кошек, но и желаемый стиль изображения. Таким образом, поиск Baidu должен удовлетворять разнообразные потребности пользователей с точки зрения содержания и стиля.

В настоящее время в Baidu Search мы поддерживаем тысячи различных определений стилей изображений. Например, пользователи могут визуализировать кошку в виде рисунка тушью или мультфильма, или в виде алюминиевого изделия или скульптуры, или даже в виде различных материалов. Кроме того, пользователи также могут выбирать различные ракурсы, например, с эффектами размытия в движении, эффектами покадровой фотографии или перспективой «рыбий глаз» и широкоугольной перспективой. Мы охватываем множество различных стилей и категорий, поэтому, если у пользователей есть более конкретные требования к стилю, им нужно всего лишь включить соответствующий стиль в свое приглашение, и они получат изображение, которое соответствует их ожиданиям и имеет соответствующий стиль.

Модератор : У меня еще вопрос, по поводу наложения стилей. Поддерживает ли он эту операцию? Например, можете ли вы одновременно применить к изображению широкий угол «рыбий глаз» и стиль рисования тушью? Поскольку один касается стиля рисования, а другой — перспективы, если мы хотим объединить рисование тушью с мультяшным стилем, поддерживается ли это также?

ТяньБао : Что касается моделей, то можно поддерживать несколько стилей, что может стимулировать творчество в новом стиле. Однако еще одна проблема, с которой мы сталкиваемся, заключается в том, как эффективно сочетать и координировать несколько стилей, сохраняя при этом согласованность контента. Поскольку различия между разными стилями могут быть огромными, могут возникнуть некоторые взаимные ограничения, но это дает пользователям больше возможностей для экспериментов и исследований, и они могут достичь более широкого творческого пространства, пробуя комбинации разных стилей.

Модератор : Если у меня есть несколько ключевых слов стиля для описания конечного объекта, тесно ли связан эффект всего изображения с расположением ключевых слов? Например, будут ли эффекты кота, нарисованного в мультяшном стиле, и кота, нарисованного в мультяшном стиле, одинаковыми?

ТяньБао : На самом деле это включает в себя управляемость, упомянутую только что. По сути, как тот кот, о котором я только что упомянул. Речь идет о том, как мы контролируем создаваемый нами контент, особенно когда дело касается стиля. Фактически управляемость связана с нашим общим методом подсказки, поскольку разные методы подсказки могут привести к разным результатам. Некоторые люди могут давать краткие подсказки, возможно, набирая два разных стиля рядом друг с другом, в то время как другие могут предпочитать более подробные подсказки. Например, они могут захотеть описать внешний вид сцены, указать конкретный стиль или подчеркнуть пропорции определенный стиль в поколении. Все это разные методы подсказок, которые могут повлиять на способ создания контента.

И для такого рода управляемости на самом деле существуют некоторые смещения в этом порядке. Например, в алхимии подсказок Stable Diffusion также будут упоминаться некоторые вещи, например, как писать подсказки и лучше ли размещать их спереди или сзади. Фактически, это, по сути, своего рода способность контроля. В идеале есть таких отклонений быть не должно. Конечно, самое идеальное — это то, что мы можем помочь пользователям более точно выразить образы в их сознании.

Модератор : Я только что упомянул, что Baidu поддерживает тысячи стилей. Я хотел бы спросить, эти тысячи стилей сортируются вручную или они автоматически генерируются посредством кластеризации моделей? Для пользователей знание того, что существует так много стилей на выбор, поначалу может показаться немного ошеломляющим и немного трудным для выбора.

ТяньБао : Что касается стиля, то, исходя из того, что мы упоминали ранее, наше восприятие контента всей сети очень обширно, поэтому у нас есть возможность воспринимать различные данные о стиле, существующие во всей сети. Второй момент заключается в том, что мы также полагаемся на понимание изображений.Будь то алгоритм агрегации или описание эстетики стиля, нам нужно сначала иметь данные, а затем с помощью возможностей скрининга и идентификации данных мы можем естественным образом представить эти стили. Так определяется стиль.

Кроме того, как только что упоминалось, например, в настоящее время мы поддерживаем тысячи стилей. Фактически, каждому пользователю, возможно, придется пройти через когнитивный процесс, потому что каждый стиль может по-прежнему относительно отличаться для творческих пользователей. Некоторые большие сюрпризы . Например, мы видим определенный стиль, который сильно отличается от изображений, которые мы обычно видим, и к тому же оказывает сильное визуальное воздействие. Итак, как мы можем лучше донести до пользователей наши существующие стили, чтобы пользователи могли понять этот стиль и иметь возможность применять эти стили в последующих творениях, отвечающих их потребностям? На самом деле для этого требуется целостный продукт, работа, управляемая технологиями.

Ведущий : Как вы только что упомянули, существуют тысячи различных художественных стилей. Даже неспециалисты и некоторые профессиональные студенты-художники обычно знают только один или два стиля, такие как рисунок или живопись тушью. На самом деле, немногие люди обладают глубокими знаниями стольких различных стилей и пишут хорошие слова-подсказки. Итак, что же делать, если пользователи не умеют писать слова-подсказки? Например, пользователи, впервые использующие Baidu, могут не знать, что он поддерживает тысячи стилей, если им кто-нибудь не скажет. Как в этом случае нам следует с этим справиться и помочь им узнать больше о различных стилях Baidu и других подсказках, которые можно написать?

ТяньБао : Что касается художественного стиля и творчества, люди чаще сталкиваются с ключевым словом «Midjourney», которое можно использовать в качестве примера для описания процесса стимулирования воображения с нуля. На раннем этапе оперативного продвижения некоторые ресурсы не слишком оптимизировали подсказки. Обычно они содержат относительно простые слова-подсказки, например «собака». Однако это основано на диско-сообществе, позволяющем участвовать всем пользователям. Некоторые пользователи пытаются изменить слова-подсказки, чтобы описать пушистую собаку, в то время как другие могут предпочесть научно-фантастическую тему, например, как бы выглядела собака с лазерными глазами. Благодаря постоянным экспериментам они обнаружат, что можно добиться более увлекательных и интересных эффектов с помощью разных слов-подсказок. В результате мы учились друг у друга, наблюдая за тем, как другие создают контент, как они подбирают слова-подсказки и какой эффект это имеет. Поэтому оперативная оптимизация слов постепенно становится популярной. Эта проблема характерна для всей отрасли, включая Baidu Search и Wenshengtu.

Обычные пользователи могут меньше видеть сцены из фотографий Винсента. Для начинающих пользователей обычно просто пытаются нарисовать кошку или щенка, что вызывает вопрос о том, как добиться лучших результатов для пользователей, учитывая их относительно простую среду.

Это потребует расширения или переписывания подсказки. Здесь есть две идеи: одна — расширить содержание картины, что аналогично богатству содержания или смыслу истории. Например, только что упомянутая собака в шляпе и делающая злые жесты делает картинку более реалистичной. Фактически, это работа, проделанная оптимизацией подсказки. Мы также можем расширить стиль . Мы можем определить, какие стили большинство людей предпочитают для этого контента, и использовать эту подсказку для расширения большего количества стилей. Как упоминалось выше, помимо некоторого расширения и разнообразия стилей, можно значительно оптимизировать богатство содержания, повествование, стиль и красоту изображения. Таким образом, это будет включать в себя преобразование ввода простого выраженного приглашения в набор подсказок, которые лучше подходят для модели посредством оптимизации.

Модератор : Есть более конкретный вопрос, который нужно обсудить, связанный с переписыванием подсказок. Например, когда мы изменили подсказку с описания собаки на сердитую жестикулирующую собаку в шляпе, пользователь фактически не мог видеть перезаписанную часть. Можем ли мы гарантировать, что каждая перезапись будет одинаковой, или каждая перезапись может немного отличаться? Например, в первый раз это может быть собака в шляпе, а во второй раз — собака в очках, лежащая на пляже. Случайен ли этот процесс или он каждый раз фиксируется?

ТяньБао : Что касается переписывания подсказок, мы действительно надеемся дать пользователям более разнообразные и насыщенные результаты. Потому что, если это собака, мы можем представить, что объектом является собака. Могут быть разные породы собак, но собака может появляться в разных сценах в разной одежде. Это для большего количества людей. Результаты будут более разнообразными, и каждый будет иметь больше ожиданий. Таким образом, на уровне модели мы ожидаем получить более разнообразные альтернативы за счет переписывания и оптимизации подсказок, а затем, основываясь на реальных отзывах пользователей, мы сможем в результате получить представление о том, какие стили и типы сценариев контента предпочитают пользователи. будет заинтересован, а апостериорная обратная связь будет относительно высокой, что также окажет влияние на распространение данных на общую модель быстрого переписывания.

06 Обратная связь и оценка

Модератор : Я только что упомянул переписывание, сбор отзывов со стороны пользователя для итерации модели, есть такое слово RLHF (Reinforcement Learning from Human Feedback). Я думаю, что самое сложное здесь в том, что человеческая обратная связь нестабильна, поскольку субъективные мнения у разных людей сильно различаются. Если нам нужно полагаться на отзывы людей для повторения модели, это на самом деле сложнее. Если говорить об оценке модели, то в данном случае как Baidu управляет балансом и оценивает его в направлении генерации изображения.

ТяньБао : Что касается апостериорной обратной связи, вам сначала нужно подумать, действительно ли данные обратной связи могут представлять апостериорную обратную связь человека, к которому предъявляются более высокие требования к качеству обратной связи. Следовательно, этот аспект можно интегрировать с общим дизайном и взаимодействием с пользователем продукта, чтобы собрать более положительные отзывы о поведении пользователей. Например, когда пользователи заинтересованы в определенном результате, они могут щелкнуть изображение, чтобы увеличить его, а затем выполнить последующие действия, такие как загрузка, что является положительным отзывом. Прямая обратная связь также предоставляется, если пользователю нравится изображение или он комментирует его. Мы надеемся более эффективно собирать эти отзывы через систему обратной связи, поскольку они на самом деле отражают предпочтения пользователей. Что касается неоднозначной обратной связи, то более репрезентативные данные можно собрать только при большем размере выборки.

Модератор : В прошлом, будь то традиционное статистическое машинное обучение или стандартные модели глубокого обучения, они в основном представляли собой обучение с учителем, которое требовало выборки или контроля для расчета таких показателей, как показатель F1, IQZ и VCR. Однако для генеративных моделей, таких как модели серии GPT или DALL-E, технически не существует стандартного набора контрольных данных, как раньше, на основе которого каждый может генерировать и оценивать. Напротив, генеративные модели требуют более эффективного метода оценки, а не полагаются на человеческое наблюдение один за другим. В этой области, вместо того, чтобы позволять людям смотреть на каждый элемент индивидуально невооруженным глазом, есть ли способ оценить его более эффективно?

ТяньБао : Более эффективный метод на самом деле предполагает большую интеграцию человека и машины. Как и в случае с оценкой изображения, упомянутой ранее, мы можем проводить наблюдения с помощью некоторых предварительных показателей машины.

Если мы сосредоточимся на общей актуальности или эстетике качества, некоторые характеристики можно дать на основе определенных показателей машины. Однако если вам необходимо точно оценить разницу между двумя изображениями, эти машинные показатели могут не иметь большого значения, и потребуется оценка вручную. Упомянутая ранее машинная предварительная оценка может помочь людям провести предварительный отбор, тем самым экономя трудозатраты при ручной оценке.

07 Перспективы на будущее

Модератор : Хорошо, следующий вопрос смотрит немного в будущее, хотя и не очень далекое, потому что в последнее время я вижу много стартап-команд и смежных компаний, пробующих эту сферу. Возьмем, к примеру, анимацию. Анимация на самом деле представляет собой наложение кадров нескольких изображений вместе. Обычно анимационные фильмы воспроизводятся со скоростью 24 или 16 кадров в секунду. Помимо редактирования статических одиночных изображений, мы видим, что в области AIGC постоянно развивается генерация видео или генерация короткого видео, будь то три секунды, семь или восемь секунд видео. Ранее команда Runway провела конкурс по использованию диаграмм Винсента для генерации видео. Как вы думаете, как скоро в будущем мы увидим первый фильм или состояние фильма, полностью созданное искусственным интеллектом?

ТяньБао : Давайте кратко рассмотрим генерацию изображений. В начале 2022 года эффект генерации изображений был не особенно идеальным, но к июлю и августу 2022 года общий эффект стал более реальным. В соответствии с тенденцией развития технологий ожидается, что создание динамической графики или видео в ближайшем будущем приведет к быстрому технологическому развитию. Потому что в последнее время было много исследований в области генерации видео, независимо от того, основаны ли они на управляемых методах генерации или на таких методах, как Runway, которые генерируют короткие видеоролики продолжительностью в несколько секунд. Для коротких видеороликов продолжительностью в несколько секунд мы обычно используем последний сгенерированный кадр в качестве первого кадра следующего сегмента, чтобы добиться более связного длинного видео. Однако при создании видео существует более серьезная проблема, поскольку необходимо не только обеспечить пространственный эффект, но и временную согласованность, что вводит дополнительное измерение и требует более технических требований. Учитывая недавние продолжающиеся исследования в области генерации видео, мы можем ожидать, что революционные моменты, такие как стабильная диффузия, могут произойти в течение следующих одного-двух лет.

набор персонала

Добро пожаловать, присоединяйтесь к команде исследований и разработок Shengtu и продолжайте нанимать инженеров по исследованиям и разработкам визуальных алгоритмов.

Вы можете отправить свое резюме на адрес [email protected]. Пожалуйста, начните письмо с [Отправка резюме].

--КОНЕЦ--

Рекомендуем к прочтению

Практика применения больших моделей в области обнаружения дефектов кода

Поддержка практики реконструкции кода OC с помощью сценариев Python (2): элементы данных обеспечивают генерацию кода для путей доступа к данным модуля.

Поговорите с InfoQ о высокопроизводительной поисковой системе Baidu с открытым исходным кодом Puck

Краткое обсуждение технологии сценариев уровня представления поиска и практики tanGo.

Первое знакомство с поиском: первый урок менеджера по поисковому продукту Baidu

Масштабная практика Wenshengtu: раскрываем историю поиска Baidu инструментов для рисования AIGC!