OpenAI еще не появился, Open-Sora снова обновилась! Поддерживается создание 16-секундного видео 720p.

Open-Sora была незаметно обновлена ​​в сообществе открытого исходного кода! Один объектив теперь поддерживает генерацию видео продолжительностью до 16 секунд с разрешением до 720p и может обрабатывать любое соотношение сторон: текст-изображение, текст-видео, изображение-видео, видео-видео и создание видео неограниченной длины. потребности. Давайте попробуем эффект.

Создайте горизонтальную экранную рождественскую снежную сцену и опубликуйте ее на сайте B.

Снова создайте вертикальный экран и сделайте Douyin.

Он также может создавать длинные видеоролики с одним кадром продолжительностью 16 секунд, теперь каждый может стать зависимым от написания сценариев.

111

Как играть? Как добраться до GitHub: github.com/hpcaitech/Open-Sora

Что еще круче, так это то, что последняя версия Open-Sora по-прежнему имеет открытый исходный код и полна искренности. Склад содержит новейшую архитектуру моделей, новейшие веса моделей, процессы обучения мультивремени/разрешению/соотношению кадров/частоте кадров, сбор данных. и полный процесс предварительной обработки, все подробности обучения, демонстрационные примеры и подробные руководства по началу работы .

1. Комплексная интерпретация технических отчетов.

Недавно команда авторов Open-Sora официально опубликовала последнюю версию технического отчета [1] на GitHub. Ниже мы будем использовать технический отчет для интерпретации функций, архитектуры, методов обучения, сбора данных, предварительной обработки и прочего. аспекты один за другим.

1.1 Обзор новейших функций

Это обновление Open-Sora в основном включает в себя следующие ключевые функции:

  • Поддержка генерации длинного видео;
  • Разрешение генерации видео может достигать 720p;
  • Одна модель поддерживает любое соотношение сторон, различные разрешения и продолжительность преобразования текста в изображение, текста в видео, изображения в видео, видео в видео и неограниченное количество потребностей в создании видео;
  • Предложен более стабильный дизайн архитектуры модели, который поддерживает обучение с несколькими временами/разрешением/соотношением сторон/частотой кадров;
  • Новейший процесс автоматической обработки данных имеет открытый исходный код;

1.2 Модель пространственно-временной диффузии

Это обновление Open-Sora внесло ключевые улучшения в архитектуру STDiT версии 1.0 с целью улучшить стабильность обучения и общую производительность модели. Для текущей задачи прогнозирования последовательности команда использовала лучшие практики больших языковых моделей (LLM) и заменила синусоидальное позиционное кодирование во временном внимании более эффективным вращательным позиционным кодированием (встраивание RoPE).

Кроме того, чтобы повысить стабильность обучения, они обратились к архитектуре модели SD3 и дополнительно внедрили технологию нормализации QK для повышения стабильности обучения с половинной точностью. Чтобы удовлетворить требования к обучению с использованием нескольких разрешений, различных соотношений сторон и частоты кадров, архитектура ST-DiT-2, предложенная командой авторов, может автоматически масштабировать кодирование положения и обрабатывать входные данные разных размеров.

1.3 Многоэтапное обучение

В техническом отчете указано, что Опенс-Сора использует многоэтапный метод обучения, при котором на каждом этапе тренировки продолжаются с учетом весов предыдущего этапа. По сравнению с одноэтапным обучением, это многоэтапное обучение более эффективно достигает цели создания высококачественного видео за счет поэтапного введения данных.

  • Начальный этап: большинство видео используют разрешение 144p и для обучения смешиваются с изображениями и видео 240p и 480p. Обучение длится около 1 недели, а общий размер шага составляет 81 тыс.
  • Второй этап: увеличить разрешение большинства видеоданных до 240p и 480p, со временем обучения 1 день и размером шага 22к.
  • Третий этап: дальнейшее усиление до 480p и 720p, продолжительность обучения 1 день, завершено обучение 4к шагов. Весь многоэтапный процесс обучения занял примерно 9 дней.

По сравнению с версией 1.0, последняя версия улучшает качество создания видео во многих измерениях.

1.4 Единая платформа создания видео/видео для создания изображений

Команда авторов заявила, что на основе характеристик Transformer архитектура DiT может быть легко расширена для поддержки задач преобразования изображения в изображение и видео в видео. Они предложили стратегию маскировки для поддержки условной обработки изображений и видео. Путем установки различных масок можно поддерживать различные задачи генерации, в том числе: графическое видео, циклическое видео, расширение видео, генерацию авторегрессии видео, видеосоединение, редактирование видео, вставку кадров и т. д.

Вдохновленные методом UL2[2], они внедрили стратегию случайного маскирования на этапе обучения модели. В частности, речь идет о случайном выборе и демаскировании кадров во время процесса обучения, включая, помимо прочего, демаскировку первого кадра, первых k кадров, следующих k кадров, любых k кадров и т. д. В отчете также показано, что, основываясь на экспериментах с Open-Sora 1.0, при применении стратегии маскировки с вероятностью 50% модель может лучше научиться обрабатывать кондиционирование изображения всего за несколько шагов. В последней версии Опен-Соры они приняли метод предварительного обучения с нуля с использованием стратегии маскировки.

Кроме того, команда авторов также тщательно предоставляет подробные инструкции по настройке политики маскировки на этапе вывода. Форма кортежа из пяти чисел обеспечивает большую гибкость и контроль при определении политики маскировки.

1.5 Поддержка многовременного обучения/разрешения/соотношения сторон/частоты кадров

В техническом отчете OpenAI Sora [3] отмечается, что обучение с использованием разрешения, соотношения сторон и длины исходного видео может повысить гибкость выборки и улучшить кадры и композицию. В связи с этим авторская группа предложила стратегию группирования.

Как это реализовать конкретно? Углубленно прочитав технический отчет, опубликованный автором, мы узнали, что так называемое ведро — это тройка (разрешение, количество кадров, соотношение сторон). Они заранее определяют диапазон соотношений сторон для видео с разными разрешениями, чтобы охватить наиболее распространенные типы соотношения сторон видео. Перед началом каждого цикла обучения epochони перетасовывают набор данных и распределяют образцы по соответствующим сегментам на основе их характеристик. В частности, они помещают каждый образец в корзину, разрешение и длина кадра которой меньше или равны этой видеофункции.

Чтобы снизить требования к вычислительным ресурсам, они вводят два атрибута (разрешение, количество кадров) для каждого keep_prob, а также снизить вычислительные затраты и обеспечить многоэтапное обучение. batch_sizeЭто позволяет вам контролировать количество выборок в разных сегментах и ​​балансировать нагрузку на графический процессор, находя подходящий размер пакета для каждого сегмента. Это подробно объясняется в техническом отчете. Заинтересованные друзья могут прочитать технический отчет на GitHub, чтобы получить дополнительную информацию.

Адрес GitHub: github.com/hpcaitech/Open-Sora .

1.6 Процесс сбора и предварительной обработки данных

Команда авторов даже предоставляет подробные инструкции по сбору и обработке данных. Согласно техническому отчету, в процессе разработки Open-Sora 1.0 они поняли, что количество и качество данных чрезвычайно важны для создания высокопроизводительной модели, поэтому они работали над расширением и оптимизацией набора данных. Они создали автоматизированный процесс обработки данных, который следует принципу разложения по сингулярным значениям (SVD) и охватывает сегментацию сцен, обработку субтитров, оценку разнообразия и фильтрацию, а также систему управления и спецификацию набора данных.

Кроме того, они самоотверженно делятся сценариями, связанными с обработкой данных, с сообществом открытого исходного кода. Заинтересованные разработчики теперь могут использовать эти ресурсы в сочетании с техническими отчетами и кодом для эффективной обработки и оптимизации своих собственных наборов данных.

2. Комплексная оценка эффективности

Рассказав так много технических подробностей, давайте насладимся новейшими эффектами генерации видео Open-Sora и расслабимся.

Самая привлекательная особенность этого обновления Open-Sora заключается в том, что оно может захватывать и превращать сцену в вашем воображении в движущееся видео с помощью текстового описания. Образы и фантазии, которые мелькают у вас в голове, теперь можно навсегда записать и поделиться ими с другими. Здесь автор попробовал несколько разных подсказок в качестве отправной точки.

2.1 Пейзаж

Например, автор попытался создать видео экскурсии по зимнему лесу. Вскоре после того, как выпал снег, сосны покрылись белым снегом, и белые снежинки рассыпались прозрачными слоями.

Или тихой ночью вы находитесь в темном лесу, подобном описанному в бесчисленных сказках, с глубоким озером, сверкающим под яркими звездами по всему небу.

Ночной вид на шумный остров с воздуха еще красивее. Теплые желтые огни и лентообразная голубая вода мгновенно погружают людей в неторопливый отпуск.

В городе оживленное движение, а высотные здания и уличные магазины с горящими огнями поздно вечером приобретают другой колорит.

2.2 Природные организмы

Помимо пейзажей, Опен-Сора умеет восстанавливать и различных природных существ. Будь то маленький красный цветок,

Будь то хамелеон, медленно поворачивающий голову, Open-Sora может создавать более реалистичные видеоролики.

2.3 Различные разрешения/соотношения сторон/продолжительность

Автор также попробовал различные быстрые тесты и предоставил вам множество созданных видеороликов, включая разное содержание, разное разрешение, разные соотношения сторон и разную продолжительность.

Автор также обнаружил, что с помощью всего лишь одной простой команды Open-Sora может создавать видеоклипы с разным разрешением, полностью преодолевая творческие ограничения.

2.4 Тушенг Видео

Мы также можем передать Open-Sora статическое изображение и создать короткое видео.

Open-Sora также может умело соединить два неподвижных изображения. Нажмите на видео ниже, и вы сможете ощутить изменения света и тени от полудня до сумерек. Каждый кадр — это поэма времени.

2.5 Монтаж видео

Другой пример: мы хотим отредактировать исходное видео с помощью простой команды, и первоначально яркий лес вызвал сильный снегопад.

2.6 Создание изображений высокой четкости

Мы также можем включить Open-Sora для генерации изображений высокой четкости:

Стоит отметить, что веса моделей Open-Sora были бесплатно доступны в открытом доступе в сообществе Open-Sora. Поскольку они также поддерживают функцию склейки видео, это означает, что у вас есть возможность бесплатно создать небольшой рассказ с историей, чтобы воплотить свое творчество в реальность.

Адрес загрузки веса: github.com/hpcaitech/Open-Sora

3. Текущие ограничения и планы на будущее

Хотя Open-Sora добилась хороших успехов в воспроизведении видеомоделей Винсента, подобных Sora, команда авторов также смиренно отметила, что сгенерированные в настоящее время видео все еще нуждаются в улучшении во многих аспектах, включая проблемы с шумом в процессе генерации, отсутствие времени. последовательность, низкое качество генерации персонажей и низкие эстетические оценки.

Что касается этих проблем, команда авторов заявила, что они будут уделять приоритетное внимание их решению при разработке следующей версии, чтобы достичь более высоких стандартов генерации видео. Заинтересованные друзья, возможно, захотят продолжать уделять этому внимание. Мы с нетерпением ждем следующего сюрприза, который преподнесет нам сообщество Open-Sora.

Адрес GitHub: github.com/hpcaitech/Open-Sora .

Рекомендации:

[1] https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md

[2] Тай, Йи и др. «Ul2: Объединение парадигм изучения языка». Препринт arXiv arXiv:2205.05131 (2022 г.).

[3] https://openai.com/research/video-generation-models-as-world-simulators .

Я решил отказаться от открытого исходного кода Hongmeng Ван Чэнлу, отец Hongmeng с открытым исходным кодом: Hongmeng с открытым исходным кодом — единственное мероприятие в области промышленного программного обеспечения, посвященное архитектурным инновациям в области базового программного обеспечения в Китае: выпущен OGG 1.0, Huawei предоставляет весь исходный код. Google Reader убит «горой кодового дерьма» Официально выпущена Fedora Linux 40 Бывший разработчик Microsoft: производительность Windows 11 «смехотворно плоха» Ма Хуатэн и Чжоу Хунъи пожимают друг другу руки, чтобы «устранить обиды» Известные игровые компании издали новые правила : свадебные подарки сотрудников не должны превышать 100 000 юаней Ubuntu 24.04 LTS официально выпущена Pinduoduo был приговорен к недобросовестной конкуренции Компенсация в размере 5 миллионов юаней
{{o.name}}
{{м.имя}}

рекомендация

отmy.oschina.net/HelloGitHub/blog/11054792
рекомендация