OpenAI는 아직 도착하지 않았습니다. Open-Sora가 다시 업그레이드되었습니다! 16초 720p 비디오 생성 지원

오픈소라가 오픈소스 커뮤니티에 조용히 업데이트 되었습니다! 단일 렌즈는 이제 최대 720p의 해상도에서 최대 16초의 비디오 생성을 지원하며 텍스트-이미지, 텍스트-비디오, 이미지-비디오, 비디오-비디오 및 무제한 길이의 비디오 생성을 모든 화면 비율로 처리할 수 있습니다. 필요합니다. 효과를 시험해 보겠습니다.

가로화면 크리스마스 설경을 생성하여 B사이트에 게시

다시 세로 화면을 만들고 Douyin 만들기

또한 16초의 단일 샷으로 긴 동영상을 생성할 수도 있어 이제 누구나 시나리오 쓰기에 중독될 수 있습니다.

111

게임 방법? GitHub로 가는 길: github.com/hpcaitech/Open-Sora

더욱 멋진 점은 최신 버전의 Open-Sora가 여전히 오픈 소스이며 정성이 가득하다는 것입니다. 창고에는 최신 모델 아키텍처, 최신 모델 가중치, 다중 시간/해상도/종횡비/프레임 속도 교육 프로세스, 데이터 수집이 포함되어 있습니다. 전처리의 전체 프로세스, 모든 교육 세부정보, 데모 예시 및 자세한 시작 튜토리얼 .

1. 기술보고서의 종합해석

최근 Open-Sora 작성자 팀은 GitHub에 최신 버전의 기술 보고서[1]를 공식 출시했습니다. 아래에서는 기술 보고서를 사용하여 기능, 아키텍처, 교육 방법, 데이터 수집, 전처리 및 기타 사항을 해석합니다. 측면을 하나씩.

1.1 최신 기능 개요

이번 Open-Sora 업데이트에는 주로 다음과 같은 주요 기능이 포함되어 있습니다.

긴 비디오 생성을 지원합니다.
비디오 생성 해상도는 최대 720p에 도달할 수 있습니다.
단일 모델은 모든 종횡비, 다양한 해상도 및 기간 텍스트-이미지, 텍스트-비디오, 이미지-비디오, 비디오-비디오 및 무제한 비디오 생성 요구 사항을 지원합니다.
다중 시간/해상도/종횡비/프레임 속도 훈련을 지원하는 보다 안정적인 모델 아키텍처 설계를 제안했습니다.
최신 자동 데이터 처리 프로세스는 오픈 소스입니다.

1.2 시공간 확산 모델

이번 Open-Sora 업그레이드는 모델의 훈련 안정성과 전반적인 성능을 향상시키는 것을 목표로 버전 1.0의 STDiT 아키텍처를 크게 개선했습니다. 현재 시퀀스 예측 작업을 위해 팀은 LLM(대형 언어 모델)의 모범 사례를 채택하고 시간적 주의의 정현파 위치 인코딩을 보다 효율적인 회전 위치 인코딩(RoPE 임베딩)으로 대체했습니다.

또한 훈련의 안정성을 높이기 위해 SD3 모델 아키텍처를 참조하고 QK 정규화 기술을 추가로 도입하여 반정밀도 훈련의 안정성을 높였습니다. 다양한 해상도, 다양한 종횡비 및 프레임 속도의 훈련 요구 사항을 지원하기 위해 저자 팀이 제안한 ST-DiT-2 아키텍처는 위치 인코딩을 자동으로 확장하고 다양한 크기의 입력을 처리할 수 있습니다.

1.3 다단계 훈련

기술 보고서에 따르면 Open-Sora는 각 단계가 이전 단계의 가중치를 기반으로 훈련을 계속하는 다단계 훈련 방법을 사용한다고 명시되어 있습니다. 단일 단계 학습에 비해 이 다단계 학습은 데이터를 단계별로 도입하여 고품질 비디오 생성 목표를 보다 효율적으로 달성합니다.

초기 단계: 대부분의 비디오는 144p 해상도를 사용하며 훈련을 위해 사진과 240p 및 480p 비디오를 혼합합니다. 훈련은 약 1주일 동안 지속되며 총 단계 크기는 81k입니다.
두 번째 단계: 훈련 시간은 1일, 단계 크기는 22k로 대부분의 비디오 데이터의 해상도를 240p 및 480p로 높입니다.
세 번째 단계: 480p 및 720p로 더욱 향상되었으며 훈련 기간은 1일이며 4k 단계의 훈련이 완료됩니다. 전체 다단계 교육 과정은 약 9일 만에 완료되었습니다.

1.0과 비교하여 최신 버전은 다차원적으로 비디오 생성 품질을 향상시킵니다.

1.4 통합된 사진 생성 비디오/비디오 생성 비디오 프레임워크

저자 팀은 Transformer의 특성을 기반으로 DiT 아키텍처를 쉽게 확장하여 image-to-image 및 video-to-video 작업을 지원할 수 있다고 밝혔습니다. 그들은 이미지와 비디오의 조건부 처리를 지원하는 마스킹 전략을 제안했습니다. 다양한 마스크를 설정하면 그래픽 비디오, 루프 비디오, 비디오 확장, 비디오 자동 회귀 생성, 비디오 연결, 비디오 편집, 프레임 삽입 등 다양한 생성 작업을 지원할 수 있습니다.

UL2[2] 방법에서 영감을 받아 모델 훈련 단계에서 무작위 마스킹 전략을 도입했습니다. 구체적으로 말하면, 첫 번째 프레임, 첫 번째 k 프레임, 다음 k 프레임, 모든 k 프레임 등의 마스크 해제를 포함하되 이에 국한되지 않는 학습 프로세스 중에 프레임을 무작위로 선택하고 마스크 해제하는 것입니다. 보고서는 또한 Open-Sora 1.0에 대한 실험을 기반으로 50% 확률로 마스킹 전략을 적용할 때 모델이 몇 단계만으로 이미지 조절을 처리하는 방법을 더 잘 학습할 수 있음을 밝혔습니다. 최신 버전의 Open-Sora에서는 마스킹 전략을 사용하여 처음부터 사전 훈련하는 방법을 채택했습니다.

또한 저자 팀은 추론 단계의 마스킹 정책 구성에 대한 자세한 지침도 신중하게 제공합니다. 5개 숫자의 튜플 형식은 마스킹 정책을 정의할 때 뛰어난 유연성과 제어력을 제공합니다.

1.5 멀티타임/해상도/가로세로 비율/프레임 속도 트레이닝 지원

OpenAI Sora의 기술 보고서[3]에서는 원본 비디오의 해상도, 종횡비 및 길이를 사용한 교육이 샘플링 유연성을 높이고 프레임 및 구성을 향상시킬 수 있다고 지적합니다. 이에 저자팀은 버킷팅 전략을 제안했다.

구체적으로 어떻게 구현하나요? 저자가 공개한 기술 보고서를 자세히 읽어본 결과, 소위 버킷이 (해상도, 프레임 수, 종횡비)의 세 가지 요소라는 것을 알게 되었습니다. 가장 일반적인 비디오 종횡비 유형을 포괄하기 위해 다양한 해상도의 비디오에 대한 다양한 종횡비를 미리 정의합니다. 각 훈련 주기가 epoch시작되기 전에 데이터 세트를 다시 섞고 특성에 따라 해당 버킷에 샘플을 할당합니다. 구체적으로, 각 샘플을 해상도와 프레임 길이가 해당 비디오 기능보다 작거나 같은 버킷에 넣습니다.

계산 리소스 요구 사항을 줄이기 위해 각각에 대해 두 가지 속성(해상도, 프레임 수)을 도입하고 keep_prob계산 비용을 줄이고 다단계 교육을 가능하게 합니다. batch_size이를 통해 다양한 버킷의 샘플 수를 제어하고 각 버킷에 적합한 배치 크기를 검색하여 GPU 로드 균형을 조정할 수 있습니다. 이는 기술 보고서에 자세히 설명되어 있습니다. 관심 있는 친구는 GitHub의 기술 보고서를 읽고 더 많은 정보를 얻을 수 있습니다.

GitHub 주소: github.com/hpcaitech/Open-Sora

1.6 데이터 수집 및 전처리 과정

저자 팀은 데이터 수집 및 처리에 대한 자세한 지침도 제공합니다. 기술 보고서에 따르면 Open-Sora 1.0 개발 과정에서 고성능 모델을 육성하려면 데이터의 양과 질이 매우 중요하다는 사실을 깨닫고 데이터 세트를 확장하고 최적화하기 위해 노력했습니다. 이들은 단일 값 분해(SVD) 원칙을 따르고 장면 분할, 자막 처리, 다양성 채점 및 필터링은 물론 데이터 세트의 관리 시스템 및 사양을 다루는 자동화된 데이터 처리 프로세스를 구축했습니다.

마찬가지로 그들은 데이터 처리 관련 스크립트를 오픈 소스 커뮤니티에 사심없이 공유합니다. 관심 있는 개발자는 이제 기술 보고서 및 코드와 결합된 이러한 리소스를 사용하여 자신의 데이터 세트를 효율적으로 처리하고 최적화할 수 있습니다.

2. 종합적인 성과평가

기술적인 세부 사항을 많이 언급했으므로 Open-Sora의 최신 비디오 생성 효과를 즐기고 휴식을 취하십시오.

이번 오픈소라 업데이트의 가장 눈길을 끄는 점은 텍스트 설명을 통해 머릿속에 떠오르는 장면을 포착해 움직이는 영상으로 변환할 수 있다는 점이다. 당신의 마음 속에 번쩍이는 이미지와 상상은 이제 영구적으로 기록되고 다른 사람들과 공유될 수 있습니다. 여기서 저자는 출발점으로 여러 가지 다른 프롬프트를 시도했습니다.

2.1 풍경

예를 들어, 저자는 겨울 숲을 둘러보는 동영상을 생성하려고 했습니다. 눈이 내린 지 얼마 지나지 않아 소나무에는 짙은 솔잎과 하얀 눈이 투명한 층으로 흩뿌려졌습니다.

아니면, 조용한 밤, 당신은 하늘의 밝은 별들 아래 반짝이는 깊은 호수가 있는 수많은 동화 속에 묘사된 것과 같은 어두운 숲 속에 있습니다.

번화한 섬을 공중에서 내려다보는 야경은 더욱 아름답습니다. 따뜻한 노란색 조명과 리본처럼 푸른 바다가 사람들을 한가로운 휴가의 시간으로 즉시 끌어들입니다.

교통이 혼잡한 도시, 늦은 밤에도 여전히 불이 켜져 있는 고층빌딩과 길거리 상점은 색다른 느낌을 줍니다.

2.2 자연 유기체

Open-Sora는 풍경 외에도 다양한 자연 생물을 복원할 수 있습니다. 작은 붉은 꽃이든,

천천히 고개를 돌리는 카멜레온이든, 오픈소라는 더욱 실감나는 영상을 만들어낼 수 있습니다.

2.3 다양한 해상도/종횡비/지속 시간

또한 작성자는 다양한 프롬프트 테스트를 시도하고 다양한 콘텐츠, 다양한 해상도, 다양한 화면비 및 다양한 지속 시간을 포함하여 참조용으로 생성된 많은 비디오를 제공했습니다.

저자는 또한 단 하나의 간단한 명령으로 Open-Sora가 다중 해상도 비디오 클립을 생성하여 창의적 한계를 완전히 깨뜨릴 수 있다는 것을 발견했습니다.

2.4 투성 비디오

또한 Open-Sora에 정적 이미지를 공급하여 짧은 비디오를 생성하도록 할 수도 있습니다.

Open-Sora는 또한 두 장의 정지 이미지를 교묘하게 연결하여 오후부터 황혼까지 빛과 그림자의 변화를 경험하게 해줄 것입니다.

2.5 비디오 편집

또 다른 예로, 원래 밝은 숲에 폭설이 내리는 원본 영상을 간단한 명령만으로 편집하고 싶습니다.

2.6 고화질 사진 생성

또한 Open-Sora를 활성화하여 고화질 이미지를 생성할 수도 있습니다.

Open-Sora의 모델 가중치가 오픈 소스 커뮤니티에서 무료로 공개적으로 제공되었다는 점은 주목할 가치가 있습니다. 비디오 접합 기능도 지원하므로 스토리가 포함된 짧은 단편 소설을 무료로 만들어 창의력을 현실로 만들 수 있는 기회가 있다는 의미입니다.

웨이트 다운로드 주소: github.com/hpcaitech/Open-Sora

3. 현재의 한계와 향후 계획

Open-Sora는 소라와 유사한 Vincent 비디오 모델을 재현하는 데 좋은 진전을 이루었지만, 저자 팀은 현재 생성된 비디오가 생성 과정에서 발생하는 소음 문제, 시간 문제 등 여러 측면에서 여전히 개선이 필요하다고 겸허하게 지적했습니다. 일관성, 낮은 캐릭터 생성 품질, 낮은 미적 점수.

이러한 문제와 관련하여 저자 팀은 더 높은 비디오 생성 표준을 달성하기 위해 다음 버전 개발에서 문제를 해결하는 데 우선순위를 둘 것이라고 밝혔습니다. 관심 있는 친구들은 계속 관심을 가져주시기 바랍니다. Open-Sora 커뮤니티가 우리에게 가져올 다음 놀라움을 기대합니다.

GitHub 주소: github.com/hpcaitech/Open-Sora

참고자료:

[1] https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md

[2] 테이(Tay), 이(Yi) 등. "Ul2: 언어 학습 패러다임 통합." arXiv 사전 인쇄 arXiv:2205.05131 (2022).

[3] https://openai.com/research/video- Generation-models-as-world-simulators