범 엔터테인먼트 산업에서 생성적 AI의 적용 시나리오 – 스타일화된 비디오 콘텐츠 생성 촉진

6d78244c93669055d0ee5ba690e36cf1.gif

블로그 "제너레이티브 AI 산업 솔루션 가이드" 시리즈를 읽어주셔서 감사합니다. 전체 시리즈는 4개의 기사로 구성되어 있으며, 전자상거래, 게임, 범엔터테인먼트 산업에서의 생성 AI 솔루션 가이드와 일반적인 시나리오를 체계적으로 소개합니다. .응용실습. 디렉토리는 다음과 같습니다.

배경 소개

2022년부터 생성 AI는 특히 Vincent 그래프 분야에서 빠르게 발전했으며, 확산 모델을 주류로 하고 다른 모델의 지원을 통해 새로운 Vincent 그래프와 그래프 생성 그래프 기술이 끝없이 등장했습니다. 미디어 및 엔터테인먼트 분야에서 널리 사용되어 왔으며 주요 시나리오는 1. 장면 스크립트 일러스트레이션, 2. 만화 제작, 3. 컨셉 맵 생성입니다. 그리고 기술의 발전으로 비교적 완전한 툴체인이 형성되었습니다.

확산 모델의 인상적인 기능과 이미지 생성에 대한 적용에도 불구하고 비디오 생성 분야는 뒤쳐져 있습니다. 주된 이유는 고품질 훈련 세트가 없고, 비디오를 잘 설명할 방법이 없으며, 생성 비디오 모델을 훈련하려면 매우 높은 컴퓨팅 성능이 필요하기 때문입니다.

따라서 이제 확산 모델을 사용하여 비디오를 생성하는 주요 방법은 템플릿 비디오를 사용하고 이를 비디오 프레임 사진으로 분해하고 다양한 플러그인을 사용하여 프롬프트 단어와 그림 특징에 따라 프레임별로 스타일을 지정하고 마지막으로 이를 스타일화된 형식으로 결합하는 것입니다. 동영상.

이 기사에서는 제너레이티브 AI 산업 솔루션 가이드를 기반으로 범 엔터테인먼트 산업의 양식화된 비디오 생성을 목표로 하고 제너레이티브 AI의 사용 및 매개변수 구성을 소개하며 기존 도구와 협력하여 콘텐츠 제작을 지원하고 특정 창의성을 달성하는 효과를 설명합니다. .

범 엔터테인먼트 산업의 비디오 제작에 사용되는 생성적 AI

범연예계에서는 짧은 영상이 가장 인기 있는 콘텐츠 표현 방식으로 제작비가 저렴하고 전송률이 높은 것이 특징이다. 단편 영상을 제작하는 전통적인 방식으로는 UGC 모드와 PGC 모드가 있는데, 제작 주기와 제작 비용은 기존 미디어에 비해 훨씬 저렴하지만 여전히 '기획-대본-라인-캐스팅-리허설-정식 공연-녹화'와 분리될 수 없다. -check-edit-post-review-publish" 기본 단계를 참조하세요. 일반적으로 5분 정도의 짧은 영상의 평균 제작 시간은 2~3일 정도입니다. 생성적 AI의 출현은 생산 효율성을 크게 향상시키고, 생산 주기를 단축하며, 생산 단계를 단순화할 수도 있습니다. 

이제 스타일화된 사진과 스타일화된 비디오를 생성하는 방법이 있으며, 기존의 일부 사진과 비디오 또는 초기 단계에서 촬영한 비디오를 기반으로 바로 다음 단계로 들어갑니다. 스타일리제이션은 짧은 영상을 제작하기 위한 시도로, 영상이 깜박거리고 튀는 등의 문제가 여전히 남아있지만 커뮤니티의 지속적인 발전을 통해 그 효과는 점점 좋아지고 있습니다. 물론 이런 형태의 영상 자체는 자유도가 높고 창의적인 속성이 강하기 때문에 화제성과 소통력이 강합니다.

스타일화된 비디오를 제작하는 주류 방법은 연결된 일련의 비디오 프레임으로 연속적인 스타일화된 사진을 사용하는 것입니다. 포함하다:

1) 원본 비디오에서 각 프레임을 추출하고 프롬프트 단어를 통해 프레임별로 사진을 생성한 다음 마지막으로 사진을 재구성하여 스타일화된 비디오를 생성합니다.

2) 여러 개의 창의적인 사진을 키 프레임으로, 유사한 사진을 전환 프레임으로 생성하고 이를 스타일화된 비디오로 조합합니다.

이 두 종류의 스타일화된 비디오는 Stable Diffusion WebUI 플러그인을 통해 구현될 수 있습니다. 그러나 이 두 가지 스타일화된 비디오 제작 방법에는 여전히 각각 해결해야 할 특정 문제가 있습니다.

1) 템플릿 영상 촬영에는 원본 영상의 편곡, 연주, 저작권 문제 등을 포함하여 여전히 일정 금액의 투자가 필요합니다.

2) 스타일화된 영상의 주제는 정의하기 어렵습니다.

이 문서에서는 현재의 스타일화된 비디오 플러그인을 최대한 활용하고 스타일화된 비디오 제작에서 위에서 언급한 문제를 부분적으로 해결할 수 있는 결합된 스타일화된 비디오를 생성하는 두 가지 방법을 제시합니다.

  1. 3D 모델의 동적인 영상을 청사진으로 활용하여 스타일화된 영상을 생성하는 방법

  2. 짧은 일반 영상을 시작점(또는 중간 노드)으로 삼아 특정 주제를 지닌 스타일화된 영상을 생성하는 방법

아키텍처 및 작동 원리

이 글은 생성적 AI 산업 솔루션 가이드를 기반으로 작성되었으며, 작동 원리는 다음과 같습니다.

70faf008a89094d69d432c7b8e9d092b.jpeg

Generative AI 산업 솔루션 가이드, 프런트엔드 Stable Diffusion WebUI는 컨테이너 서비스 Amazon ECS에 배포되고 백엔드는 서버리스 서비스 Amazon Lambda를 사용하여 처리하며 프런트엔드와 백엔드는 Amazon API Gateway 호출을 통해 통신합니다. . 모델 훈련 및 배포는 Amazon SageMaker를 통해 수행됩니다. 동시에 Amazon S3, Amazon EFS 및 Amazon DynamoDB는 각각 모델 데이터, 임시 파일 및 사용 데이터를 저장하는 데 사용됩니다. 신속한 배포 프로세스에 대해서는 이 블로그 시리즈의 첫 번째 기사를 참조하세요. 이 기사에서는 해당 내용을 반복하지 않습니다.

양식화된 비디오를 제작하기 위한 모델로서의 3D 모델

우선, 다음 그림과 같이 원본 영상을 스타일화된 영상으로 변환하는 기본 원리를 이해해 봅시다.

15ba437fd5539400dc35cccc63aeea9f.jpeg

참조 단계는 다음과 같습니다.

  1. 원본 비디오는 일련의 비디오 프레임으로 분해됩니다.

  2. 각 프레임마다 Stable Diffusion으로 스타일을 지정하고 ControlNet을 사용하여 캐릭터의 실루엣과 포즈를 제어합니다.

  3. 생성된 새 시퀀스 프레임을 비디오로 재조립합니다.

비디오 생성의 관점에서 원본 비디오는 비디오의 개요나 동작을 스타일화하는 데만 사용되며 실제 인물이나 실제 장면이 촬영된 원본 비디오를 사용하는 비용은 여전히 ​​상대적으로 높습니다. 윤곽선만 있고 텍스처가 없는 3D 모델, 색상 팔레트, 면 수가 매우 적은 모델 등 비디오 생성을 위한 청사진으로 사용되는 비용이 많이 드는 3D 모델입니다. 예를 들면 다음과 같습니다. 일반적인 비디오 스타일화와는 다른 삼바를 춤추는 사이버펑크 소녀를 생성합니다 . 이 예에서는 댄스 동작이 더 복잡하고 저작권이 없는 원본 비디오를 템플릿으로 사용합니다. 그러면 다음과 같은 구체적인 내용을 취할 수 있습니다. 단계:

1. 저가형 캐릭터 모델을 Blender 또는 Unity3D로 가져와서 삼바 댄스 애니메이션을 생성합니다. 여기서는 mixamo.com 웹사이트에서 춤추는 캐릭터의 모델 구성 요소를 다운로드하고 다음과 같이 원본 비디오로 변환하기로 선택했습니다.

a84e2eaa02a219bbc978dc0be97b4b64.gif

기본 WebUI 환경을 구축하고 모델을 임포트하여 생성 AI 솔루션 가이드에 따라 배포한 후 다음을 운영할 수 있습니다.

32180f9dd44c6eb27e5edd0d32cebd2d.jpeg

2. 비디오를 가져오고 프롬프트 단어를 입력하십시오.

프롬프트 단어를 사용

사이버펑크 플러그수트를 입은 아름다운 소녀의 초현실적인 그림, 초고밀도, 아트스테이션에서 마스크를 쓴 애니메이션 트렌드(걸작: 1.4), (최고 품질: 1.2), (초고해상도: 1.2) ,(8k 해상도: 1.0)

역방향 큐 단어

본문, 편지, 심벌 마크, 상표, 닫다, 자른, 프레임 밖으로, 최악의 품질, 낮은 품질, jpeg 유물, 추한, 복제, 병적 인, 절단 된, 추가 손가락, 돌연변이 손, 잘못 그려진 손, 잘못 그려진 얼굴, 돌연변이, 기형, 흐릿함, 탈수됨, 나쁜 해부학적 구조, 나쁜 비율, 여분의 사지, 복제된 얼굴, 변형된, 심한 비율, 기형의 사지, 팔 없음, 다리 없음, 팔 추가, 다리 추가, 손가락 융합, 손가락 너무 많음, 긴 목

3. 비디오 스타일화를 수행하고 Mov2Mov 플러그인을 엽니다. 여기서 권장되는 매개변수는 다음과 같습니다:

샘플 단계=20-30,
영화 모드 생성=XVID,
CFG 규모=7-10,
노이즈 제거 강도=0.2-0.3,
영화 프레임=30,
Maxframe=60-90,
Controlnet 지원 가능,
제어 가중치 0.2-0.25。

생성을 클릭한 후 얻은 비디오와 원본 비디오의 비교는 다음과 같습니다.

251d4cc2f2ab367b4976df71439c3776.gif

f0c5c7747291e004f6a89ae83f3e77cf.gif

20d0514201f989d53311e80d41541833.gif

테마가 있는 스타일화된 비디오

Stable Diffusion 커뮤니티에는 다양한 스타일화된 비디오 생성 플러그인이 있으며 그중 Deforum은 가장 인기 있는 플러그인 중 하나입니다. 그 원칙은 타임라인에서 키 프레임을 결정하고 명확한 프롬프트에서 생성된 창의적인 이미지를 사용하는 것입니다. 키 프레임 사이의 전환 비디오 프레임은 특정 2D 및 3D 공간 회전과 결합된 프로그레시브를 채택하여 독특한 효과를 생성합니다. 이러한 방식의 프롬프트 단어는 일반적으로 스크립트 형식입니다. 원리는 그림에 표시됩니다.

f3885c85d68da948521cb8ed12fe5c20.jpeg

스타일화된 영상이나 크리에이티브 영상의 관점에서는 특정 스크립트를 프롬프트로 변환한 후, Deforum 시리즈를 통해 특정 주제를 표현하는 창의적인 영상의 효과를 얻을 수 있다. 어려움:

  1. 무작정 대본을 써서 현실적인 주제와 창의적인 영상을 연결하는 것은 어렵습니다.

  2. 창의적인 비디오/스타일화된 비디오 효과는 여전히 창의적인 사진으로 연결되어 있어 효과를 제어하기 어렵고, 비디오 생성은 이미지 생성보다 훨씬 더 많은 컴퓨팅 파워를 소비하므로 비디오 낭비와 컴퓨팅 파워 낭비가 발생합니다.

그래서 여기서는 실제 영상과 창작 영상을 교차공명시키는 간단한 방법으로 제작해 볼까 합니다.여기서 실제 영상은 휴대폰 촬영 영상의 2~3초 정도만 있으면 되고, 시작 영상으로 사용해도 됩니다. 예를 들어, 저자가 한 지방 박물관의 시리아 문화 유물 전시회를 방문했는데 갑자기 감동을 받았습니다. 문화 유물을 볼 때의 밀레니엄 변화에 대한 감정을 표현하기 위해 수십 초의 양식화된 짧은 비디오를 만들고 싶었습니다 . 다음과 같은 구체적인 단계를 수행하십시오.

1. 초기 주제를 대표하는 3~5분 정도의 셀카 영상을 초기 영상으로 촬영합니다. 창의적인 영상을 소셜미디어에 올리는 것이 목표이기 때문에 휴대폰 크기에 맞춰야 하므로 영상 해상도는 540*960 입니다.

2. 모델, 플러그인 등 Web UI 기본 환경 준비

3. 초기 비디오의 특정 프레임을 초기 프레임으로 설정합니다. 여기서는 마지막 프레임을 초기 프레임으로 캡처합니다. 이미지 해상도는 540*960입니다. Deforum에서 초기 프레임을 설정하고 init 탭에서 Use init를 선택합니다. 파일 주소를 입력하세요

f84d9f7cede31942991a732c7c0d19fb.jpeg

4. 프롬프트 단어를 설정하고 회전 매개변수를 설정합니다. 다음 표에는 매개변수 및 권장 값 목록이 나와 있습니다.

864b9f7baef03088b86c97281b528e45.png

5. 적절한 스타일화된 프롬프트를 정렬하고 비디오를 생성합니다. 프롬프트는 반드시 JSON 형식이어야 합니다. 이 규칙에 따라 비디오의 플롯을 정렬합니다.

프롬프트 단어는 다음과 같습니다.

{ “0”: “갈라진 땅, 어둡고 폭풍우가 몰아치는 하늘 아래, 시리아의 황량한 풍경 속의 전사, 피카소 스타일”, “ 50”: “ 땅에서 나오는 햇빛, 시리아의 고대 유물과 신비한 상징, 피카소 스타일 “ , “150”: “시리아의 이집트 스타일 건물, 피카소 스타일 “, “200”: “다양한 인종과 문화의 사람들이 어울리고 시리아의 시장에서 교역하는 로마 스타일의 도시, 피카소 스타일 “, “250” : " 시리아 동부와 서부 국가 간의 전쟁, 왕들은 자연과 마법의 균형을 유지하려고 노력하고, 다른 왕은 권력과 이익을 위해 그것을 이용하려고 합니다. 피카소 스타일 ", "300": "총 연기와 꽃, 장군의 연설 , 피카소 스타일 “,






"450": "하늘의 폭탄 폭발, 불, 불꽃과 연기, 피와 재, 피카소 스타일 -neg 웅장함", "
500": "민족의 운명, 평화로운 희망, 피카소 스타일"
}

역방향 큐 단어:

NSFW, 최악의 품질, 낮은 품질, 못생김, 복제, 병적, 절단됨, 여분의 손가락, 돌연변이된 손, 잘못 그려진 손, 잘못 그려진 얼굴, 돌연변이, 변형, 흐릿함, 탈수됨, 나쁜 해부학적 구조, 나쁜 비율, 여분의 사지, 복제된 얼굴, 기형, 심한 비율, 기형 사지, 팔 없음, 다리 없음, 팔 추가, 다리 추가, 손가락 융합, 손가락 너무 많음, 긴 목

6. 편집 소프트웨어를 사용하여 실제 영상과 창의적인 영상을 엔드투엔드로 연결하여 완전한 영상을 얻으세요. 참고 사항은 다음과 같습니다.

요약하다

이 기사에서는 범 엔터테인먼트 산업의 비디오 콘텐츠 제작 시나리오를 간략하게 소개하며, 다양한 플러그인과 도구의 협력을 통해 양식화되고 창의적인 비디오를 생성한다는 목표를 달성할 수 있습니다. 물론 이것은 빙산의 일각에 불과합니다.범 엔터테인먼트 산업에 적용할 때 지속적으로 새로운 플러그인과 모델을 추적함으로써 기술 반복에 따라 범 엔터테인먼트 콘텐츠의 지속적인 혁신을 달성할 수 있습니다. 시간이 지나면 이를 일부 표준 미디어 제작 도구와 결합할 수 있습니다.. 창의적인 콘텐츠를 효율적으로 제작한다는 목표를 달성하기 위한 지속적인 최적화.

참고자료

1. 생성적 AI 산업 솔루션 가이드:

https://aws.amazon.com/cn/campaigns/aigc/

2. 생성적 AI 산업 솔루션 가이드 워크숍:

https://catalog.us-east-1.prod.workshops.aws/workshops/bae25a1f-1a1d-4f3e-996e-6402a9ab8faa

3. 안정-확산-webui:

https://github.com/AUTOMATIC1111/stable-diffusion-webui

4. 포옹하는 얼굴:

https://huggingface.co/

이 기사의 저자

3cdef00920e38cace3b177f3027bc00b.jpeg

밍치

미디어 산업 관련 기술 솔루션을 주로 담당하는 Amazon 클라우드 기술 산업 솔루션 아키텍트는 가상 현실, 혼합 현실, 생성 AI를 포함한 범 엔터테인먼트 산업에서 혁신적인 기술 및 고객 경험 관련 솔루션의 구축 및 홍보에 전념하고 있습니다. , digital Ren 등의 지휘하에 그는 건축 디자인 및 제품 개발 분야에서 다년간의 경험을 보유하고 있습니다.

a2083992d513a02363f951e78349a4d7.jpeg

흰 두루미

교수급 수석 엔지니어, Amazon 클라우드 기술 미디어 산업의 수석 솔루션 아키텍트, 융합 미디어 시스템의 아키텍처 설계, 콘텐츠 제작 플랫폼, 초고화질 인코딩 클라우드 네이티브 기능 등에 중점을 두며 미디어 관련 다양한 분야에서 풍부한 경험을 보유하고 있습니다. 디지털 혁신 경험.

6ce66ca10b750d3dcfe15440272ab45a.jpeg

탕제

Amazon 클라우드 기술 산업 솔루션 아키텍트는 Amazon Website Service를 기반으로 한 클라우드 컴퓨팅 솔루션의 컨설팅 및 아키텍처 설계를 담당하며 Amazon 클라우드 서비스 지식 시스템의 보급 및 대중화에 최선을 다하고 있습니다. 그는 소프트웨어 개발, 보안 보호 및 기타 분야에 실무 경험을 갖고 있으며 현재 전자상거래 및 라이브 방송 분야에 주력하고 있습니다.

b0b0b6c3b1da8d345f58ba0edb261db1.gif

00cb5bf1f713102fb4066c393a2d9b9b.gif

들었는데 아래 버튼 4개를 눌러주세요

버그가 발생하지 않습니다!

aa0cc73952ec849b22fa855b2f462538.gif

Supongo que te gusta

Origin blog.csdn.net/u012365585/article/details/132267913
Recomendado
Clasificación