高度に復元されたリアルな「あなた」をデジタル世界で再現するにはどうすればよいでしょうか?

この記事は、「クラウド インテリジェント編集」実践ガイドの第 5 号です。この記事では、Alibaba Cloud Intelligent Media Service IMS を使用して、デジタル ヒューマン イメージのトレーニングと人間の音声クローン作成のカスタマイズを完了し、タイムラインを使用してビデオの合成と作成を実現し、デジタル イメージを作成します。 「優れた音と形状」のドッペルゲンガー。

オレンジカープ|著者

画像はますます現実的になり、インタラクションはよりスムーズになり、仮想デジタル ヒューマンがビデオ コンテンツ制作に使用されることが増えています。空間や時間に制限されず、独自の声とイメージを持った「私」を、どうしてこんなに簡単に再現できるのでしょうか?

まず、デジタル ヒューマン イメージのカスタマイズと音声の複製を使用して合成されたフィルム エフェクトを見てみましょう: https://v.youku.com/v_show/id_XNjI3Mzk1NTM2NA==.html

サンプルビデオのアンカー画像とキャラクターの音声は、撮影と編集によって形成されるのではなく、デジタル人間イメージトレーニングと人間の音声クローンによって対応する画像と音声モデルを生成し、インテリジェントメディアのビデオ編集合成インターフェイスを呼び出すことによって生成されます。サービス. ついに映画化されました。

この記事では、デジタル ヒューマン イメージ トレーニングと音声クローンの段階的なプロセスを段階的に紹介し、3 つのステップでデジタル世界に「私」を再現するための詳細な編集および合成タイムライン コード サンプルを添付します。

 

01 デジタル人間イメージトレーニング

まず、動き、表情、口の形などの点で非常に現実的な効果を実現できるデジタル クローンをトレーニングする必要があります。

「デジタル人物像のカスタマイズ」には主に、トレーニング資料の準備、トレーニングの提出、AvatarId の生成の 3 つのステップが含まれます。

l トレーニング資料を準備する

1 つのトレーニング ビデオ (ビデオ) と 1 つのアバター写真 (ポートレート)

機材の選択、会場の要件、モデル画像、録画プロセスなどの具体的な撮影ガイドラインについては、以下を参照してください。

https://help.aliyun.com/document_detail/2393251.html

l トレーニングを送信する

コンソールからトレーニングを送信し、プロンプトに従い、デジタル担当者の名前、説明、アバター写真、トレーニングビデオ素材などを入力し、「カスタマイズの開始」をクリックしてトレーニングを開始します。

コンソールリンク:

https://ice.console.aliyun.com/production/avatar2d/create

このうち、デジタル人物画像は、透明チャンネルあり(背景なし、切り抜き)と透明チャンネルなし(背景あり、切り抜きなし)の2 種類の素材の入稿に対応しており、オンデマンドでインポートできます。

l アバター ID を生成する

トレーニングが完了すると、モデルの一意の識別子である AvatarId を取得し、これを使用してデジタル ヒューマン ビデオを合成できます。

同時に、「デジタルヒューマン」一覧ページの「ビデオ編集」ボタンをクリックすると、デジタルヒューマン画像を利用してビデオが生成され、二次編集・作成が行われます。

デジタル ヒューマン ビデオを「テキスト駆動」で合成するか、「オーディオ駆動」で合成するかを選択できます。

「Text Drive」を例に挙げると、テキスト コンテンツを入力し、公式のボーカル エフェクトを選択して(ボーカル クローンによって生成されたサウンド モデルを選択することもできます。詳細についてはステップ 2 を参照してください)、デジタル ヒューマン ビデオを生成します。

デジタルヒューマンビデオ合成効果は次のとおりです: https://v.youku.com/v_show/id_XNjI3Mzk1NTc0MA==.html

 

02 ボーカルクローン

非常にリアルなデジタル ヒューマン イメージがある場合、「デジタル アバター」の生々しさと完成度をさらに高めるために、リアルなサウンドを同期させる必要もあります。

「音声クローン」には主に、トレーニング資料の準備、トレーニングの提出、VoiceId の生成の 3 つのステップが含まれます。

l トレーニング資料を準備する

複数のトレーニング音声 (Audio) と 1 つのセキュリティ認証音声 (Authentication)

l トレーニングを送信する

コンソールからトレーニングを送信し、サウンド名、セキュリティ認証音声、トレーニング音声などを入力し、「カスタマイズ開始」をクリックするとトレーニングが開始されます。

コンソールリンク:

https://ice.console.aliyun.com/production/voiceCopy/createStandard

l VoiceIdを生成する

トレーニングが完了すると、モデルの一意の識別子である VoiceId が取得され、「音声クローン - 公開版」リスト ページの「音声合成」ボタンをクリックすると、現在の音声モデルを音声合成に使用できます。

Vocal Clone-人気バージョン一覧ページ

テキストコンテンツを入力し、「リスニングを開始」ボタンをクリックすると、インテリジェントな音声合成が送信されます。

ライフクローン音声合成使用後の効果は以下の通りです。音声合成サンプル音声1

また、トレーニング中に渡された元のオーディオと効果を比較することもできます:オリジナルのトレーニング サウンド (インターセプト)

 

03 ワンクリックで「再生」

デジタル人体画像モデルのAvatarIdと専用の人声のVoiceIdを取得後、記事内で触れたコンソールから合成を送信するほか、タイムラインから一括送信・生成することでワンクリックで完了することも可能"再生"。

タイムラインの例は次のとおりです。

{
    "VideoTracks": [{
        "VideoTrackClips": [{
            "Type": "GlobalImage",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image1.jpg",
            "Height": 1920,
            "Width": 1080
        }]
    }, {
        "VideoTrackClips": [{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image2.png",
            "Height": 1920,
            "Width": 1080,
            "Duration": 2,
            "Effects": [{
                "Type": "Text",
                "Content": "什么是数字人和人声克隆?",
                "Alignment": "CenterCenter",
                "FontSize": 80,
                "EffectColorStyle": "CS0001-000001"
            }]
        },{
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "数字人和人声克隆是两个前沿的技术概念\n它们代表着数字技术在模拟人类外观和声音方面的最新成就",
            "ClipId": "avatar1",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        },{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image2.png",
            "Height": 1920,
            "Width": 1080,
            "Duration": 2,
            "Effects": [{
                "Type": "Text",
                "Content": "数字人",
                "Alignment": "CenterCenter",
                "FontSize": 150,
                "EffectColorStyle": "CS0001-000001"
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "数字人\n通常指由计算机生成的虚拟人类形象\n这些形象可以是二维(2D)或三维(3D)的\n具有与现实人类相似的外观、动作和行为\n随着图形渲染技术的进步\n数字人越来越能够以高度逼真的方式呈现\n包括复杂的面部表情、肢体动作\n并能在虚拟环境中以自然的方式行动",
            "ClipId": "avatar2",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image2.png",
            "Height": 1920,
            "Width": 1080,
            "Duration": 2,
            "Effects": [{
                "Type": "Text",
                "Content": "数字人的应用",
                "Alignment": "CenterCenter",
                "FontSize": 120,
                "EffectColorStyle": "CS0001-000001"
            }]
        },{
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "数字人的应用范围极其广泛",
            "ClipId": "avatar3",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "从电子游戏、电影和电视制作",
            "ClipId": "avatar4",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "到增强现实(AR)和虚拟现实(VR)体验等",
            "ClipId": "avatar5",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "到在线教育、模拟训练、客户服务和健康护理",
            "ClipId": "avatar6",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "在这些应用中\n数字人可以作为用户的虚拟代表\n或者作为虚拟助手和顾问\n提供帮助和咨询\n在娱乐产业中",
            "ClipId": "avatar7",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "数字人可以被用来创造虚构角色\n甚至在某些情况下代替真实的演员进行表演",
            "ClipId": "avatar8",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "而在商业领域\n数字人可以用作品牌大使或虚拟员工\n增加用户互动的吸引力",
            "ClipId": "avatar9",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "在教育和训练场景中\n数字人能够模拟不同的情境\n提供更加丰富和互动的学习体验",
            "ClipId": "avatar10",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        },{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image2.png",
            "Height": 1920,
            "Width": 1080,
            "Duration": 2,
            "Effects": [{
                "Type": "Text",
                "Content": "人声克隆",
                "Alignment": "CenterCenter",
                "FontSize": 150,
                "EffectColorStyle": "CS0001-000001"
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "人声克隆是指使用计算机算法模仿特定人的声音\n这项技术通过分析一个人的语音记录\n捕捉其独特的声音特征\n如音高、音色、语速和口音\n并创建一个可以产生类似声音的模型\n人声克隆技术往往建立在深度学习和神经网络的基础上\n通过大量的声音训练数据\n使得合成的声音越来越难以与原声区分",
            "ClipId": "avatar11",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image2.png",
            "Height": 1920,
            "Width": 1080,
            "Duration": 2,
            "Effects": [{
                "Type": "Text",
                "Content": "人声克隆的应用",
                "Alignment": "CenterCenter",
                "FontSize": 120,
                "EffectColorStyle": "CS0001-000001"
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "人声克隆可以用在多个方面",
            "ClipId": "avatar12",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "例如为无法亲自录音的艺术家复原声音",
            "ClipId": "avatar13",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "或为语音辅助设备提供更自然的语音输出",
            "ClipId": "avatar14",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "它也可以帮助有语音障碍的人恢复他们的声音",
            "ClipId": "avatar15",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "或用于个性化的语音合成服务\n如定制语音导航或个人助理",
            "ClipId": "avatar16",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "人声克隆技术可以为数字人提供声线\n使得虚拟角色不仅在视觉上\n还在听觉上都显得栩栩如生\n具有高度自然语音的数字人能够提供更加动态和亲切的交互体验\n从而在各种虚拟场景中担任重要角色",
            "ClipId": "avatar17",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        },{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image2.png",
            "Height": 1920,
            "Width": 1080,
            "Duration": 2,
            "Effects": [{
                "Type": "Text",
                "Content": "总结",
                "Alignment": "CenterCenter",
                "FontSize": 150,
                "EffectColorStyle": "CS0001-000001"
            }]
        }, {
            "Type": "AI_Avatar",
            "AvatarId": "Avatar-******",
            "CustomizedVoice": "Voice-******",
            "Content": "结合数字人和人声克隆技术\n我们可以创造出能够在屏幕上以二维形象出现并以逼真的人声进行沟通的虚拟代表\n这种结合提供了丰富的用户体验\n并在教育、娱乐、客户服务等各种场景中拥有潜在的应用价值",
            "ClipId": "avatar18",
            "Effects": [{
                "Type": "AI_ASR",
                "FontSize": 60,
                "Alignment": "TopCenter",
                "Y": 1670,
                "EffectColorStyle": "CS0001-000007",
                "AdaptMode": "AutoWrap",
                "TextWidth": 0.8
            }]
        }]
    },{
        "VideoTrackClips": [{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image3.png",
            "ReferenceClipId": "avatar4"
        },{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image4.png",
            "ReferenceClipId": "avatar5"
        },{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image5.png",
            "ReferenceClipId": "avatar6"
        },{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image6.png",
            "ReferenceClipId": "avatar8"
        },{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image7.png",
            "ReferenceClipId": "avatar9"
        },{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image8.png",
            "ReferenceClipId": "avatar10"
        },{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image9.png",
            "ReferenceClipId": "avatar13"
        },{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image10.png",
            "ReferenceClipId": "avatar14"
        },{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image11.png",
            "ReferenceClipId": "avatar15"
        },{
            "Type": "Image",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image12.png",
            "ReferenceClipId": "avatar16"
        }]
    },{
        "VideoTrackClips": [{
            "Type": "GlobalImage",
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/image13.png",
            "Width": 312,
            "Height": 72,
            "X": 0,
            "Y": 1848
        }]
    }],
    "AudioTracks": [{
        "AudioTrackClips": [{
            "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/audio1.wav",
            "LoopMode": true,
            "Effects": [{
                "Type": "Volume",
                "Gain": "0.2"
            }]
        }]
    }]
}

各 API ドキュメントへのリンク:

1. SubmitAvatarVideoJob - デジタル ヒューマン ビデオ合成タスクを送信します。

2. SubmitAudioProduceJob - インテリジェントな音声タスクを送信します

3. SubmitMediaProducingJob - 編集および合成タスクを送信します。

この例で使用されている話し言葉のコピー、写真、音楽などはすべて、さまざまな生成モデルによって生成されていることに言及する価値があります。言い換えると、このビデオの入力は「デジタル人々の間の関係を紹介してください」という 1 つの段落だけです。および音声クローン技術」。

Cloud Intelligent Editing の今後の「ワンクリック動画編集」機能にご期待ください! 単語、段落を入力するだけで、非常に簡単な設定だけで高品質な動画を生成できます。

インテリジェントメディアサービスIMS「Cloud Intelligent Editing」は、クラウドコンピューティングと人工知能技術をベースにした動画編集制作サービスで、生放送編集、動画編集、テンプレートファクトリー、デジタルヒューマン制作などのコア機能をユーザーに提供し、 AIを活用して編集制作を支援します。この製品は、インターネット、文化メディア、広告とマーケティング、教育と金融、その他の業界で広く使用でき、大規模で効率的、便利でインテリジェントなビデオコンテンツ制作に対する企業のニーズに応えます。

相談やコミュニケーションのために公式 Q& A DingTalk グループへようこそ: 48335001108

「デジタル人間と人間の音声のクローン作成」製品ドキュメント

Broadcom は、既存の VMware パートナー プログラム Deepin-IDE バージョン アップデートの終了を発表し 、新しい外観に なりました。WAVE SUMMIT は第 10 回を迎えます。Wen Xinyiyan が最新の情報を公開します。 周宏儀: 紅夢ネイティブは間違いなく成功するだろう GTA 5 の完全なソースコードが公開された ライナス: クリスマスイブにはコードを読まないつもりだ Java ツールセットの新バージョン Hutool-5.8.24をリリースする来年。一緒 にフリオンについて文句を言いましょう。商業探査: ボートは通過しました。万中山、v4.9.1.15 Apple、オープンソースのマルチモーダル大規模言語モデルをリリース フェレット ヤクルト会社、95G データが漏洩したことを確認
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4713941/blog/10456185