https://mp.weixin.qq.com/s/NXGSLylqaItkcCmfUBbIuA
By 超神经
在 1 月 28 日的 2019 网络春晚上,AI 虚拟主持人登台主持节目,撒贝宁作为与 AI 替身同台的主持人之一,当场宣布准备准备「隐退」, AI 取代主持人的时刻真的来临了吗?
今年のインターネットスプリングイブニングでは、Sa Beining、Zhu Xun、Gao Bo、Long Yangの登場に基づいて、4つの仮想イメージホストが初めて登場しました。4つのホストはすべて、仮想ホストと同じステージでホストされ、パーティーに本当に多くの楽しみを加えました。
口の速いXiaosaがAI Xiaosaの前でほとんど列から外れています
ビデオからわかるように、仮想AIホストとエンティティの間には大きな類似点があります。電話に応答したりシェイクしたりするときに人間を失わないことに加えて、対応するボディランゲージもあり、各仮想ホストには異なる表情の特徴。
仮想ホストとは
報告によると、今回はインターネットスプリングフェスティバルガラの仮想ホストが、仮想画像を構築するための3D画像再構成と電子音響シミュレーション技術によりObENであり、パーソナライズされた人工知能仮想画像PAI(パーソナルAI)を作成しています。 )。
このオンラインスプリングフェスティバルガラのバーチャルホストに加えて、ObENは有名人やスター会社とも協力しました。韓国最大のエンターテイメント企業であるSM Corporationは、ObENの初期のエンジェル投資家の1つです。
2017年6月、ObENは韓国のSMエンターテインメント会社と協力して、世界で最初の人工知能スター著作権会社AIスター(中国語ではマジックスターと呼ばれる)を設立し、仮想アイドルを作成しました。国内の女性アイドルグループSNH48もObENとのコラボレーションを発表し、人工知能の独占的なイメージを作成しました。
この製品のコアテクノロジーは、主に3つの側面にあります。
まず、それは視覚的なイメージの確立です。ホストの体の写真を使用し、3Dスキャナー、3DS MAX、MAYAおよびその他の3Dモデリングツールを使用して、AIがアルゴリズムモデルを構築し、最後に、写真の色分布と構造の深さの関係を理解することで顔と体の形状を構築します。
二つ目は音の合成です。彼らが使用するAI音声技術は、音声ライブラリの大規模なコレクションを必要とせず、数十文の音声録音のみを必要とし、音声モデルの確立は、特徴パラメーターの抽出や転移学習などの方法によって達成できます。
最後に、仮想ホストをできるだけ現実的にします。これには、サウンドに合わせてビジュアルが必要になるだけでなく、それらをパーソナライズする必要もあります。センサーとモーショントラッキング装置をAIとモーションキャプチャトレーニングと組み合わせることで、仮想ホストは、対応する身体に応じて、話し言葉、顔の表情、ジェスチャー、身体の動き、シーンの相互作用をシミュレートできます。
AIがクロスオーバーをホストしたのは今回が初めてですが、AI仮想アンカーの世界には実際に多くの登場があります。
中国初のAIニュースアンカー
2018年11月に開催された第5回インターネット会議で、新華社は新しい記者の1人を紹介しました。これはAI仮想合成の最初のニュースアンカーです。AIのプロトタイプであるQiu Hao氏は次のように述べています。それは私のイメージであり、音は私の声に合っていますが、放送された言葉を私は一度も言ったことがありません...」
このビデオでは、ビデオのアンカーを見て、アクセントで自己紹介し、声、顔、唇に対応する動きがあります。驚きはあると言わざるを得ませんが、それでもいくつかの失望があります。ライブアンカーと比べると、機械化の成果であることが一目でわかります。それが機能する方法は、人間がプレスリリースを書くことを必要とします。
この共同技術サポートは、Sogouの「クローン技術」に由来しています。このテクノロジーの背後にある鍵は、音声合成と画像生成です。
音声合成技術では、少量の音声データを使用して、機械モデルが入力オブジェクトの発話特性を学習し、音色、リズム、感情などの側面を把握し、最終的に入力テキストの音声情報を実現できます。
画像生成は、顔認識、3次元顔再構成、表情モデリングなどの学習と構築を使用し、最終的に出力音声と出力視覚情報の対応を実現します。
これらのスロットに関係なく、このテクノロジーの最大の宣伝ポイントは、画面でクローン機能を実現できることです。おそらく、テレビ、タブレット、携帯電話を使用して、3つの異なるコンテンツを同時に放送している人を見ることができます。
ネオンの国は初音を構築するだけでなく、アンカーも構築します
日本は以前に報告しており、AIアンカーも作成されています。
昨年4月、NHKテレビの「NEWS CHECK 11」という番組で、アンカーはかわいい漫画のAIアンカー「ニュースアンカーよみこ」でした。
このアンカーはCG技術を使用して作成され、多数の録音から音素に分割することを学び、次にテキストの認識と読みを学び、最後にニュースを読みます。
また、ニュースアンカーとしてのロボットも実現しています。
大阪大学と京都大学が開発した美容ロボット「エリカ」は、2018年4月に日本のNNNテレビ局のニュースアンカーを務めました。
「エリカ」は23歳の美少女を舞台に、女性らしい顔立ちを与えられ、「エリカ」の声は、声優の録音をもとに合成され、とても自然と言える。
また、高度な対話システムも備えており、人と話すときはマイクやセンサーで情報を収集し、相手の声や行動を感知して相手に向きを変え、スムーズな会話を行います。
目、口、首など19箇所を空気圧で動かすことができ、多彩な表情を見せ、簡単な動きも鮮やかに行えます。
ホストはいつ交換されますか?
インターネット春まつりといえば、エッチな4人のバーチャルホストの登場が注目されており、観客の態度からはかなり気に入っていることがわかる。
それで、彼らはホストが解雇される機会になるでしょうか?おそらく、XiaosaもXiao Xiaosaも同意しないでしょう。
「シャオサ送別ステージ」
AIニュース放送のアクセントや一貫性のない表情については、まだ改善の余地があります。日本の活気に満ちたニュース放送ロボットは、地元の報道業界に大規模に取って代わったわけではなく、せいぜい補助的で目新しさのレベルにとどまっています。
このように見れば、技術の進歩は確かに私たちに斬新で美しい体験をもたらしましたが、おそらくそのような時代では、仕掛けは実際よりも速く進みます。
交換される日が最終的に来るかもしれませんが、それは確かに今日ではありません。その日が来れば、人間はAIとの付き合い方を解決したかもしれないと信じるべきです。当時の春祭りでは、春祭りの祭典を主催するAIだけでなく、AIのパフォーマンスも見られます。
私たちは、あなたの口を開いた状態でAIが私たちに食べさせるのを待ちます。
超神経百科事典
転移学習
転移学習は、既存の知識を使用して新しい知識を学習する方法です。
転移学習では、既存の知識はソースドメインと呼ばれ、学習される新しい知識はターゲットドメインと呼ばれます。
移行学習の目的は、1つ以上のソースタスクから知識と経験を抽出し、それをターゲットドメインに適用することです。
転移学習の基本的な方法
1)サンプルの移行で
は、ソースドメイン内のターゲットドメインに類似したデータを検出し、このデータの重みを調整して、新しいデータをターゲットドメインのデータと一致させます。
2)モデルの移行で
は、ソースドメインとターゲットドメインがモデルパラメーターを共有することを前提としています。つまり、大量のデータを通じてソースドメインでトレーニングされたモデルが、予測のためにターゲットドメインに適用されます。
3)関係の移行
2つのドメインが類似していると仮定すると、それらは特定の類似関係を共有し、移行のためにソースドメインの論理ネットワーク関係がターゲットドメインに適用されます。