Dingding オーディオおよびビデオの専門家 Feng Jinwei との対話: 大きなモデルがすべてではない

1e5a07e6e6ae2b33a54ba3d44212e232.jpeg

キュレーター: LiveVideoStack

オーディオおよびビデオ技術の分野では、ICASSP 会議は業界にとって風見鶏の会議であり、音声分野の実務者が次世代技術の開発を研究するための祭典でもあります。最近、国内外の大手企業がカン​​ファレンスへの論文エントリーのニュースを相次いで発表しており、Dingding Hummingbird Audio Labからも2本の論文がICASSP2023に参加しました。

その中で同研究室は、「AIモデルを利用してエコー、ノイズ、残響の3種類の干渉音を同時に除去する」という新たな研究を提案し、計算量と帯域幅を節約し、遅延を低減し、音質を向上させることができるとしている。この研究がどのような問題を解決できるのか、どのような効果が得られるのか、どのようなシナリオで活用できるのか、非常に興味があります。

さらに、AIGC テクノロジーの出現により、あらゆる業界が人間とコンピューターのインタラクション エクスペリエンスにおける革命に直面しています。もう一つの注目は、大型モデルの開発がオーディオ・ビデオ分野に与える影響です。これら 2 つの要素に基づいて、私たちは最近、国内のオーディオおよびビデオ分野の専門家である Dingding Hummingbird Laboratory の所長である Feng Jinwei 博士と連絡を取りました。

Feng Jinwei との会話の中で、彼らのチームがノイズ リダクション、エコー キャンセル、残響に自社開発した AI モデルを使用しただけでなく、現在では Dingding 会議ソフトウェアである Rooms と Dingding 会議用オールインワン マシンを開発したことを知りました。 F1/F2では、技術のオープン化の過程で、オフライン会議で遠くに座ったときに聞こえない問題を解決するための独自のマイクアレイ技術も開発し、業界で広く注目を集めました。

AIGC と将来の技術革命について話した際、Feng Jinwei 氏は、AIGC が業界に与える影響はそれほど大きくないと述べ、第一に、大型モデルにはリアルタイム オーディオとビデオに対する効果的なソリューションが一時的に欠けていること、第二に、AIGC はリアルタイム オーディオとビデオとは異なることであると述べました。 AIGC の推論と生成: 音響と基礎となるアルゴリズムのレベルでは、AI を使用して「現実を復元」し、収集した音声とビデオの情報をオフライン会議のような臨場感にできる限り復元することに、より注意を払っています。オーディオ処理における 3 つの主要な問題、つまりエコー キャンセル、ノイズ リダクション、および残響除去を解決します。

Feng Jinwei 氏の見解では、Hummingbird Lab の位置付けは、会議のインテリジェントな要約など、大規模なモデル トラックでのアプリケーション シナリオを組み合わせることができると同時に、ソフトウェアおよびハードウェア製品の全プロセスの技術、信号処理技術を開発し、音響原理を開発することができます。これらの技術は AI に関連していますが、大きなモデルには関連していません。「ディープラーニングに代表される AI 技術の発展と成熟は、主要なオーディオおよびビデオ技術のブレークスルーに新たな方向性をもたらすでしょう。従来の技術では解決できない問題については、さまざまな技術を統合することで問題解決の難易度を軽減できます。」 「AI、AI削減など。ノイズが多い」とFeng Jinwei氏は述べ、これは基礎技術におけるDingTalk会議の探求の方向性でもある。

この記事は LiveVideoStack と Feng Jinwei の対話を編集したもので、以下は編集および削除されました。

1. AI の登場はオーディオおよびビデオ業界にどのような新たな驚きをもたらすでしょうか? パラレルクラウドとメタバース

  1.  LiveVideoStack: ChatGPT、大規模モデル、AIGC など、現在ブームになっている新しいコンセプトやテクノロジーについてどう思いますか?

Feng Jinwei:まず第一に、AIGC がもたらす価値を確認する必要があります。メタバースの突風とは異なり、AIGC はコピーライターのクリエイティブ効率の向上を支援するなど、多くの業界に真の価値をもたらすことができます。現在、AI には予備的な汎用人工知能 AGI があり、これは以前とは質的に異なります。

現在、人類は予備的な汎用人工知能しか持っていませんが、テクノロジーの発展は直線的ではなく飛躍的です。奇妙な年や特異点についてよく話されますが、アインシュタインの 1905 年は技術的に特異な年でした。神の視点から見ると、私たちは過去 2 年間で技術的に特異な年の真っ只中にいるのかもしれません。

オーディオ・ビデオ業界の話に戻りますが、現時点ではAIGCはそれほど大きな影響を与えていないと思います。

まず、影響がなければなりません。DingTalk は、会議の概要などのアプリケーション シナリオも検討しています。大規模なモデルが音声とビデオに埋め込まれた後の最も直接的な変更は、会議の内容の抽出と概要です。

第 2 に、大規模なモデルにはオーディオとビデオのリアルタイム パフォーマンスに対する効果的なソリューションが一時的に欠けており、オーディオおよびビデオ アプリケーションの許容遅延は数十ミリ秒、最大でも 200 ミリ秒であり、これは非常に要求が厳しいです。オーディオ アルゴリズムの処理はフレームごと (たとえば、フレーム長が 10 ミリ秒)、つまりストリーミング処理であり、データの各フレームを 10 ミリ秒以内に処理する必要があり、処理されたデータは下位エンドに送信されます。オーディオおよびビデオ システムの 1 つのモジュールの後、次の 10 ミリ秒のデータを処理し続け、何度も開始されますが、現在の AIGC には明らかに、それをサポートするようなストリーミング処理機能がありません。

第三に、音響と基礎となるアルゴリズムのレベルでは、この大きなモデルは現在、検索、推論、生成に優れていますが、オーディオおよびビデオのアプリケーションでは、オンライン会議とオフラインを実現するために AI を使用して「現実を復元」することにより注意を払っています。たとえば、同じ「プレゼンス」でも、音声処理の 3 つの主要な問題であるエコー キャンセル、ノイズ リダクション、残響を解決するために AI モデル、つまりインテリジェント 3A アルゴリズムを使用します。

私たちは今後も注目し続けますが、おそらくある時点で、技術的特異点が予期せぬアプリケーションをもたらすでしょう。

  1. LiveVideoStack: 先ほど 3A アルゴリズムについて話されましたが、今回、選ばれたトップカンファレンス論文の 1 つもこのトピックに関するものです。研究結果に基づいて、従来のアルゴリズムと AI アルゴリズムの最大の違いは何ですか? この技術はあなたの製品に組み込まれていますか?

Feng Jinwei:今回は「リアルタイムフルバンド音声通信におけるエコー、ノイズ、残響を共同除去するためのディープナローバンドネットワーク」に関する論文がありますが、その背後で私たちが行っているのは「1つのモデル、マルチタスク」の研究です。 。この研究は、AI がこれら 3 種類の干渉音を 1 つのモデルで同時に処理できることを検証するために使用されます。これは、マルチタスク学習が一般的な表現や表現を学習できるという AI 分野のコンセンサスとも一致しています。一般化能力を向上させます。

これまでの技術の多くは、エコー、ノイズ、残響の3種類の干渉音を個別に処理していたため、モジュールごとに計算量やアルゴリズムの遅延が蓄積し、ロバスト性の低下を招きやすく、全体的な処理を行うことができませんでした。オーディオリンクのモニタリング、最適化。

私たちの実験では、3 つの公開テスト セットにおいて、サブタスク専用の最先端モデルと比較して、リモートのシングルスピーキング シナリオおよびダブルスピーキング シナリオでのパフォーマンスが 57% 向上することが示されています。音声品質は5%、8%向上しており、いくつかの研究結果は当社の製品にも適用されています。

従来のアルゴリズムと AI アルゴリズムの違いは、データ モデリングのパスの違いにあると思います。1 つは、ガウス分布などの数学的な分析式に基づく比較的単純なモデリングです。定常状態のノイズ信号など、より適切なシナリオの場合は、従来のアルゴリズムが使用されます。処理効果は依然として許容可能です; もう 1 つはデータ駆動型モデリングです。深層学習の強力なモデリング機能により、特にトレーニング データが十分に豊富な場合、AI アルゴリズムはより複雑なシナリオでタスクを処理できます。これは現在の AI アルゴリズムでもあります。非定常ノイズの除去や遅延ジッター下でのエコーキャンセルなど、効果の質的向上の理由。従来の手法は一般的に計算量が比較的少なく、説明可能性が高いため、この 2 つの手法は補完的なものであると考えています。

現在、現在の会議ソフトウェアの問題点の一つでもある、職場シーンでの同僚の会話による周囲のノイズを除去し、すべてのアルゴリズムを同じフレームワークに組み込むなど、この技術の拡張について研究を行っています。 , 計算量を節約したり、レイテンシを短縮したりするためです。

  1. LiveVideoStack: では、2 つの AI の関係と次の投資計画についてはどう思いますか?

Feng Jinwei:これら 2 種類の AI は相互に排他的ではないと思います。1 つはアプリケーション層でのインテリジェントな探索であり、もう 1 つはプロフェッショナルなシナリオにおける基盤テクノロジーのサポートです。

現在、AIというのはオーディオやビデオにおいては比較的重要なアプリケーションだと思っておりまして、これはカンファレンスの概要というか総括というか、今年実装したアプリケーションでもあります。5 月末に行われるディンディン スラッシュ「/」招待テストにもこの機能が含まれており、逐語的な省略表現を生成するのに役立ち、章やトピックごとに要約や To-Do を自動的に生成できます。これにより、2、3 時間の長時間の会議でも、スマートな議事録を 3 分で読むことができます。 

文字起こし、要約、オーディオ 3A テクノロジー (リバーブ除去、ノイズ、エコー) などのこれらの AI のシーン機能は、相互に排他的ではありません。3A テクノロジーは、上記のシナリオ向けの強力な基盤テクノロジーによってサポートされており、サウンドがよりクリアになると、コンテンツ認識がより正確になります。したがって、AIGC が登場したとしても、これらの基盤となるテクノロジーは引き続き最適化され、取り組む必要があり、リソースも継続的に投資する必要があります。

さらに、AI 技術は、ノーリファレンス音質評価、パーソナライズド SE、NetEQ、LPC、オーディオ超解像技術など、オーディオ分野での多くの応用可能性を秘めています。AI技術は、ネットワーク遅延の変動や機器の移動時に発生するエコーなど、従来の方法では解決できなかった問題も解決できます。この一連の作業を通じて、私たちが考えるテクノロジーの最も価値のある部分でもある、ユーザーの情報コミュニケーションのバリアフリーの実現に真に貢献できることを願っています。

2. テクニカルルートの独自性とオープン戦略

  1. LiveVideoStack: あなたの技術的な路線は他の企業とは異なるように思えますが、営利企業におけるテクノロジーのテーマについてどう思いますか?また、過去 2 年間で何か例はありましたか?

Feng Jinwei: Hummingbird Audio Lab の仕事は製品指向であり、新技術の研究開発は製品の開発を目的とし、新技術プロジェクトの設立もユーザーの問題を解決することを目的としています。

営利企業でありテクノロジー企業であるため、製品は商業化の基礎を築く前に競争力がなければなりません。そのため、私たちの作業時間のほとんどは製品に集中しています。大学の研究室や政府の研究機関が行う理論研究ではなく、技術を徹底的に磨き上げ、「市場の半歩先を行く」技術を開発するのも私たちの仕事のひとつです。

研究室が設立されて以来、多くの実践的な進歩がありました。たとえば、オーディオチェーン全体に人工知能テクノロジーを導入し、AIモデルがノイズリダクション、エコー除去、残響に使用されるだけでなく、パケットロス補償、オーディオ超解像度、およびコーデック。

現在、DingTalk が独自に開発した AI ノイズ低減アルゴリズムが実装されており、今後さまざまな製品形態の DingTalk 会議に順次適用されていく予定であり、業界初のフルバンド音声 AI ノイズ低減アルゴリズムを実装した会議プラットフォームでもあります。これまでのところ、国内外の会議ソフトウェアであるDingTalkとGoogle Meetのみがフルバンド音声通信を使用していますが、Google MeetはまだAIノイズリダクションを行っていません。

DingTalk が独自に開発したノイズ低減アルゴリズムの技術的特徴は、大量のノイズ低減と少ない計算量でありながら、高い音声忠実度を実現することです。ノイズ低減時の音声へのダメージは、現在市場に出ているほとんどすべての AI ノイズ低減技術に存在する問題であるため、アルゴリズムを設計する際に音声成分を可能な限り保護するように努めました。

さらに、会議室での会議の利便性を向上させる革新的な会議機器転送技術を開発しました。最初に携帯電話を使用して会議に参加すると想像してください。会議室に到着したら、会議室の機器に長い会議コードを入力する必要はなく、会議に参加するために必要なのは、携帯電話のボタンを押すと、会議は自動的に会議室の機器が稼働している状態に転送されます。

第三に、製品体験を磨き上げる過程で、私たちのチームは独自のマイクアレイ技術も提案し、INTERSPEECH と ICASSP に一連の論文を掲載した後、多くの論文が私たちの研究に続きました。現在、この技術は当社のハードウェア製品カンファレンス一体型マシンF2にも実装されており、エコロジカルパートナーにも公開されています。厳格なテストを経て、国際的に有名なブランドが当社との協力を決定し、その製品が間もなく発売される予定です。

  1. LiveVideoStack:今回のAIノイズリダクションを製品に導入した経験など、テクノロジーを使って製品をサポートしていく中で、苦い思い出はありますか?

フォン・ジンウェイ:はい、実際、成功体験もあれば、辛い思い出もあります。

成功体験としては、例えば当社のオールインワンビデオ会議機F1はゼロから半年で市場に本格的に投入され、現在の市場シェアは約1/3と大成功を収めている技術と製品です。ビジネスチームのシームレスな協力の結果。

研究は特定の結果を保証するものではなく、研究自体に大きな不確実性があることは誰もが知っています。今回のAIノイズリダクション製品は実は紆余曲折があり、初期段階では効果が目に見えて分からず、方向性が間違っているのではないかと誰もが疑っていました。その後、チームは諦めずにデータとネットワークのフレームワークの改善を続け、最終的に満足のいく結果を得ることができました。この結果を国内外の競合製品と比較したところ、騒音低減効果は業界初のレベルに入ることができました。

もちろん、技術をやっていると、研究を重ねて成果は出たものの、さまざまな理由で最終的に製品化に至らないこともあります。私たちのテクノロジーは、より多くのユーザーに恩恵をもたらすことができます。

  1. LiveVideoStack: これらのテクノロジーの実装が成功した後、どの業界パートナーに開放され、その評価はどうなりましたか? 思い出に残っていることはありますか?

Feng Jinwei: Logitech、Intel、Lenovo など、多くのエコロジカル パートナーにオープンであり、当社のアルゴリズムとモジュールを使用しています。

特に昨年 8 月に、Insta360 のアルゴリズムとエンジニアリング ソリューションの完全なセットを公開し、長距離集音、インテリジェントなノイズ リダクション、音源定位技術に非常に満足していただきました。私たちは、アルゴリズム機能と技術モジュールの公開を通じて、業界チェーンのより多くのパートナーがそれらを迅速に再利用して、機器のインテリジェントなアップグレードを実現できることを願っています。

ちなみに、当社はエコロジカルパートナーに対しても、オンサイトサービスの提供や、パートナーの製品の性能が設計上の期待を満たしていることを保証するための業界の高度な認証評価に合格するなど、包括的なサービスセットを提供しています。私たちの生態学的協力の場です。

当社の技術とサービスモデルを知った後、DingTalk との提携を決意したエコパートナーや、その評判に惹かれて当社の技術を無条件に信頼して来店する顧客もおり、これらの事例には深い感銘を受けています。

  1. LiveVideoStack: 最後の質問ですが、テクノロジーがどれほど強力であっても、密室で自動車を製造することはできません。技術者として、テクノロジー、製品、ビジネスの関係をどのように見ていますか?

Feng Jinwei:私の意見では、テクノロジーはビジネスの成功にとって必要条件に過ぎず、十分条件ではありません。歴史には多くの事例があります。

第一に、多くのテクノロジー産業の特徴は勝者がすべてを獲得する、つまり勝者がすべてを獲得することであるため、市場で勝つためにはテクノロジー企業のテクノロジーを進化させる必要があります。チップ業界が良い例ですが、トップは1人か2人しかおらず、技術開発は日進月歩で変化するため、技術の研究開発に携わる学生は危機感を抱くことが多いです。

第二に、技術リソースは常に限られており、要求を満たすことは決してできないため、技術への集中と集中という問題が依然として存在します。私の観点からは、技術的な製品エクスペリエンスに焦点を当てることが最も重要ですが、この種の焦点は、技術者が密室で車を製造することを意味するものではなく、DingTalk および DingTalk 全体の戦略と組み合わせる必要があります。オーディオおよびビデオ事業部門は、顧客の実際のニーズと組み合わせ、問題点を必要とし、どれが主要なラインでどれが本質に影響を与えるかを理解します。このレベルのことは徹底的に行う必要があります。

最後に、Feng Jinwei 氏は、最近読んだ、またはその本の技術開発の歴史に触発された「半導体概説」についても共有し、オーディオおよびビデオ業界の想像上の青写真について説明してくれました。

1d166436e4219e70ba531c4dba6bc716.png

画像内のQRコードをスキャンするか、「元のテキストを読む」をクリックしてください 

LiveVideoStackCon 2023 Shanghai Station のさらにエキサイティングなトピックをチェックしてください

おすすめ

転載: blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/131198659