オンラインで K ソングを「再生」する方法—Tear のオーディオおよびビデオ アーキテクト、Cheng Le 氏へのインタビュー

cdcca59929e1478ceac02b60b2c34468.jpeg

編集者注:通信カラオケ ビジネスは 10 年前から発展しており、Cheng Le はオーディオおよびビデオの分野にも 10 年、あるいはそれ以上取り組んでいます。なぜ通信カラオケという分野を選んだのでしょうか?「長い季節」をどう歩み、新たな景色を迎えるか?「オンラインカラオケ」という難しい骨の部分をどのように共有するか?この一連の質問には、単純な答えが 1 つだけあります。それは「興味」です。以下はチェン・レのナレーションです——

01興味が すべてを決める

中学生くらいからオーディオやビデオに興味を持ち始めました。大学時代に普及したラジオ、テーププレーヤー、CD、VCD、DVD、mp3からMP4、タブレット、カメラなどは基本的にお金を貯めて手に入れるもので、そのことで親とトラブルになることもよくありました。 。

c9a9cb70b978c11f1717b564e5c64adb.pngチェン・レ

学生時代は時間がたっぷりありましたが、ちょうどスマートフォンが普及する直前で、MP4端末が流行っていましたので、基本的に古いものを売って新しいものを買うということを繰り返していました。最新のデバイスでは、単一の 480p Xvid ビデオ形式のみをサポートしていましたが、720p rmvb は 1080p H264 になり、その寿命の終わりには 4K にまで移行しました (まだ 2010 年より前でした)。当時、私は imp3 フォーラム (現在は閉鎖されています) でも非常に活発に活動し、新しいチップ ソリューションのデコード パフォーマンスやさまざまなエンコード形式の長所と短所について議論しました。

d6cebff8e3fb123f52b24be08ef35a21.jpeg2018 年 11 月、iMP3 は正式に閉鎖を発表しました。

各種メーカーの評価キャンペーンにも参加し、評価を書くとマシンの半額からスタートできます。当時のフォーラムの影響で私もヘッドフォンに熱中し始めましたが、どのヘッドフォンが重低音、中音域、高音の甘さを実現できるのか、ロスレスApe FlacはWMA MP3よりどれくらい優れているのか、などです。すべては手出しの範囲内です。

卒業後の2番目の仕事はテレビボックスの製作で、最終的な結果はあまり良くありませんでしたが、当時は不安も少なく、幸せで純粋な生活を送っていました。当時私が日々考えていたのは、ローカル再生の互換性をどう高めるか、MP4/flv/mkv/ts形式をどうやってパッケージ化するか、Blu-rayナビゲーションをどうするか、ASS/PGS字幕をどう解析してレンダリングするか、などでした。各ハードウェアデコーダの適応方法、ネットワーク再生の安定性向上方法など。

その時の様子は、まるで本格的なゲームプレイヤーが自分の思い通りに新しいゲームを開発し始めているようなもので、仕事の経験としてはかなり満足のいくものでした。

その後、モバイルライブ配信やショートビデオが台頭し始めたときに、これまで蓄積してきた音声と映像の経験を活かしてモバイルライブ配信やショートビデオのSDKとして開発したのですが、当時は今でも多くのお客様にご利用いただいているはずです。その後、リアルタイム言語チャットK曲の涙のシーンもやり始めましたが、これもパーティーBからパーティーAに転送されました。

つまり、私は卒業後もずっと働いており、自分の興味のある分野で働くことができてとても幸運です。振り返ってみると、オーディオとビデオの敷居を越えるには興味が非常に必要であり、効果的ですので、この業界を目指す学生にはオーディオとビデオに興味を持ってもらいたいと思っています。

02 カラオケトラックで血まみれの道を殺せ

次に、ビジネスについてお話します。私は 2019 年に Framefun に入社し、その後、会社のオーディオおよびビデオ関連テクノロジーと K songs の全体的な経験を引き継ぎ始めました。主な焦点はクライアント側にあり、サーバー側のオーディオおよびビデオ機能のほとんどはサードパーティのサービスを使用するため、自分で行う必要は少なくなります。

では、他の大手メーカーと比べて、当社の技術的優位性はどこにあるのでしょうか?

まず第一に、当社には強力な戦闘能力を備えたビジネス チームがあり、さまざまな新しい頭脳ホール ゲームですぐに試したり失敗したりすることができ、多くの場合初めてユーザーになります。『Tear Song』ではカラオケのゲームプレイもかなり模索されており、例えば最初の2人でのナンパプレイ、その後のマルチプレイでのナンパプレイなど、よりソーシャル化しやすい方向に進んでいます。 。

478fededd9d6072c2ea907629fad57aa.png

曲を裂くさまざまな方法は基本的に若者の興味を引く

ティアリング ソングについて知っている人なら誰でも、ティアリング ソングがリアルタイムのカラオケ ゲームプレイに基づいていることがわかりますカラオケはソーシャルアイスブレイクゲームであり、誰もが歌うという共通の趣味を持っているため、話題を広げやすく、社会的な関係を蓄積しやすく、社会的な関係を築いた後はユーザーの粘着力が高まります。

2つ目はKソング体験部分で、主にビジネスに焦点を当てた他のボイスチャットアプリと比較して、私たちは独自に多くのニーズを満たすことができる専門のオーディオとビデオチームを持っているため、私たちなしではサードパーティが役に立たないことはありません。さらに、一連の主観的および客観的な評価メカニズムを徐々に確立し、サードパーティに焦点を最適化するよう促し、利点を統合して最適なサプライヤーを柔軟に選択できます。

過去数年間、すべての RTC メーカーは、汎エンターテイメント カラオケ シーンへの投資を欠いていました。当社の取得およびレンダリング ソリューションには、低遅延のイヤー リターン、イヤー リターンの互換性、ボーカル伴奏の調整という利点があります。AEC と歌唱スコアも同様です。しかし、各企業が投入するリソースが増加するにつれて、その差は縮まるでしょう。AEC効果と同様に、第三者機関によるこの2年間で概ね大きな進展が見られますので、今回の場合は最終的に総合的な主観的・客観的な評価結果に基づいて調整を行うことになります。

穴を踏んで、一歩ずつ成長してください

53e86737f09e20bdd2642a4829c158e3.jpeg

主な技術的な問題は、小規模チームが直面するフルスタック要件です。私自身、オーディオおよびビデオのエンジニアリング開発を行ってきたため、歌唱体験の大部分は、音響効果、歌唱スコア、エコー キャンセル効果などのハードコア アルゴリズムにも基づいています。

歌唱と採点については、19 年の初めに適切なサードパーティの技術サービスを見つけるのが困難でした。当時、アルゴリズム セットの作成を手伝ってくれるようにアルバイトに頼みましたが、比較的大きなサービスは常に存在していました。エフェクトの精度に問題がありました。当時は半分以上を費やしました。月に4、5本の論文をかじって、スコアリングアルゴリズムの比較的大規模な最適化を行い、精度も大幅に向上しました。私たちのエンターテイメントの歌のニーズをほぼ満たすことができます。

エコーキャンセリングもここで試みられていますが、当時は教育産業が本格化しており、RTCメーカーは基本的に会議や教育分野に注力しており、当社のエンターテイメントカラオケ製品の需要は比較的低かったのです。当時のエコー キャンセルに関する最も明白な問題は、二人で話すシーンで人間の声の抑制が非常に厳しく、人間の声がひどくこもってしまい、一部の音節が失われることさえあったことでした。

会議のシーンでは、このような問題は特に深刻ではなく、相手の言っていることがはっきりと聞き取れれば十分ですが、カラオケのシーンでは、このような人間の音声の損傷は非常に悪影響を及ぼします。可能な限りボーカルのディテールを維持するように努めてくださいその際、AECアルゴリズムをWebRTCで抽出することも試み、歌唱時の非線形処理部分をシールドして線形処理のみを行い、伴奏の正確なミキシングにより残留エコーを抑制しました。

bf92b16c7276b3eca85a575fdbac43bf.jpeg

当時のさまざまな RTC メーカーの総合的な影響を考慮すると、ほとんどの場合、このソリューションのエクスペリエンスはさらに向上します。もちろん、教育が廃止されてからは、さまざまな企業が汎エンターテインメント市場に注目するようになり、この分野での経験は質的に飛躍し、現在ではサードパーティ製の AI エコーキャンセルアルゴリズムも購入しています。

現在、オーディオおよびビデオ側はビジネスから比較的独立しています。最適化の繰り返しのほとんどはビジネスと密接に関連していない可能性があります。これらの部分は独立してリリースされ、その後ビジネス側のバージョン シャトルとともにリリースされます。ここでのいくつかは、製品で言及されているエクスペリエンスの問題の最適化であり、そのうちのいくつかは、当社独自の包括的なユーザー フィードバックと統計情報によって行われます。もちろん、歌ってみたや、歌って採点するシーンなど、ビジネスに関わる開発コンテンツもございます。こういった部分は、ビジネスと合わせてニーズを評価し、ビジネスのプロジェクト管理進捗に反映させていきます。 。

6fecd3c0180e20d81218dec22aaac52d.jpeg

広報と技術も開発の方向性として取り組んでいますが、ユーザーを囲い込むために重要なのは商品力であり、技術も商品力であり、まだまだ道半ばです。

避けられないコスト削減と効率向上

ae881229f8ae850aba1b22c82afea714.png

コストを削減し、効率を高めるということになると、実際には、小さなチームとして、主に自分たちの利点を最大限に発揮し、利点がないことや実行できない方向性を補うパートナーを見つける方法を見つけることが重要です。コストの面から考慮してください例えば、リアルタイムカラオケシーンでは、2019年から蓄積してきたユーザーエクスペリエンスに大きな影響を与える収集とレンダリング、モデルアダプテーションの自社でできる作業や、RTC送信の最適化、AEC処理、サーバー構築 一連の検査評価システムを確立し、需要を満たす最適なサービスプロバイダーを選択することです。

コストの観点から見ると、リアルタイムカラオケの最大のコストはRTCサービスのコストであり、当社は現在、スイッチングコストを最小限に抑えるために、さまざまな企業のRTCサービスを独自のコレクションとレンダリングと統合しており、複数のRTCがオンラインに存在しています。経験も同じです。この計画の下では交渉が有利になり、交渉の主導権も握ることができます。さらに、エンド側の CDN リソースのキャッシュ メカニズムと RTC リソースのオンデマンド最適化によって、コストの一部を削減することもできます。

03 今にいて、未来を掴め

歌うことは人間の本性であり、社交性もまた人間の本性です。特に、若い世代は、自己表現と社会的アイデンティティに対する個人のニーズがより多くなり、仮想コミュニティ内でグループを形成することにアイデンティティの感覚とエネルギーを投資することが多くなり、Kソングをベースにした社会的垂直カテゴリーは今後も継続されるだろう。掘削可能なスペースの成長。

a5caf1143471a6c01bbe3c7802fe17a7.jpeg

カラオケの今後の発展の方向性も、社会的な関係を形成しやすくする方向にあるべきだと思います。たとえば、より正確なマッチングと推奨戦略により、気まぐれなユーザーが効率的に関係性を認識して蓄積できるようになります。別の例としては、AI ベースの自動適応と自動構成により、才能のある非専門ユーザーが低コストで独自の注目作品を効率的に制作できるようになります。低コストで才能を発揮できる; 音楽分野では、AI ベースの伴奏音声分離技術が比較的成熟しており、現在の効果は基本的に実用レベルに達します。

もう 1 つの例は、AI ベースのエコー キャンセレーションとノイズ リダクションであり、従来のアルゴリズムでは達成できない高みに達する可能性があります。私たちがいるKソングソーシャルフィールドのように、AIに基づいて曲とユーザーの歌唱を自動的に分類して推奨することができれば、より有意義な方向性となるでしょう。今後の技術開発により、現在のリアルタイムコーラスの遅延問題が解決され、遠く離れたユーザーでも簡単にハモリができるようになることが期待されます。

最後に、この LiveVideoStackCon で私が持ち込んだものを共有したいと思います。私は主に、主に Android/iOS モバイル テクノロジに基づいて、過去数年間にオーディオとビデオの分野で踏んだ落とし穴を共有します。また、K も共有します。シーンにおける特別な技術的なポイント、オーディオおよびビデオ テクノロジーの最適化がどのようにして上司が認識できる指標になるか、およびボイス チャット シーンでよくある妨害問題についても説明します。


※記事出典:

ドゥバン「スパイダーマン:アクロス・ザ・ユニバース」

853443aa48318dcf7bdcfac5f5c2f151.png

おすすめ

転載: blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/131255322