音声合成とは何ですか? 音声合成用の TTS データを収集するにはどうすればよいですか?

前回の記事で、音声データ収集は 2 つの一般的なタイプの音声データ収集に分けられると述べました。1 つは音声認識データ (ASR) で、もう 1 つは音声合成 (TTS) です今回は、音声合成技術とは何か、音声合成データの収集・作成方法などを紹介し、音声合成の背景や基本原理をすぐに理解できるようにします。  

 

テキスト読み上げ (TTS) とは何ですか

人間とコンピューターの対話形式が私たちの生活の中でますます一般的になるにつれて、スピーカーと音波が主な音声伝送媒体として使用され、テキスト読み上げ技術の継続的な反復により、私たちの通信方法と機械の機能が豊かになってきました。音声はより柔軟かつ自然になりましたが、これらすべては音声合成技術の進歩と切り離すことができません。 

音声合成データの収集方法

音声合成技術の背景

音声合成とは、テキストからコンピュータの音声を生成するテキストトゥスピーチ(Text to Speech)の技術です。人間の音声を模倣する史上最古の装置は、200 年以上前にヴォルフガング フォン ケンペレンによって作られました。彼が構築した機械は、肺のふいご、声道の管、鼻孔の側枝など、人間が音声を生成するために使用するさまざまな器官を模倣するために使用できる要素で構成されていました。人間の発声器官のこの機械的な類似物に対する関心は 20 世紀まで続きました。19 世紀後半、ヘルムホルツらは、適切な振幅を持つ倍音波形を重ね合わせることにより、母音とその他の頭子音を合成し始めました。従来のTTSは主に複数のモジュールを組み合わせてパイプラインを形成することで実現されており、システム全体はフロントエンドとバックエンドに大別できます。

音声合成 (TTS) 技術原理

TTS は、テキスト分析と音声合成という 2 つの主要な段階を含むシーケンス間の問題として考えることができます。テキスト分析は、一般的な自然言語処理 (NLP) の手順とかなり似ています (ただし、ディープ ニューラル ネットワークを使用する場合は Heave 前処理が必要ない場合があります)。たとえば、文の分割、単語の分割、品詞 (POS) などです。最初のステージの出力は書記素から音素への変換 (G2P) であり、これが 2 番目のステージの入力になります。音声合成では、初段の出力から波形を生成します。  

Text-to-Speech (TTS) システムとデータ生成

NLP 自然言語処理。生のテキスト (句読点、略語、数字、記号を含む) を音声文字起こしに変換します。トランスクリプトには、テキスト内の手がかりに基づいた音素 (品詞) とイントネーション (イントネーション、リズム、レート) が含まれます。デジタル信号処理 (DSP)。コンピューターまたはその他のデバイスのオーディオ出力を介して音声表現をテキストに変換します。DSP は音声語彙 (つまり、言語内の音素のあらゆる組み合わせをヒットしようとして人間がシステムに入力する一連のフレーズ) を作成する必要があります。システムは、音声サンプルを連結することによって、この表音フォントから音声を構築します。次に、アルゴリズムを適用して完成したフレーズを滑らかにし、音声の音量や速度などの要素を調整します。昔の機械は正常に音を出すことができましたが、時代の発展と人間とコンピューターのインタラクション体験の需要の増加に伴い、機械の音は青白く硬く感じられ、人間に最も鮮やかなインタラクティブ体験を提供することができません。 。現在、現代の音声合成システムは、エクスペリエンスファーストのパーソナライズされた技術的出力にさらに注目しており、一般的な TTS、パーソナライズされた TTS、および感情的な TTS に分類されます。

  • 一般的な TTS: 商用化のニーズに対応できます。制作プロセスには、録音前の人員の準備、録音場所の決定、録音 (データ収集)、データの後のクリーニング、および完全な「商用データベース」セットを取得するためのデータのラベル付けが含まれます。
  • パーソナライズされた TTS: データ製品の特性に応じて、さまざまな種類の音声が提供され、音声ライブラリをカスタマイズできます。
  • 感情的な TTS: XML タグ付けによる韻律パラメータ。この前処理は、TTS システムが感情的な手がかりを含む合成音声を生成するのに役立ちます。感情的意図認識は感情的 TTS の重要な技術の 1 つであり、自然言語処理とも密接に関連しています。人間の本当の言語に近づきたい、単なる冷たい中継器ではなく機械に感情を与えたい、これが企業が自社の製品に達成したい効果です。このような機械が生き生きと話すためには、感情合成音声技術の背後にあるデータベースもより豊富で多様なものになるでしょう。

音声合成の 2 つの一般的な方法は、スプライシング方法とパラメトリック方法です。

  • スプライシング方法: 事前に記録されたコーパスから適切なスプライシングユニットを抽出します。サウンドに対する高品質の要件は商用利用には適しておらず、データ規模に対する要求が高いため商業コストが高くなります。
  • パラメトリック手法: コーパスのパラメトリック モデリングは、フロントエンド処理、モデリング、ボコーダーの 3 つのモジュールに分割されます。データベース要件は小さいですが、音質は粗くなります。

 

音声合成の一般的な応用シナリオ

最後に、上流の技術としての音声合成技術を下流の AI シナリオにどのように適用できるでしょうか? 音声合成アシスタント、スマート カスタマー サービス、オーディオブック、コールセンター、車載エンターテインメント デバイスなどはすべて、音声合成テクノロジーの一般的なアプリケーション シナリオです。ユーザーエクスペリエンスをよりリアルで豊かにするために、多くの上流データ収集会社が声優と直接協力し、顧客がエンドユーザーのニーズを満たす声を選択できるようにします。不眠症の夜に寝返りを打ったときに、ブログを開いて神谷浩史の声が聞こえてきたら、どう感じるでしょうか?  

 

おすすめ

転載: blog.csdn.net/Appen_China/article/details/132064303