GAN(Generative Adversarial Network)は、ディープラーニング分野の生成モデルとして、近年、画像や音声などのさまざまなモーダルデータにおいて優れた成果をあげています。核となるアイデアは、ゲーム理論の対立トレーニング手法を使用して、

著者: 禅とコンピュータープログラミングの芸術

1 はじめに

GAN(Generative Adversarial Network)は、ディープラーニング分野の生成モデルとして、近年、画像や音声などのさまざまなモーダルデータにおいて優れた成果を上げています。中心となるアイデアは、ゲーム理論における敵対的トレーニング手法を通じて 2 つのネットワーク (生成ネットワーク G と識別ネットワーク D) を互いに競争させ、自己認識された配信能力を継続的に向上させることです。この記事では、著者は敵対的生成ネットワークを音声合成タスクに適用し、サブワード単位の形式でシーケンスツーシーケンス モデルを構築して、音声言語の書き起こしの問題を解決します。
NLP (自然言語処理) は、人工知能分野の主な研究方向であり、自然言語の理解と自動処理を実現するための重要な技術の 1 つです。ここ数年、機械翻訳、テキスト要約、自動質問応答システムなどのさまざまなアプリケーションの台頭により、NLP 研究活動は急速に発展しました。たとえば、Baidu Labs が発表した Google のニュース機械翻訳システムである GNMT (Google Neural Machine Translation) モデルは、ニューラル ネットワークに基づく深層学習モデルであり、驚くべき精度を達成できます。効果的で精度が高いことが証明されている従来の単語分割方法が多数あります。BERT や XLNet などの新世代の教師なし手法の出現後、重要な基本機能である単語の分割が、徐々に NLP の研究のホットスポットになってきました。
この記事では、敵対的生成ネットワークを音声合成タスクに適用すること、つまり、入力された中国語の文字列を対応するピンイン音素に変換することに焦点を当てます。サブワード単位は NLP の重要な概念であり、中国語の文字列をより小さな断片に表現して、モデリングと処理を容易にします。この記事では、Transformer 構造に基づいたシーケンスツーシーケンス (seq2seq) モデルを実践し、サブワード単位を使用してモデルを構築して、音声言語の書き起こしの問題を解決します。

2.関連作品

Supongo que te gusta

Origin blog.csdn.net/universsky2015/article/details/132013973
Recomendado
Clasificación