ベクトル空間でWord表現の効率的な推定(翻译)

我々は、連続的なベクトル表現計算するために2つの新規モデルのアーキテクチャを提案する
非常に大きなデータセットからの単語を。これらの表現の品質は
、以前に単語類似度タスクで測定され、そして結果が比較される
ニューラルネットワークの異なるタイプに基づいて、最適な性能の技術。私たちは、
それはすなわち、はるかに低い計算コストで精度の大幅な改善を観察する
16億語から高品質の単語ベクトルを学ぶために一日もかかり
、データセット。さらに、我々は、これらのベクターは、最先端のパフォーマンスを提供することを示した
構文と意味の単語の類似性を測定するために、当社のテストセットに。

私たちは、大規模なデータセット上の連続した単語のベクトル表現を計算するための2つの新しいモデルの枠組みを提案します。単語の類似度計算、ニューラルネットワークの最近の最高を行うタイプの異なるタイプのこの比較の結果:2つの表現されている方法を評価します。比較の結果は、有意にコンピューティングのコストを低減させる場合には、その精度を向上させたことを示します。例:トレーニングの1日以下のデータワード16億、一連の上では、高品質の単語ベクトルを得ることができます。構文、意味、最も先進的な性能を得るための評価のための類似データセット上のこの高品質のベクトルワード。

 

。1はじめ
NLPシステムおよび技術は、原子単位などの単語を扱う多くの電流-類似性の概念がありません
。これらは語彙この選択中のインデックスとして表現されているような単語の間には、いくつかの良い持っている
シンプル、堅牢であり、単純なモデルは、訓練を受けたことを観察-理由大量のON
。少ないデータアンの例は、人気のN-gramモデルIS ONに訓練データアウトパフォーム複雑系
統計的言語モデル化のために使用される-今日、ITはON Nグラムを鍛えることができるほぼすべての利用可能な
[3]の単語のデータ(兆。)
1つのはじめに
、それらが語彙のインデックスとして表されるかのように、単語および単語類似の概念-多くの現在のシステムとNLP技術は、原子単位語として扱われます。シンプルさ、堅牢性と現象:このオプションは、いくつかの利点を持っている単純なモデルは、トレーニングによって得られた大量のデータは、訓練の複雑なシステムを介し少ないデータよりも優れている依存しています。、今日利用可能なすべてのデータは、N-gramモデルを訓練するために使用されていること([3]) -一つの例は、統計的言語モデリングのための人気のN-gramモデルです。

しかし、簡単なテクニックが自分であるたとえば多くのタスクでの制限、自動音声認識のための関連で、ドメインデータの量が限られている- 。性能は通常、高品質の転写された音声データのサイズ(多くの場合だけで何百万人ものによって支配されます言葉)。機械翻訳では、多くの言語のための既存のコーパスは、このように、そこに基本的な技術のアップ簡単なスケーリングが任意の大きな進展にはなりません状況があり、私たちは集中しなければならない。言葉以下のほんの数十億を含んでより高度な技法が。
しかし、多くのタスクでは、この単純な手法は限界です。例えば、データの特定のフィールドでの音声認識モデルを訓練するために使用されるデータは非常に少ないです。トレーニング効果は、高品質の音声データ(百万通常は数語)に限定されています。機械翻訳の分野では、多くの言語は億ほんの数語以下が含まれています。このように、現在の状況は、単純な技術のアップグレードの重要な結果を達成することは困難である、私たちはより高度な技術に焦点を当てるべきであるということです。
近年の機械学習技術の進歩と、それは非常に大きなデータセットに、より複雑なモデルを訓練することが可能となった、と彼らは一般的に単純なモデルをアウトパフォーム。おそらく最も成功した概念は言葉[10]の分散表現を使用することです。例えば、ニューラルネットワークベースの言語モデルは、有意にNグラムモデル[1、27、17]を上回ります。

大規模なデータセット上の機械学習技術の発展と近年では、より複雑なモデルのトレーニングが可能となり、シンプルなモデルより複雑なモデルの効果。最も成功した4ワードは、アイデンティティを配布されています。例えば、ニューラルネットワークに基づく言語モデルをNグラムモデルよりも有意に良好でした。

紙の1.1目標

本論文の主な目標は、言葉の十億で、語彙中の単語の数百万人で巨大なデータセットから高品質の単語ベクトルを学習するために使用することができる技術を導入することです。100 - 私たちが知る限りでは、以前に提案されたアーキテクチャのどれも成功し50の間の単語ベクトルのささやかな次元で、言葉の何百万人もの数百以上の上に訓練されていません。

本稿の目的は、データ上の高品質なベクトル・ワード(10億個の基本的な単語、百万基本的な単語)の別の巨大な技術研修を導入することです。私たちが知っている限り、モデルは次のような効果を得ることができないがあります:異なる単語の数百万人で、単語ベクトルは50〜100です。

[20]我々だけでなく、同様の単語がお互いに近くなる傾向があります期待して、得られたベクトル表現の品質を測定するために最近提案された技術を使用するが、単語は、類似の複数度を有することができます。これは、以前の語形変化の言語の文脈で観察されている - 例えば、名詞は、複数の語尾を持つことができる、と私たちは、元のベクトル空間の部分空間に類似した単語を検索する場合、同様の語尾を持っている単語を見つけることが可能である[13 、14]。

私たちは期待して、品質評価最近リリースベクトル表現のための技術を使用して同様の単語が(表示されるように、隣接する)が同時に発生する傾向があると異なる単語間の類似性がある [20]。この状態は、以前のテキスト語形変化言語(語形変化の言語?)では中に発見されました。例えば、用語の終わりには、我々が部分空間元のベクトル空間で探している場合、あなたは言葉が同様の端部を有していることがわかります、複数の単語を持つことができる[13、14]

やや驚くべきことに、単語表現の類似性は、単純な構文規則を超えていることがわかりました。簡単な代数演算は、ワードベクトルに対して実行されるワードオフセット技術を使用し、それは例えば図示したものベクター(」キング」) - ベクター(」男」)+に最も近いベクトルのベクトル(」女」)結果単語のベクトル表現女王[20]。

いくつかのより多くの驚くべき発見は、単純な文法規則を超えた類似の単語を表明しているがあります。V(キング)-V(男性)+ワードベクトルV(女性)で処理し、得られたベクタークイーン類似語:単語は、次のような技術を、オフセット。[推論意味?]

本稿では、単語の間の線形規則性を保持する新しいモデルのアーキテクチャを開発することによって、これらのベクトル演算の精度を最大化しようとします。私たちは、構文と意味の両方regularities1を測定するための新しい包括的なテストセットを設計し、そして多くのそのような規則性を高精度に学習することができることを示しています。また、我々はトレーニング時間と精度は単語ベクトルの次元にとトレーニングデータの量にどのように依存するかを議論します。

本稿では、単語のベクトル演算を最大化するために、新しいモデルのフレームワーク(次項保護法)によって精度を改善しよう。私たちは、構文、意味論の規則性を評価するためのテストの新しい包括的なセットを設計し、これらの法律の多くは、高精度なモデルを学習することができることを示します。さらに、我々はトレーニング時間と精度が訓練単語ベクトル集合の大きさや寸法に依存する方法について説明します。

1.2前の作業

連続的なベクターとして言葉の表現は長い歴史を持っている[10、26、8]。ニューラルネットワークの言語モデル(NNLM)を推定するための非常に人気のモデルアーキテクチャが提案された[1]、線形投影層と非線形隠れ層を有するフィードフォワードニューラルネットワークが共同でワードベクトル表現と統計的に学習するために使用された場合言語モデル。この作品は多くの人が続いてきました。

ワードは[10,26,8]連続ベクターの長い歴史を表します。線形および非線形隠れ層フィードバックNNとフロントプロジェクション、学習及び統計的言語モデルのための単語ベクトル表現と組み合わせ:[1] NNLMを評価するための非常に人気のあるフレームワークを導入しました。この作品は、たくさんの人が続きました。

NNLMの別の興味深いアーキテクチャは、ワードベクトルは第一単一の隠れ層を有するニューラルネットワークを用いて学習される[13、14]に提示されました。単語ベクトルは、NNLMを訓練するために使用されています。このように、単語ベクトルでもフルNNLMを構築せずに学習されます。本研究では、直接このアーキテクチャを拡張し、単に単語ベクトルは、単純なモデルを使用して学習される最初のステップに焦点を当てます。

[13、14]は最初の隠れ層とNN語ベクトルにより得られる、別の興味深いNNLMフレームワークを言及し、次にワードベクトルはNNLMを訓練するために使用されます。とき単語ベクトルはNNLmのすべてを取り除くために、学ぶことです。本研究では、直接このフレームワークを拡張し、最初のステップに焦点を当て:単純なモデルによって単語ベクトルを学習します。

それは、後にワードベクトルが著しく多くのNLPアプリケーション[4、5、29]を改善し、簡素化するために使用することができることが示されました。それ自体が別のモデルアーキテクチャを使用して実行し、様々なコーパス[4、29、23、19、10]、そして得られた単語ベクトルのいくつかは今後の研究とcomparison2ために利用可能にした上で訓練されたワードベクトルの推定。しかし、我々が知る限り、これらのアーキテクチャは、はるかに多くの計算コストの訓練のための対角重み行列が使用されているログ・バイリニアモデル[23]の特定のバージョンを除いて、[13]で提案されたものよりでした。

ベクターを使用することができ、その後の言葉は、NLPは、多くのアプリケーション[4,5,29]を簡素化し、大幅な改善をご紹介します。いくつかの単語ベクトルの結果は、今後の研究とは対照的に使用される大きなコーパスに異なるフレームで異なるモデルを使用して、それらの用語ベクトルの評価。しかし、我々の知識に、対角重み行列におけるこれらのフレームワークログバイリニア(双一次ロジックモデル)の一部のバージョンで使用される、[13]、より高価なトレーニングの一つの目的よりも計算コスト、[23]。

2つのモデルのアーキテクチャ

モデルの多くの異なるタイプは、周知の潜在意味解析(LSA)と潜在ディリクレ配分(LDA)などの単語の連続表現を推定するために提案されました。それは以前にそれらが単語間の線形規則性を維持するためのLSAよりも有意に良好に機能することが示されたように、この論文では、ニューラルネットワークにより学習された単語の分散表現に焦点を当てて[20、31]。LDAは、さらに大規模なデータセット上で、計算上非常に高価なものとなります。

モデルの多くの異なるタイプのLSA、LDAを含む単語の検討連続表現を評価するために使用されている。本稿では、単語に焦点を当てに対して、線形関係の効果がLSAよりも有意に良好ワード線に格納、分散て表現低コストの計算でLDA。

我々は完全にモデルを訓練するためにアクセスする必要のあるパラメータの数、第1のモデルの計算の複雑さを定義する別のモデルアーキテクチャを比較する、[18]と同様。計算の複雑さを最小限に抑えながら、次に、我々は、精度を最大化しようとします

そして[18]同様に、異なるモデルのフレームワークを比較するために、我々は最初の計算の複雑さのモデルを定義するために使用される完全なトレーニングモデルパラメータをあろう。第二に、我々は、精度を最大化し、計算の複雑さを最小限に抑えます。

 

 

おすすめ

転載: blog.csdn.net/newmarui/article/details/91492661