より軽いpQRNN:投影に基づいて、高速で並列のNLP処理を実現します

Google Research、ソフトウェアエンジニア、PrabhuKaliamoorthi著 

ディープニューラルネットワークは、過去10年間で自然言語処理(NLP)を根本的に変えました。主な方法は、専用ハードウェアを使用したデータセンターでのアプリケーションです。ただし、ユーザーのプライバシーを保護し、ネットワーク遅延を排除し、オフライン機能を実装し、運用コストを削減する必要性から、データセンターではなくデバイス側でのNLPモデルの展開に関する研究が急速に発展しています。ただし、モバイルデバイスのメモリと処理能力は限られているため、モバイルデバイスで実行されるモデルは、品質を犠牲にすることなく小型で効率的である必要があります。

昨年、PRADOと呼ばれるニューラルネットワークモデルをリリースしました。当時、多くのテキスト分類問題でSOTAのパフォーマンスが示され、使用されたモデルのパラメーターは20万未満でした。ほとんどのモデルは、トークンごとに固定数のパラメーターを使用しますが、PRADOモデルで使用されるネットワーク構造では、タスクに最も関連性のある、または実用的なトークンを学習するために必要なパラメーターはわずかです。

  • プラド
    https://www.aclweb.org/anthology/D19-1506.pdf

本日は、最小のモデルサイズでNLPのSOTAパフォーマンスを向上させる新しいモデル拡張であるpQRNNを紹介します。pQRNNの目新しさは、単純な投影操作を準RNNエンコーダーと組み合わせて、高速並列処理を実現できることです。私たちの結果は、pQRNNモデルが少数のパラメーターでテキスト分類タスク に対してBERTレベルの効果を達成できることを示しています

  • 統合RNNhttps
    //arxiv.org/abs/1611.01576

PRADOのしくみ

1年前に開発されたとき、PRADOはテキストセグメンテーションに関するNLPドメイン固有の知識を使用して、モデルサイズを縮小し、パフォーマンスを向上させました。一般に、NLPモデルのテキスト入力は、最初にニューラルネットワークに適した形式に処理されます。方法は、事前定義された一般的な辞書(すべての可能なトークンのリスト)の値に対応するフラグメント(トークン)にテキストを分割することです。次に、ニューラルネットワークはトレーニング可能なパラメータベクトル(埋め込みベクトルテーブルを含む)を使用して、各セグメントを一意に識別します。ただし、テキストのセグメント化方法は、モデルのパフォーマンス、サイズ、および待ち時間に大きな影響を与える可能性があります。次の図は、NLPコミュニティで使用されているさまざまな方法とその長所と短所を示しています。

  • 通用字典
    https://blog.floydhub.com/tokenization-nlp/

テキストセグメントの数はモデルのパフォーマンスと圧縮の重要なパラメータであるため、これにより、NLPモデルが可能な各テキストセグメントを明確に区別できる必要があるかどうかという疑問が生じますこの質問に答えるために、NLPタスクの固有の複雑さを見てみましょう。

テキストセグメント間の微妙な違いを知る必要があるNLPタスク(言語モデルやマシン変換など)はごくわずかであるため、考えられるすべてのテキストセグメントを一意に識別できる必要があります。対照的に、他のほとんどのタスクは、これらのフラグメントの小さなサブセットを知ることで解決できます。さらに、このタスク関連フラグメントのサブセットはあまり一般的ではありません。これは、フラグメントのほとんどが明らかにa、an、the などの記事専用であるためです。多くのタスクでは、これらの記事は重要ではありません。したがって、特定のタスクに最も関連性の高いセグメントをネットワークに決定させることで、パフォーマンスを向上させることができます。さらに、ネットワークはこれらのセグメントを一意に識別する必要はなく、テキストセグメントのクラスターを識別するだけで済みます。たとえば、感情分類子は、テキスト内の感情に高度に関連するフラグメントクラスターを知る必要があるだけです。

上記の分析に基づいて、PRADOは、単語の断片や文字ではなく単語からテキストセグメントのクラスターを学習するように設計されており、複雑度の低いNLPタスクで優れたパフォーマンスを実現できます。単語の細かさはより意味があり、ほとんどのタスクに最も関連する単語は非常に少ないため、関連する単語クラスターの簡略化されたサブセットを学習するために必要なモデルパラメーターはそれに応じてはるかに少なくなります。

PRADOを改善する

PRADOの成功に基づいて、pQRNNと呼ばれる改良されたNLPモデルを開発しました。このモデルは、3つの基本モジュールで構成されています。1つは、テキスト内のトークンを3値ベクトルシーケンスに変換する投影演算子、高密度ボトルネックレイヤー(Bottleneckレイヤー)、およびいくつかのスタックQRNNエンコーダーです。

pQRNNでのプロジェクションレイヤーの実装はPRADOでの実装と同じです。これは、モデルが定義するパラメーターの固定セットなしで最も関連性の高いトークンを学習するのに役立ちます。最初にトークンをテキストに記録し、次に単純なマッピング関数を使用してトークンを3値の特徴ベクトルに変換します。このようにして、バランスの取れた対称分布を持つ三元ベクトルシーケンスが得られ、これはテキストを一意に表します。この表現は、ターゲットタスクを解決するために必要な情報を提供せず、ネットワークがこの表現を制御できないため、直接使用することはできません。これを高密度のボトルネックレイヤーと組み合わせて、ネットワークに現在のタスクに関連する各単語の表現を学習させます。ボトルネックレイヤーによって生成された表現は、まだ単語のコンテキストを考慮していません。双方向QRNNエンコーダスタックを使用してコンテキスト表現を学習し、前処理なしでテキスト入力からコンテキスト表現を学習できるネットワークを取得します。

パフォーマンス

Civil_commentsデータセットでpQRNNを評価し、同じタスクでBERTモデルと比較しましたモデルサイズとパラメータ数の比例関係のため、pQRNNはBERTよりもはるかに小さくなります。さらに、pQRNNは、モデルサイズを元のサイズの4分の1にさらに縮小するために定量化されています。パブリックの事前トレーニング済みバージョンのBERTは、タスクでうまく機能しません。したがって、最良の結果を得るには、いくつかの異なる関連する多言語データソースで事前トレーニング済みのBERTバージョンを比較してください。

  • Civil_comments
    https://tensorflow.google.cn/datasets/catalog/civil_comments

  • 定量化
    https://arxiv.org/abs/1712.05877

2つのモデルの曲線下面積(AUC)をキャプチャしました。事前トレーニングを一切行わず、監視対象データのみをトレーニングし、130万の量子化(8ビット)パラメータを使用すると、pQRNNのAUCは0.963になります。いくつかの異なるデータソースでの事前トレーニングと監視対象データの微調整1億1,000万の浮動小数点パラメーターを使用すると、BERTモデルのAUCは0.976です。

結論として

前世代のモデルPRADOを使用して、次世代の最も軽量なSOTAテキスト分類モデルの基礎として使用する方法を示します。pQRNNモデルを立ち上げ、この新しいアーキテクチャがBERTレベルのパフォーマンスをほぼ達成できることを示しましたが、使用されるパラメータの数は元の3分の1にすぎず、監視対象データでのみトレーニングされています。この分野での研究をさらに促進するために、PRADOモデルをオープンソース化し、コミュニティが新しいモデルアーキテクチャの開始点として使用することを奨励しています。

  • オープンソースのPRADOモデル
    https://github.com/tensorflow/models/tree/master/research/sequence_projection

ありがとう

Yicheng Fan、MáriusŠajgalík、Peter Young、Arun Kandoorが、オープンソース作業に貢献し、モデルの改善に協力してくれたことに感謝します。Amarnag Subramanya、Ashwini Venkatesh、Benoit Jacob、Catherine Wah、Dana Movshovitz-Attias、Dang Hien、Dmitry Kalenichenko、EdwardGonzàleziPellicer、Edward Li、Erik Vee、Evgeny Livshits、Gaurav Nemade、Jeffreyにも感謝します。 Julia Proskurnia、Rushin Shah、Shirin Badiezadegan、Sidharth KV、VictorCărbune、Learn2Compressチームからのサポート。研究プロジェクトを後援してくれたAndrewTomkinsとPatrickMcgregorに感謝します。

その他のAI関連の読書:

おすすめ

転載: blog.csdn.net/jILRvRTrc/article/details/109301854