【ニューラルネットワーク】2018-ML-シーケンスモデリングのための一般的な畳み込みネットワークとリカレントネットワークの実証的評価

シーケンスモデリングのための一般的な畳み込みネットワークとリカレントネットワークの経験的評価

紙の住所
コード住所

まとめ

 ほとんどの深層学習実践者にとって、序列建模「はい」は循环网络の同義語です。ただし、最近の結果では、畳み込みアーキテクチャが音声合成や機械翻訳などのタスクにおいてリカレント ネットワークよりも優れていることが示されています。新しいシーケンス モデリング タスクまたはデータ セットが与えられた場合、どのアーキテクチャを使用する必要がありますか? 私たちはシーケンスモデリングのための一般的な畳み込みアーキテクチャと再帰アーキテクチャの体系的な評価を実施します。モデルは、リカレント ネットワークのベンチマークに一般的に使用される幅広い標準タスクで評価されます。私たちの結果は、単純な畳み込みアーキテクチャが、さまざまなタスクやデータセットにおいて LSTM などの典型的なリカレント ネットワークよりも優れたパフォーマンスを発揮し、より長い有効メモリを実証していることを示しています。私たちは、シーケンス モデリングとリカレント ネットワークの間の一般的な関連性を再検討する必要があり、畳み込みネットワークはシーケンス モデリング タスクの自然な開始点と見なすべきであると結論付けています。作業を支援するために、コードを http://github.com/locuslab/TCN で利用できるようにしました。

1 はじめに

深層学習の実践者は、シーケンス モデリング タスクのデフォルトの開始点としてリカレント アーキテクチャを考慮することがよくあります「シーケンス モデリング: 再帰的および再帰的ネットワーク」(Goodfellow 他、2016) というタイトルの古典的な深層学習教科書のシーケンス モデリングの章では、シーケンス モデリングと再帰的アーキテクチャの共通の関連性が説明されています。「シーケンス モデル」に関する最近の高い評価を得ているオンライン コースは、特に循環アーキテクチャに焦点を当てています (Ng、2018)。

 一方で、最近の研究では、特定の畳み込みアーキテクチャが音声合成、単語レベル言語モデリング、機械翻訳において最先端の精度を達成できることが示されています (van den Oord et al, 2016; Kalchbrenner et al, 2016) ; Dauphin et al、2016 al、2017; Gehring et al、2017a;b)。このため、畳み込みシーケンス モデリングにおけるこれらの成功は特定のアプリケーション領域に限定されているのか、それともシーケンス処理とリカレント ネットワークとの関係をより一般的に再検討する必要があるのか​​という疑問が生じます

私たちは、広範囲のシーケンス モデリング タスクについて、畳み込みアーキテクチャとリカレント アーキテクチャの体系的な経験的評価を実施することで、この問題に取り組みます特に、さまざまなリカレント ネットワーク アーキテクチャの有効性を比較するために繰り返し使用されてきた包括的なタスクのセットを対象としています。これらのタスクには、ポリフォニック音楽モデリング、単語および文字レベルの言語モデリング、特別に設計され、RNN のベンチマークによく使用される合成ストレス テストが含まれます。したがって、私たちの評価は、リカレント ネットワークの「ホーム フィールド」におけるシーケンス モデリングの畳み込み手法とリカレント手法を比較することを目的としています。

 畳み込みネットワークを表すために、すべてのタスクに適用できる汎用时间卷积网络(TCN) アーキテクチャについて説明します。このアーキテクチャは最近の研究に基づいて構築されていますが、最新の畳み込みアーキテクチャのベスト プラクティスのいくつかを組み込んで、意図的にシンプルに保たれていますLSTM や GRU などの正規のリカレント アーキテクチャと比較されます。

 結果は、TCN が広範囲のシーケンス モデリング タスクにおいて、ベースラインのリカレント アーキテクチャよりも確実に優れたパフォーマンスを発揮することを示しています。これらのタスクには、リカレントネットワーク設計を評価するために一般的に使用されるさまざまなベンチマークが含まれているため、これは特に注目に値します (Chung et al, 2014; Pascanu et al, 2014; Jozefowicz et al, 2015; Zhang et al, 2016)。これは、オーディオ処理などのアプリケーションにおける畳み込みアーキテクチャの最近の成功がこれらの分野に限定されていないことを示唆しています。

 これらの結果をさらに理解するために、リカレント ネットワークの記憶保持特性をさらに詳しく分析しました。再帰的アーキテクチャには無限に長い履歴をキャプチャする理論的な能力があるが、TCN はより長いメモリを示すため、長い履歴を必要とするドメインにより適していることを示します。

 私たちの知る限り、この研究は、シーケンス モデリング タスクに関する畳み込みアーキテクチャと再帰アーキテクチャの最も広範な体系的な比較です。この結果は、シーケンス モデリングとリカレント ネットワークの間の一般的な関連性を再検討する必要があることを示唆しています。TCN アーキテクチャは、LSTM や GRU などの従来のリカレント ネットワークよりも正確であるだけでなく、よりシンプルかつ明確ですしたがって、ディープ ネットワークをシーケンスに適用するためのより適切な開始点となる可能性があります。

2. 背景

 数十年にわたり、卷积网络(LeCun et al、1989) が配列に適用されてきました (Sejnowski & Rosenberg、1987; Hinton、1989)。1980 年代と 1990 年代には、それらは主に音声認識に使用されました (Waibel et al、1989; Bottou et al、1990)。ConvNet はその後、品詞タグ付けや意味論的役割タグ付けなどの NLP タスクに適用されました (Collobert & Weston, 2008; Collobert et al, 2011; dos Santos & Zadrozny, 2014)。最近、畳み込みネットワークは文分類 (Kalchbrenner et al、2014; Kim、2014) および文書分類 (Zhang et al、2015; Conneau et al、2017; Johnson & Zhang、2015; 2017) に適用されています。私たちの研究にとって特にインスピレーションを与えたのは、機械翻訳における畳み込みアーキテクチャ (Kalchbrenner et al、2016; Gehring et al、2017a;b)、音声合成 (van den Oord et al、2016)、および言語モデリング (Dauphin et al、2016) における最近の進歩です。 、2016)。アル、2017)。

循环网络は、時間の経過とともに伝播する潜在活性化ベクターを維持する特殊な配列モデルです (Elman、1990; Werbos、1990; Graves、2012)。このアーキテクチャ ファミリは、言語モデリング (Sutskever et al、2011、Graves、2013、Hermans & Schrauwen、2013) および機械翻訳 (Sutskever et al、2014、Bahdanau et al、2015) での顕著な応用により、非常に人気を得ています。人気。ループ モデリングの直感的な魅力は、隠れた状態がシーケンス内でこれまでに見られたすべての表現を表現できることです。基本的なアーキテクチャのトレーニングが難しいことはよく知られておりRNN(Bengio et al、1994; Pascanu et al、2013)、代わりにLSTM(Hochreiter & Schmidhuber、1997) や GRU (Cho et al、2013)などのより複雑なアーキテクチャが使用されることがよくあります。 、2014)。リカレント ネットワークのための他の多くのアーキテクチャ上の革新とトレーニング技術が導入され、引き続き活発に研究されています (El Hihi & Bengio、1995; Schuster & Paliwal、1997; Gers et al、2002; Koutnik et al、2014; Le et al、2015 ; Ba et al、2016; Wu et al、2016; Krueger et al、2017; Merity et al、2017; Campos et al、2018)。

 さまざまなループ アーキテクチャの有効性を評価するために、いくつかの実証研究が実施されています。これらの研究は、そのようなアーキテクチャの設計における多くの自由度によって部分的に動機づけられています。Chung et al. (2014) は、ポリフォニック音楽モデリング タスクに関して、さまざまなタイプのリカレント ユニット (LSTM と GRU) を比較しました。Pascanu et al. (2014) は、ディープ RNN を構築するさまざまな方法を調査し、ポリフォニック音楽モデリング、文字レベル言語モデリング、および単語レベル言語モデリングにおけるさまざまなアーキテクチャのパフォーマンスを評価しました。Jozefowicz et al. (2015) は、1 万を超える異なる RNN アーキテクチャを検索し、さまざまなタスクでのパフォーマンスを評価しました。彼らは、「LSTMよりも優れたアーキテクチャ」が存在するとしても、それを「見つけるのは簡単ではない」と結論付けた。Greff et al. (2017) は、音声認識、手書き認識、およびコード音楽モデリングに関する 8 つの LSTM バリアントのパフォーマンスをベンチマークしました。彼らはまた、「どの亜種も標準の LSTM アーキテクチャを大幅に改善していない」ことも発見しました。Zhang et al. (2016) は、RNN の接続アーキテクチャを体系的に分析し、文字レベルの言語モデリングと包括的なストレス テストに関するさまざまなアーキテクチャを評価しました。Melis et al. (2018) は、単語レベルおよび文字レベルの言語モデリングで LSTM ベースのアーキテクチャのベンチマークを行い、「LSTM は新しいモデルよりも優れている」と結論付けています。

 その他の最近の研究は、RNN アーキテクチャと CNN アーキテクチャの側面を組み合わせることを目的としています。これには、LSTM の全結合層を畳み込み層に置き換えて再帰層に構造を追加できる畳み込み LSTM (Shi et al、2015)、畳み込みを織り交ぜる Quasi-RNN モデル (Bradbury et al、2017) が含まれます。単純な再帰層を持つ層; 再帰アーキテクチャに拡張を追加する拡張 RNN (Chang et al、2017)。これらの組み合わせは、両方のアーキテクチャのアイデアを組み合わせることで有望であることを示していますが、ここでの研究は一般的な畳み込みアーキテクチャとリカレント アーキテクチャの比較に焦点を当てています

 代表的なシーケンス モデリング タスクに関する RNN アーキテクチャの包括的な評価がいくつかありますが、シーケンス モデリングの畳み込み手法とリカレント手法の同様の徹底的な比較を私たちは知りません。(ying et al、2017) は、文レベルおよび文書レベルの分類タスクにおける畳み込みネットワークとリカレント ネットワークの比較を報告しました。対照的に、シーケンス モデリングには、シーケンス全体を要素ごとに合成できるアーキテクチャが必要です。) この分野における前述の畳み込みアーキテクチャの最近の成功を考えると、この比較は特に興味深いものです。私たちの研究は、RNN バリアント自体のベンチマークに一般的に使用される典型的なシーケンス モデリング タスクの一般的な畳み込みアーキテクチャと再帰アーキテクチャを比較することを目的としています(Hermans & Schrauwen、2013; Le et al、2015; Jozefowicz et al、2015 ; Zhang et al、2016) )。

3. 時間畳み込みネットワーク

 まず、畳み込みシーケンス予測のための一般的なアーキテクチャについて説明します。私たちの目標は、畳み込みネットワーク設計のベスト プラクティスを、便利で強力な出発点として機能するシンプルなアーキテクチャに抽出することです。时序卷积网络私たちは、提案されたアーキテクチャを (TCN) と呼びますが、この用語を真に新しいアーキテクチャのラベルとしてではなく、アーキテクチャ ファミリの単純な説明用語として採用していることを強調します。(この用語は以前にも使用されていることに注意してください (Lea et al、2017)) TCN の顕著な特徴は次のとおりです: 1)アーキテクチャ内の畳み込みには因果関係があり、未来から過去に情報が「漏洩」しないことを意味します。2) )このアーキテクチャは、 RNN と同様に、任意の長さのシーケンスを受け取り、それを同じ長さの出力シーケンスにマッピングできますとりわけ、非常に深いネットワーク (残差層によって強化される) と拡張畳み込みの組み合わせを使用して、非常に長い有効な履歴スケール (つまり、時間を遡って予測を行うネットワークの機能) を構築する方法を強調します。

 私たちのアーキテクチャは、最近の逐次データ畳み込みアーキテクチャ (van den Oord et al、2016; Kalchbrenner et al、2016; Dauphin et al、2017; Gehring et al、2017a;b) から借用していますが、これらのアーキテクチャすべてとは異なり、設計されています。第一原理から、シンプルさ、自己回帰予測、超長期記憶を組み合わせています。たとえば、TCN は WaveNet よりもはるかに単純です (van den Oord et al、2016) (スキップ接続、条件、コンテキスト スタック、またはレイヤー間のゲート アクティベーションがありません)

 Dauphin et al. (2017) の言語モデリング アーキテクチャと比較して、TCN はゲート メカニズムを使用せず、より長いメモリを備えています

3.1. シーケンスモデリング

 ネットワーク構造を定義する前に、シーケンス モデリング タスクの性質を強調します入力シーケンスx 0 , . . . , x T x_0,\ .\ .\ .\ ,\ x_T があるとします。バツ0     バツTそして、各時点で対応する出力 y 0 , . . . , y T y_0,\ .\ .\ .\ ,\ y_T を予測したいと考えています。y0     yT重要な制約は、特定の時刻を予測することですttt yty y_tの出力y、以前に観察した入力のみを使用できます: x 0 、. . . 、xt x_0,\ .\ .\ .\ ,\ x_tバツ0     バツ正式には、シーケンス モデリング ネットワークは、次のマッピングを生成する関数 f です: {T+1}+1f :バツT + 1+1YT + 1+1

公式 1

yt y_t を満たす場合yx 0 , . . . , xt x_0,\ .\ .\ .\ ,\ x_tにのみ依存しますバツ0     バツxt + 1 , . . . , x T x_{t+1},\ .\ .\ .\ ,\ x_T の因果的制約バツt + 1     バツTシーケンス モデリング設定での学習の目標は、ネットワークffを見つけることです。f、実際の出力と予測の間の予想される損失L ( y 0 , . . . , y T , f ( x 0 , . . . , x T ) ) L\left(y_0,\ .\ . \ .\ ,\ y_T,\ f\left(x_0,\ .\ .\ .\ ,\ x_T\right)\right)L( y0     yT f( ×0     バツT) )、シーケンスと出力が何らかの分布に対してプロットされています。

 この形式主義には、たとえば自回归预测(特定の過去の信号を予測しようとしている場合)ターゲット出力を単純に 1 タイム ステップによる入力オフセットに設定するなど、多くの設定が含まれます。ただし、このような場合、入力シーケンス全体 (「将来の」状態を含む) を使用して各出力を予測できるため、 or etc. ドメインを直接キャプチャすることはできません (ただし、これらの技術は当然、そのような環境で機能するように拡張できます机器翻译) 序列到序列预测

3.2. 因果畳み込み

 上で述べたように、TCN は 2 つの原則に基づいています。ネットワークは入力と同じ長さの出力を生成し、未来は過去に漏れることはありません。最初の点を達成するために、TCN は 1 次元の完全畳み込みネットワーク (FCN) アーキテクチャ(Long et al、2015) を使用します。このアーキテクチャでは、各隠れ層は入力層と同じ長さであり、長さのゼロ パディングが追加されます (カーネル サイズ) - 1) 後続のレイヤーを前のレイヤーと同じ長さに保ちます。2 番目の点を達成するために、TCN は因果畳み込み、つまり時間ttを使用します。tの出力は、時間 t および前の層のそれ以前の要素とのみ畳み込まれます。

 例:TCN = 1 D FCN + 因果畳み込み TCN=1D\ FCN+因果\ 畳み込みTCN=1D FCN _ +原因なるコンボリューション  _ _ _ _ _ _ _ _ _ _ _ _

 これは、ほぼ 30 年前に Waibel et al. (1989) によって提案された時間遅延ニューラル ネットワークと本質的に同じアーキテクチャであることに注意してください。唯一の調整は、すべての層が同じサイズになるようにゼロ パディングすることです

 この基本設計の主な欠点は、長い有効履歴サイズを達成するには、非常に深いネットワークまたは非常に大規模なフィルターが必要になることですが、これらの方法が最初に導入された時点では、どちらも特に実現可能ではありませんでした。したがって、次のセクションでは、最新の畳み込みアーキテクチャの技術を TCN に統合して、非常に深いネットワークと非常に長い有効な履歴を実現する方法について説明します。

3.3. 拡張畳み込み

単純な因果畳み込みは履歴を振り返ることしかできず、そのサイズはネットワークの深さに応じて線形にスケールしますこのため、上記の因果的畳み込みをシーケンス タスク、特に長い履歴を必要とするタスクに適用することが困難になります。van den Oord et al. (2016) の研究に従って、私たちの解決策は、拡張畳み込みを使用して指数関数的に大きな受容野を達成することです(Yu & Koltun、2016)。より正式には、1 次元シーケンスの場合、入力x ∈ R nx\in\mathbb{R}^nバツRnとフィルターf : { 0 , . . . , k − 1 } → R f\ : \left\{0,\ .\ .\ .\ ,\ k-1\right\}\rightarrow\mathbb{R }f :{ 0 ,     k1 }R、シーケンス要素ss拡張畳み込み演算FFのsFは次のように定義されます

公式 2

 ここでdddは拡張係数、kkkはフィルター サイズ、s − d ⋅ i sd・isd⋅ _iは過去の方向を表します。したがって、拡張は、隣接する 2 つのフィルター タップごとに固定ステップ サイズを導入することと同じです。d=1の場合d=1d=1では、拡張された畳み込みは通常の畳み込みに縮退します。より大きな拡張を使用すると、最上層の出力がより広範囲の入力を表現できるようになり、ConvNet の受容野が効果的に拡張されます。

 これにより、TCN の受容野を拡大する 2 つの方法が得られます。より大きなフィルター サイズを選択しますkと膨張率ddd、ここで、そのような層の 1 つの有効履歴は( k − 1 ) d (k-1)d( k1 ) d . 拡張畳み込みを使用する場合は一般的ですが、ネットワークの深さに応じてdd がd (つまり、ネットワークi 层, d   =   O ( 2 i ) d\ =\ O(2^i) d = 2)。これにより、有効な履歴内のすべての入力にヒットするフィルターが存在することが保証されると同時に、ディープ ネットワークの非常に大規模な有効な履歴の使用も可能になります図 1(a) に図を示します。

図1

図 1. TCN のアーキテクチャ要素。(a) 拡張係数 d=1、2、4、フィルター サイズ k=3 の拡張因果畳み込み。受容野は入力シーケンス内のすべての値をカバーします。(b) TCN 残留ブロック。残差の入力と出力の次元が異なる場合は、1x1 畳み込みを追加します。(c) TCN の残りの接続の例。青い線は残差関数のフィルター、緑の線は恒等マップです。

3.4. 残留接続

残差ブロック (He et al、2016) には、一連の変換F \mathcal{F} につながる分岐が含まれています。F、その出力はブロックの入力xx×

公式 3

これにより、レイヤーは変換全体ではなくアイデンティティ マップへの変更を効果的に学習できるようになり、非常に深いネットワークに利益をもたらすことが繰り返し示されています。

 TCNの受容野はネットワークの深さnnに依存するためnとフィルターサイズkkkと膨張率dddであるため、より深くより大きな TCN の安定性が重要になります。たとえば、予測がサイズ 212 の履歴と高次元の入力シーケンスに依存する場合、ネットワークの最大 12 層が必要になる場合があります。より具体的には、各レイヤーには特徴抽出用の複数のフィルターが含まれていますしたがって、一般的な TCN モデルを設計するときは、畳み込み層の代わりに一般的な残差モジュールを使用します。

 ベースライン TCN の残りのブロックを図 1(b) に示します。残差ブロック内では、TCN には拡張因果畳み込みと非線形性の 2 つの層があり、これには修正線形単位 (ReLU) を使用します (Nair & Hinton、2010)。正規化のために、重み正規化 (Salimans & Kingma、2016) を畳み込みフィルターに適用します。さらに、空間ドロップアウト (Srivastava et al、2014) は、正則化のための各拡張畳み込みの後に追加されます。各トレーニング ステップで、チャネル全体がゼロになります。

 ただし、標準の ResNet では、入力は残差関数の出力に直接追加されますが、TCN (および一般に ConvNet) では、入力と出力の幅が異なる場合があります。入力幅と出力幅の違いを考慮して、追加の 1x1 畳み込みを使用して、要素ごとの加算⊕ \oplusを保証します。同じ形状のテンソルを受け取ります (図 1(b,c) を参照)。

3.5. ディスカッション

 TCN を使用したシーケンス モデリングのいくつかの优点概要をリストして缺点このセクションを締めくくります。

  • 並列処理後のタイム ステップの予測が前のタイム ステップの完了を待つ必要がある RNN とは異なり、各層で同じフィルターが使用されるため、畳み込みは並行して実行できます。したがって、トレーニングと評価中に、RNN のように順番にではなく、TCN で長い入力シーケンスを全体として処理できます。
  • 柔軟な受容野サイズTCN は、いくつかの方法でその受容野サイズを変更できますたとえば、より拡張された (因果的な) 畳み込み層を積み重ねたり、より大きな拡張係数を使用したり、フィルター サイズを大きくしたりすることはすべて実行可能なオプションです (解釈が異なる可能性があります)。したがって、TCN はモデルのメモリ サイズをより適切に制御でき、さまざまなドメインに簡単に適応できます。
  • 安定した勾配リカレント アーキテクチャとは異なり、TCN のバックプロパゲーション パスはシーケンスの時間方向とは異なります。したがって、 TCNは、RNN の主要な問題である勾配の爆発/消失の問題を回避します(そして、LSTM、GRU、HF-RNN (Martens & Sutskever、2011) などの開発につながりました)。
  • トレーニングに必要なメモリが少ない特に長い入力シーケンスの場合、LSTM と GRU は、複数のユニット ゲートの部分的な結果を保存するために大量のメモリを簡単に使い果たす可能性があります。ただし、TCN では、フィルターは層間で共有され、バックプロパゲーション パスはネットワークの深さにのみ依存しますしたがって、実際には、ゲート RNN は TCN よりも何倍も多くのメモリを使用する可能性があることがわかります。
  • 可変長入力RNN が周期的な方法で可変長入力をモデル化するのと同様に、TCN も 1 次元畳み込みカーネルをスライドさせることで任意長の入力を受け入れることができますこれは、任意の長さのシーケンス データに対して TCN を RNN のドロップイン代替品として使用できることを意味します。

 TCN の使用には明らかな欠点が 2 つあります。

  • 評価中のデータ保管。評価/テストでは、RNN は非表示のままにして現在の入力を受け入れるだけで済みますxt x_tバツ予測を生成することができます。言い換えれば、履歴全体の「要約」は、固定長のベクトルのセットht h_tによって表されます。hただし、実際に観察されたシーケンスは破棄できます。対照的に、TCN は有効な履歴長の生のシーケンスを受信する必要があるため、評価中により多くのメモリが必要になる場合があります
  • ドメイン転送のパラメータ変更の可能性。ドメインが異なれば、モデルの予測に必要な履歴の量についての要件も異なる場合がありますしたがって、メモリをほとんど必要としないモデル (つまり、小さいkk)からモデルを変換する場合、kddd ) より長いメモリを必要とするドメイン (つまり、はるかに大きなkk)kddd )、TCN は十分な大きさの受容野を持たないため、パフォーマンスが低下する可能性があります。

4. シーケンスモデリングタスク

 さまざまな RNN シーケンス モデリング アーキテクチャのパフォーマンスをベンチマークするために一般的に使用されるタスクで TCN と RNN を評価します (Hermans & Schrauwen、2013; Chung et al、2014; Pascanu et al、2014; Le et al、2015; Jozefowicz et al、2015; Zhang 他、2016)。目的は、RNN シーケンス モデルの「ホーム フィールド」を評価することです。当社では、総合的なストレス テストの包括的なセットと、複数のドメインからの実世界のデータ セットを使用しています。

追加の問題このタスクでは、各入力は深さ 2 と長さnnで構成されます。これは、すべての値が[0, 1] [0,\ 1]のnのシーケンスで構成されます。[ 0 , 1 ] の場合、2 番目の次元は 1 とマークされた 2 つの要素を除いてすべてゼロです。目標は、2 番目の次元に 1 というラベルが付いた 2 つのランダムな値を追加することです。単純に合計が 1 であると予測すると、MSE は約 0.1767 になるはずです。Hochreiter & Schmidhuber (1997) によって初めて導入され、加算問題はシーケンス モデルのストレス テストとして繰り返し使用されてきました (Martens & Sutskever, 2011; Pascanu et al, 2013; Le et al, 2015; Arjovsky et al, 2016; Zhang他、2016)。

シーケンシャル MNIST および P-MNISTシーケンシャル MNIST は、リカレント ネットワークが遠い過去からの情報を保持する能力をテストするためによく使用されます (Le et al, 2015; Zhang et al, 2016; Wisdom et al, 2016; Cooijmans et al, 2016; Krueger et al, 2017; Jing ら、2017 年)。このタスクでは、MNIST 画像 (LeCun et al、1998) が、数字分類用の 784×1 シーケンスとしてモデルに提示されます。より困難な P-MNIST 設定では、配列の順序がランダム化されます (Le et al、2015; Arjovsky et al、2016; Wisdom et al、2016; Krueger et al、2017)。

 メモリをコピーします。このタスクでは、各入力シーケンスの長さはT + 20 T + 20です。T+20最初の 10 個の値は、1、...、8 1、...、\ 8 の数字になります。1 ...  8 個からランダムに選択されます、最後の 11 エントリを除き、残りはすべてゼロであり、数字「9」が埋め込まれています (最初の 9 は区切り文字です)。目標は、区切り文字の後の最後の 10 個の値を除くすべての場所がゼロである同じ長さの出力を生成することです。モデルは入力の先頭で検出した 10 個の値を繰り返すことが期待されます。このタスクは、Zhang et al. (2016)、Arjovsky et al. (2016)、Wisdom et al. (2016)、Jing et al. (2017) などの以前の研究で使用されています。

JSBコラールとノッティンガムJSB Chorales (Allan & Williams、2005) は、J.S. バッハによる 382 の 4 部構成の合唱曲の全コーパスで構成されるポリフォニック音楽データ セットです。各入力は要素のシーケンスです。各要素はピアノの 88 個の鍵盤に対応する 88 ビットのバイナリ コードであり、1 は特定の時間に押された鍵盤を表します。Nottingham は、1200 曲のイギリスとアメリカの民謡をベースにした和音音楽データ セットであり、JSB Chorales よりもはるかに多くなります。JSB Chorales と Nottingham は、循環シーケンス モデリングの数多くの実証研究で使用されています (Chung et al, 2014; Pascanu et al, 2014; Jozefowicz et al, 2015; Greff et al, 2017)。両方のタスクのパフォーマンスは、負の対数尤度 (NLL) の観点から測定されました。

ペンツリーバンク文字レベルおよび単語レベルの言語モデリングには、PennTreebank (PTB) (Marcus et al、1993) を使用します。文字レベルのコーパスとして使用される場合、PTB には、文字サイズ 50 で、トレーニング用に 5,059,000 文字、検証用に 396,000 文字、テスト用に 446,000 文字が含まれます。単語レベルの言語コーパスとして使用される場合、PTB にはトレーニング用に 888,000 語、検証用に 70,000 語、テスト用に 79,000 語が含まれており、語彙サイズは 10,000 になります。これはよく研究されていますが、比較的小規模な言語モデリング データセットです (Miyamoto & Cho、2016; Krueger et al、2017; Merity et al、2017)。

ウィキテキスト-103Wikitext-103 (Merity et al、2016) は PTB よりもほぼ 110 倍大きく、語彙数は約 268K です。データセットには、トレーニング用の 28,000 件の Wikipedia 記事 (約 1 億 300 万語)、検証用の 60 件の記事 (約 218,000 語)、テスト用の 60 件の記事 (約 246,000 語) が含まれています。これは、PTB よりも代表的で信頼できるデータセットであり、語彙が多く、多くの珍しい単語が含まれており、Merity et al. (2016); Grave et al. (2017); Dauphin et al. (2017) で使用されています。

ランバダPaperno et al. (2016) によって導入された LAMBADA は、小説から抽出された 10,000 の段落を含むデータセットで、コンテキストとして平均 4.6 文、最後の単語を予測する 1 つのターゲット文を含みます。このデータセットは、文脈文が与えられた場合には欠落している単語を簡単に推測できるが、文脈文なしでターゲット文のみが与えられた場合には推測できないように構築されています。既存のモデルのほとんどは LAMBADA では失敗します (Paperno et al、2016; Grave et al、2017)。一般に、LAMBADA の結果が良好であるということは、モデルがより長くより広範なコンテキストから情報を取得することに優れていることを示しています。LAMBADAの学習データは2億語を超える小説2662作品の全文です。語彙のサイズは約 93K です。

テキスト8 . また、文字レベル言語モデリングには text8 データセットも使用します (Mikolov et al、2012)。text8 は PTB の約 20 倍の大きさで、Wikipedia の約 1 億文字が含まれています (トレーニング用に 90M、検証用に 5M、テスト用に 5M)。コーパスには 27 個の固有の文字が含まれています。

5. 実験

 セクション 3 で説明した一般的な TCN アーキテクチャを、標準的な正則化を備えた典型的なリカレント アーキテクチャ (つまり、LSTM、GRU、およびバニラ RNN) と比較します。このセクションで報告されるすべての実験は、ネットワークの深さ n と、場合によってはカーネル サイズk kだけを変えて、まったく同じ TCN アーキテクチャを使用します。kにより、受容野が十分な予測コンテキストをカバーできるようになります。特に明記されていない限り、ネットワークではiii層は指数拡張を使用しますd = 2 id=2^id=2i、学習率 0.002 の TCN に対して Adam オプティマイザー (Kingma & Ba、2015) を使用します。また、勾配クリッピングが収束に役立つことも経験的に発見しました。 [0.3, 1] [0.3,\ 1]から開始します。[ 0.3  1 ]トリミングの最大ノルムを選択します。循環モデルをトレーニングするときは、グリッド検索を使用して適切なハイパーパラメーターのセットを見つけます (特にオプティマイザー、循環降下 p∈ [ 0.05 , 0.5 ] p\in[0.05,\ 0.5])p[ 0.05  ネットワーク サイズはTCN とほぼ同じに保ちながら、学習率、勾配クリッピング、初期フォーゲット ゲート バイアス) を実現しますゲート機構やスキップ接続など、その他のアーキテクチャの詳細は TCN または RNN に追加されません。詳細および管理された実験については、補足資料に記載されています。

5.1. 結果の概要

 結果の概要を表 1 に示します。これらのタスクのいくつかでは、私たちが研究する一般的な典型的なリカレント アーキテクチャ (LSTM、GRU など) が最先端のものではないことに注意してください。(詳細については、補足資料を参照してください) この警告により、結果は、最小限のチューニングを備えた一般的な TCN アーキテクチャが、ループ アーキテクチャ自体のパフォーマンスのベンチマークに一般的に使用されるさまざまなシーケンス モデリングで良好にパフォーマンスし、典型的なループ アーキテクチャを上回るパフォーマンスを発揮することを強く示唆していますこれらの結果をさらに詳しく分析します。
表1

表 1. 包括的なストレス テスト、ポリフォニック音楽モデリング、文字レベル言語モデリング、および単語レベル言語モデリングにおける TCN およびループ アーキテクチャの評価。一般的な TCN アーキテクチャは、タスクとデータセットの包括的なセットにおいて、正規のリカレント ネットワークよりも優れたパフォーマンスを発揮します。現在の最先端の結果は補足資料に記載されています。h は高いほど良いことを意味します。l は低いほど良いことを意味します。

5.2. 包括的なストレステスト

追加の問題問題サイズの場合T = 200 T=200T=200600 600600 の加算問題の収束結果を図 2 に示します。すべてのモデルは、約 70K のパラメーターを持つように選択されました。TCN はすぐにほぼ完璧な解に収束します (つまり、MSE は 0 に近くなります)GRU も非常に優れたパフォーマンスを発揮しますが、コンバージェンス速度は TCN よりも遅いです。LSTM とバニラ RNN のパフォーマンスは大幅に低下します。

図2

図 2. 異なるシーケンス長 T に対する加算問題の結果。TCN はラウンドロビン アーキテクチャよりも優れたパフォーマンスを発揮します。

シーケンシャル MNIST および P-MNIST図 3 は、10 エポックにわたって実行された逐次および順列 MNIST の収束結果を示しています。すべてのモデルは約 70K のパラメーターで構成されています。どちらの問題でも、TCN はタスクの収束性と最終精度の点でリカレント アーキテクチャよりも大幅に優れていますP-MNIST の場合、TCN は、 Zoneout および Recurrent BatchNorm を使用したリカレント ネットワークに基づく最先端の結果 (95.9%) を上回っています(Cooijmans et al、2016; Krueger et al、2017)。

画像3

図 3. 逐次 MNIST と P-MNIST の結果。TCN はラウンドロビン アーキテクチャよりも優れたパフォーマンスを発揮します。

メモリをコピーしますメモリ コピー タスクの収束結果を図 4 に示します。TCN は正しい答えにすぐに収束しますが、LSTM と GRU はすべて 0 を予測した場合と同じ損失にのみ収束しますこれに関連して、最近提案された EURNN (Jing et al、2017) とも比較します。EURNN は、このタスクで優れたパフォーマンスを発揮することが強調されています。TCNとEURNNの系列長はT=500ですが、T=500T=500では良好なパフォーマンスですが、 T=1000 T=1000では TCNT=1000以上には明らかな利点があります (損失と収束速度の点で)

図4

図 4. さまざまなシーケンス長 T に対するメモリのコピー タスクの結果。TCN はラウンドロビン アーキテクチャよりも優れたパフォーマンスを発揮します。

5.3. コード音楽と言語モデリング

 ここで、ポリフォニック音楽モデリング、文字レベル言語モデリング、および単語レベル言語モデリングの結果について説明します。これらの分野はループ アーキテクチャが大半を占めており、これらのタスク用に多くの特殊な設計が開発されています (Zhang et al, 2016; Ha et al, 2017; Krueger et al, 2017; Grave et al, 2017; Greff et al, 2017; Merity et al 、2017)。これらの特殊なアーキテクチャのいくつかについては役立つ場合に言及しますが、主な目的は、ドメイン固有のチューニングの前に、一般的な TCN モデルを同様の汎用ループ アーキテクチャと比較することです結果を表 1 にまとめます。

ポリフォニック音楽ノッティンガムと JSB コラールでは、ほとんど調整されていない TCN がリカレント モデルよりも大幅に優れており、 HF-RNN (Boulanger-Lewandowski et al、2012) や Diagonal RNN (Subakan & Smaragdis、 2017)。ただし、Deep Belief Net LSTM などの他のモデルのパフォーマンスが依然として優れていることに注意してください (Vohra et al、2015)。これはデータセットが比較的小さいためである可能性があるため、適切な正則化手法または生成モデリング手順によりパフォーマンスが大幅に向上すると考えられますTCN の同様の変形が可能である可能性が高いため、これは RNN/TCN の区別とほぼ直交しています。

ワードレベルの言語モデリング言語モデリングは依然としてリカレント ネットワークの主要なアプリケーションの 1 つであり、最近の研究の多くはこのタスク用の LSTM の最適化に焦点を当てています (Krueger et al、2017; Merity et al、2017)。私たちの実装は、TCN と RNN のエンコーダー層とデコーダー層の重みをリンクする標準的な手法 (Press & Wolf、2016) に従っており、モデル内のパラメーターの数が大幅に削減されます。学習にはSGDを使用し、検証精度が安定している場合にTCNとRNNの学習率を0.5倍にアニールします。

より小さな PTB コーパスでは、最適化された LSTM アーキテクチャ (ループや埋め込みドロップアウトなど) が TCN を上回り、TCN は GRU や標準的な RNN を上回りますただし、より大規模な Wikitext-103 コーパスと LAMBADA データセット (Paperno et al.、2016) では、TCN はハイパーパラメーター検索なしで Grave et al. (2017) の LSTM 結果を上回り、より良い結果を達成しています

文字レベル言語モデリング文字レベル言語モデリング (PTB およびテキスト 8、精度は文字あたりのビット数で測定される) では、一般的な TCN は、正規化 LSTM や GRU、ゲージ安定化 LSTM などの方法よりも優れています(Krueger & Memisevic、2015)。(これらすべてよりも優れた特殊なアーキテクチャが存在します。補足資料を参照してください)

5.4. TCNとRNNのメモリサイズ

ループ アーキテクチャの理論上の利点の 1 つは、無限メモリ、つまり無限長のシーケンスを通じて情報を保持できる理論上の能力です。ここでは、さまざまなアーキテクチャが実際に情報を保持できる期間を具体的に調べます。私たちは、1) リカレント ネットワークにおける長期長距離情報伝播を評価するために設計されたストレス テストであるコピー メモリ タスク、および 2) ローカルおよび非ネイティブのテキスト理解をテストする LAMBADA タスクに焦点を当てます。

メモリのコピー タスクは、さまざまな期間にわたって情報を保持するモデルの能力を検査するために完全に設定されていますシーケンス長TTを変更することで、必要なリテンションタイムを変更できます。Tを制御します。セクション 5.2 とは対照的に、ここでは出力シーケンスの最後の 10 要素の精度に焦点を当てます (これらは、思い出す必要がある重要な要素です)。TCN と RNN にはサイズ 10K のモデルを使用します。

 この集中的な研究の結果を図 5 に示します。TCN はすべてのシーケンス長に対して常に 100% の精度に収束しますが、同じサイズの LSTM と GRU はシーケンス長 T が大きくなるにつれて急速にランダムな推測に劣化します。T < 50の場合T < 50T<50の場合、LSTM の精度は 20% 未満になり、T < 200 の場合、T < 200T<200では、GRU の精度は 20% 未満になります。これらの結果は、TCN が反復的な対応物よりも長い有効性履歴を維持できることを

図5

図 5. 異なる長さのシーケンス T に対するコピー メモリ タスクの精度。TCN はすべてのシーケンス長に対して 100% の精度を示しますが、LSTM と GRU は T が大きくなるにつれてランダムな推測に低下します。

 この観察は、広範囲のコンテキストを活用するモデルの能力をテストするために特別に設計された大規模な LAMBADA データセットでの実験から得られた実際のデータによって裏付けられています (Paperno et al、2016)。表 1 に示すように、LAMBADA 上の TCN の複雑さは LSTM や通常の RNN よりも大幅に優れており、ネットワーク サイズははるかに小さく、チューニングはほとんど必要ありません。(このデータセットの最新の結果はさらに優れていますが、追加のメモリメカニズムの助けを借りてのみです (Grave et al、2017))

6 結論

私たちは、シーケンス モデリング タスクの包括的なセットに関して、一般的な畳み込みアーキテクチャと再帰アーキテクチャを経験的に評価しました。この目的を達成するために、拡張や残差接続などのベスト プラクティスと、自己回帰予測に必要な因果的畳み込みを組み合わせた単純な時間畳み込みネットワーク (TCN) について説明します。実験結果は、TCN モデルが LSTM や GRU などの一般的なリカレント アーキテクチャよりも大幅に優れていることを示しています。我々は、畳み込みネットワークおよびリカレントネットワークにおける長距離情報伝播をさらに研究し、RNN の「無限メモリ」という利点が実際には本質的に存在しないことを示します。TCN は、同じ容量のラウンドロビン アーキテクチャよりも長いメモリを示します

LSTM を正規化および最適化するための多くの高度なスキームが提案されています (Press & Wolf、2016; Krueger et al、2017; Merity et al、2017; Campos et al、2018)。これらのスキームにより、特定のデータセット上で LSTM ベースのアーキテクチャによって達成される精度が大幅に向上します。TCN は、アーキテクチャとアルゴリズムの改良に対するコミュニティ全体の協調的な投資からまだ恩恵を受けていません。当社はこのような投資が望ましいと考えており、近年の LSTM のパフォーマンス向上に見合った TCN のパフォーマンス向上につながることを期待しています。この探索を促進するために、プロジェクトのコードをリリースします。

シーケンス モデリングにおいてリカレント ネットワークが享受してきた卓越した地位は、ほとんどが過去の遺物である可能性があります。最近まで、拡張畳み込みや残差接続などのアーキテクチャ要素が導入される前は、畳み込みアーキテクチャは実際には弱かった。私たちの結果は、これらの要素を使用すると、さまざまなシーケンス モデリング タスクにおいて、単純な畳み込みアーキテクチャが LSTM などのリカレント アーキテクチャよりも効果的であることを示しています。TCN は非常に明確で単純であるため、畳み込みネットワークはシーケンス モデリングの自然な出発点および強力なツールキットとして考慮されるべきであると結論付けています。

参考文献

アラン、モーレイ、そしてウィリアムズ、クリストファー。確率的推論によるコラールの調和。NIPSにて、2005年
。Arjovsky、Martin、Shah、Amar、Bengio、Y oshua。単一進化リカレント ニューラル ネットワーク。ICML、2016 年
。Ba、Lei Jimmy、Kiros、Ryan、および Hinton、Geoffrey E. レイヤー正規化。arXiv:1607.06450、2016。Bahanau
、Dzmitry、Cho、Kyunghyun、および Bengio、Y oshua。調整と翻訳を共同学習することによるニューラル機械翻訳。ICLR にて、2015 年
。Bengio、Y oshua、Simard、Patrice、および Frasconi、Paolo。勾配降下法で長期的な依存関係を学習するのは困難です。IEEE Transactions on Neural Networks、5(2)、1994 年。
ボットー、レオン、スーリー、F・フォーゲルマン、ブランシェ、パスカル、そしてリナール、ジャン・シルヴァン。話者に依存しない孤立した数字の認識: 多層パーセプトロンと動的タイムワーピング。Neural Networks、3(4)、1990 年
。Boulanger-Lewandowski、Nicolas、Bengio、Y oshua、および Vincent、Pascal。高次元シーケンスにおける時間的依存関係のモデリング: ポリフォニック音楽の生成と転写への応用。arXiv:1206.6392、2012。Bradbury
、James、Merity、Stephen、Xiong、Caiming、および Socher、Richard。準リカレント ニューラル ネットワーク。ICLRにて、2017年。
カンポス、ビクター、ジョウ、ブレンダン、ギロイ・ニエト、ザビエル、トーレス、ジョルディ、チャン・シーフー。RNN をスキップ: リカレント ニューラル ネットワークで状態更新をスキップする方法を学習します。ICLRにて、2018年。
Chang、Shiyu、Zhang、Yang、Han、Wei、Y u、Mo、Guo、Xiaoxiao、Tan、Wei、Cui、Xiaodong、Witbrock、Michael J.、HasekawaJohnson、Mark A.、および Huang、Thomas S. 拡張再発性ニューラルネットワーク。NIPSにて、2017年。
チョー、ギョンヒョン、ファン・メリエンボーア、バート、バダナウ、ドズミトリー、ベンギオ、ヨシュア。ニューラル機械翻訳の特性について: エンコーダーとデコーダーのアプローチ。arXiv:1409.1259、2014。Chung
、Junyoung、Gulcehre、Caglar、Cho、KyungHyun、および Bengio、Y oshua。シーケンスモデリングにおけるゲートリカレントニューラルネットワークの経験的評価。arXiv:1412.3555、2014。Chung
、Junyoung、Ahn、Sungjin、および Bengio、Y oshua。階層型マルチスケールリカレントニューラルネットワーク。arXiv:1609.01704、2016。
コロバート、ローナン、ウェストン、ジェイソン。自然言語処理のための統合アーキテクチャ: マルチタスク学習を備えたディープ ニューラル ネットワーク。ICML、2008 年。Collobert
、Ronan、Weston、Jason、Bottou、L´eon、Karlen、Michael、Kavukcuoglu、Koray、および Kuksa、Pavel P 。自然言語処理を(ほぼ)ゼロから行います。JMLR、12、2011。Conneau
、Alexis、Schwenk、Holger、LeCun、Yann、および Barrault、Loıc。テキスト分類のための非常に深い畳み込みネットワーク。計算言語学協会 (EACL) の欧州支部にて、2017 年
。Cooijmans、Tim、Ballas、Nicolas、Laurent、C´esar、Gèulc ¸ehre、C ¸ a˘glar、Courville、Aaron。反復的なバッチ正規化。ICLRにて、2016年。
ドーフィン、ヤン N.、ファン、アンジェラ、アウリ、マイケル、そしてグランジェ、デイビッド。ゲート畳み込みネットワークによる言語モデリング。ICMLにて、2017年。
ドス・サントス、セロ・ノゲイラ、ザドロズヌイ、ビアンカ。品詞タグ付けのための文字レベルの表現を学習します。ICMLにて、2014年。
エル・ヒヒ、サラー、ベンジオ、ヨシュア。長期依存関係のための階層的リカレント ニューラル ネットワーク。NIPS にて、1995 年。
エルマン、ジェフリー L. 時間内の構造の発見。Cognitive Science、14 (2)、1990。Gehring
、Jonas、Auli、Michael、Grangier、David、および Dauphin、Y ann。ニューラル機械翻訳用の畳み込みエンコーダー モデル。ACL、2017a。
Gehring、Jonas、Auli、Michael、Grangier、David、Y arats、Denis、Dauphin、Y ann N. 畳み込み数列から数列への学習。ICML、2017b。
ゲルス、フェリックス A、シュラウドルフ、ニコル N、シュミットフーバー、ユルゲン。lstmリカレントネットワークを使用して正確なタイミングを学習します。JMLR、3、2002。
グッドフェロー、イアン、ベンジオ、ヨシュア、およびクールヴィル、アーロン。ディープラーニング。MIT プレス、2016 年。
グレイブ、エドゥアール、ジュラン、アルマン、ウスニエ、ニコラ。継続的なキャッシュによるニューラル言語モデルの改善。ICLRにて、2017年。
グレイブス、アレックス。リカレント ニューラル ネットワークを使用した教師付きシーケンスのラベリング。スプリンガー、2012 年。
グレイブス、アレックス。リカレント ニューラル ネットワークを使用したシーケンスの生成。arXiv:1308.0850、2013。Greff
、Klaus、Srivastava、Rupesh Kumar、Koutnık、Jan、Steunebrink、Bas R.、および Schmidhuber、Jurgen。LSTM: 探索空間の旅。ニューラル ネットワークと学習システムに関する IEEE トランザクション、28(10)、2017。
ハ、デイビッド、ダイ、アンドリュー、レ、クオック V 。ハイパーネットワーク。ICLRにて、2017年。
彼、Kaiming、Zhang、Xiangyu、Ren、Shaoqing、Sun、Jian。画像認識のための深層残差学習。CVPR にて、2016 年
。Hermans、Michiel および Schrauwen、Benjamin。ディープリカレントニューラルネットワークのトレーニングと分析。NIPS にて、2013 年。
ヒントン、ジェフリー E. コネクショニストの学習手順。『人工知能』、40(1-3)、1989 年
。Hochreiter、Sepp および Schmidhuber、Jurgen。長期の短期記憶。Neural Computation、9(8)、1997。Jing
、Li、Shen、Yichen、Dubcek、Tena、Purifoy、John、Skirlo、Scott、LeCun、Yann、Tegmark、Max、および Soljaˇci´c、Marin。調整可能な効率的なユニタリ ニューラル ネットワーク (EUNN) とその RNN へのアプリケーション。ICMLにて、2017年。
ジョンソン、リーとチャン、トン。畳み込みニューラル ネットワークによるテキスト分類のための語順の効果的な使用。HLTNACL、2015年。
ジョンソン、リーとチャン、トン。テキスト分類のためのディープピラミッド畳み込みニューラルネットワーク。2017年のACLでは、
ヨゼフォヴィッチ、ラファル、ザレンバ、ヴォイチェフ、そしてスツケヴァー、イリヤ。リカレント ネットワーク アーキテクチャの実証的調査。ICMLにて、2015年。
ナル・カルクブレンナー、エドワード・グレーフェンステッテ、フィル・ブランサム。文をモデル化するための畳み込みニューラル ネットワーク。2014年のACLにて。
カルクブレンナー、ナル、エスペホルト、ラッセ、シモニャン、カレン、ファンデンオールド、アーロン、グレイブス、アレックス、そしてコライのカヴククオール。線形時間でのニューラル機械翻訳。arXiv:1610.10099、2016。
キム、ユン。文分類のための畳み込みニューラル ネットワーク。EMNLP、2014 年。
キングマ、ディーデリク、そしてバー、ジミー。アダム: 確率的最適化の手法。ICLR、2015年。
コウトニク、ヤン、グレフ、クラウス、ゴメス、ファウスティーノ、シュミットフーバー、ユルゲン。時計仕掛けの RNN。ICML にて、2014 年。
クルーガー、デヴィッド、メミセビッチ、ローランド。活性化を安定化することにより RNN を正規化します。arXiv:1511.08400、2015。
クルーガー、デイビッド、マハラジ、ティーガン、クラマール、ヤノス、ペゼシキ、モハマド、バラス、ニコラス、ケ、ナン・ローズマリー、ゴヤル、アニルード、ベンジオ、ヨシュア、ラロシェル、ヒューゴ、クールヴィル、アーロンC.、パル、クリス。ゾーンアウト: 隠れたアクティベーションをランダムに保存することで RNN を正規化します。ICLR、2017 年。Le
、Quoc V、Jaitly、Navdeep、および Hinton、Geoffrey E。整流された線形ユニットのリカレント ネットワークを初期化する簡単な方法。arXiv:1504.00941、2015。
Lea、Colin、Flynn、Michael D.、Vidal、Ren´e、Reiter、Austin、Hager、Gregory D. アクションのセグメンテーションと検出のための時間畳み込みネットワーク。CVPR、2017 年。LeCun
、Yann、Boser、Bernhard、Denker、John S.、Henderson、Donnie、Howard、Richard E.、Hubbard、Wayne、Jackel、Lawrence D. バックプロパゲーションを手書き郵便番号認識に適用。Neural Computation、1(4)、1989 年
。LeCun、Y ann、Bottou、L´eon、Bengio、Y oshua、および Haffner、Patrick。
勾配ベースの学習を文書認識に適用します。IEEE 議事録、86(11)、1998 年
。Long、Jonathan、Shelhamer、Evan、Darrell、Trevor。セマンティック セグメンテーションのための完全な畳み込みネットワーク。CVPRにて、2015年。
マーカス、ミッチェル P 、マルチンキェヴィッツ、メアリー アン、サントリーニ、ベアトリス。注釈付きの大規模な英語コーパスの構築: The Penn Treebank。計算言語学、19(2)、1993年
。Martens、JamesおよびSutskever、Ilya。ヘシアンフリー最適化によるリカレント ニューラル ネットワークの学習。ICML にて、2011 年
。Melis、G'abor、Dyer、Chris、Blunsom、Phil。ニューラル言語モデルにおける評価の最先端について。ICLR にて、2018 年。
メリティ、スティーブン、シオン、カイミン、ブラッドベリー、ジェームズ、ソッチャー、リチャード。ポインターセンチネル混合モデル。arXiv:1609.07843、2016。Merity
、Stephen、Keskar、Nitish Shirish、および Socher、Richard。
LSTM 言語モデルの正規化と最適化。arXiv:1708.02182、2017。
Mikolov、Tom´aˇs、Sutskever、Ilya、Deoras、Anoop、Le、Hai-Son、Kombrink、Stefan、および Cernocky、Jan。ニューラル ネットワークを使用したサブワード言語モデリング。プレプリント、2012 年。
宮本、明日正、チョ・ギョンヒョン。ゲートされた単語と文字の反復言語モデル。arXiv:1606.01700、2016。Nair
、Vinod および Hinton、Geoffrey E. 整流された線形ユニットは制限されたボルツマン マシンを改善します。ICML、2010 年。
ン、アンドリュー。シーケンス モデル (ディープ ラーニング スペシャライゼーションのコース 5)。Coursera、2018。Paperno
、Denis、Kruszewski、German、Lazaridou、Angeliki、Pham、Quan Ngoc、Bernardi、Raffaella、Pezelle、Sandro、Baroni、Marco、Boleda、Gemma、および Fern'andez、Raquel。LAMBADA データセット: 広範な談話コンテキストを必要とする単語予測。arXiv:1606.06031、2016。
パスカヌ、ラズヴァン、ミコロフ、トーマス、ベンジオ、ヨシュア。リカレント ニューラル ネットワークのトレーニングの難しさについて。ICML、2013 年。
パスカヌ、ラズヴァン、グルク ¸ehre、C ¸ aglar、チョー、キョンヒョン、ベンギオ、ヨシュア。ディープリカレントニューラルネットワークを構築する方法。ICLR にて、2014 年。
プレス、オフィルとウルフ、リオール。出力埋め込みを使用して言語モデルを改善します。arXiv:1608.05859、2016。
サリマンズ、ティムとキングマ、ディーデリク P 。重みの正規化: ディープ ニューラル ネットワークのトレーニングを加速するための単純な再パラメータ化。NIPS にて、2016 年
。Schuster、Mike および Paliwal、Kuldip K. 双方向リカレント ニューラル ネットワーク。信号処理に関する IEEE トランザクション、45 (11)、1997。
Sejnowski、Terrence J. および Rosenberg、Charles R. 英語テキストの発音を学習する並列ネットワーク。Complex Systems、1、1987。Shi
、Xingjian、Chen、Zhourong、Wang、Hao、Yeung、Dit-Yan、Wong、Wai-Kin、および Woo、Wang-chun。畳み込み LSTM ネットワーク: 降水量ナウキャストのための機械学習アプローチ。NIPSにて、2015年。Srivastava
、Nitish、Hinton、Geoffrey E、Krizhevsky、Alex、Sutskever、Ilya、Salakhutdinov、Ruslan。ドロップアウト: ニューラル ネットワークの過剰適合を防ぐ簡単な方法。JMLR、15(1)、2014年
。Subakan、Y Cem、Smaragdis、パリ。象徴的な音楽モデリングにおける対角 RNN。arXiv:1704.05420、2017。Sutskever
、Ilya、Martens、James、および Hinton、Geoffrey E. リカレント ニューラル ネットワークを使用したテキストの生成。ICML、2011 年。
Sutskever、Ilya、Vinyals、Oriol、および Le、Quoc V 。ニューラル ネットワークを使用したシーケンス間学習。NIPSにて、2014年。
ヴァン・デン・オールド、アーロン、ディーレマン、サンダー、ゼン、ヘイガ、シモニアン、カレン、ヴィニャルズ、オリオール、グレイブス、アレックス、カルクブレンナー、ナル、シニア、アンドリュー・W.、およびカヴククオグル、コライ。WaveNet: 生のオーディオの生成モデル。arXiv:1609.03499、2016。V
ohra、Raunaq、Goel、Kratarth、および Sahoo、JK。DBN-LSTM を使用したデータの時間依存関係のモデル化。データ サイエンスと高度な分析 (DSAA)、2015 年
。Waibel、Alex、花沢、俊之、Hinton、Geoffrey、Shikano、Kiyohiro、および Lang、Kevin J. 時間遅延ニューラル ネットワークを使用した音素認識。音響、音声、および信号処理に関する IEEE トランザクション、37(3)、1989 年。
Werbos、Paul J. 時間による逆伝播: その機能とその方法。IEEE議事録、78(10)、1990年。
ウィズダム、スコット、パワーズ、トーマス、ハーシー、ジョン、ル・ルー、ジョナサン、およびアトラス、Les.フルキャパシティのユニタリリカレント ニューラル ネットワーク。NIPS にて、2016 年。Wu
、Yuhuai、Zhang、Saizheng、Zhang、Ying、Bengio、Y oshua、および Salakhutdinov、Ruslan R。リカレント ニューラル ネットワークとの乗法統合について。NIPS にて、2016 年
。Yang、Zhilin、Dai、Zihang、Salakhutdinov、Ruslan、および Cohen、William W. ソフトマックスのボトルネックの突破: 高ランク RNN 言語モデル。ICLR、2018。
イン、ウェンペン、カン、カタリーナ、ユー、モ、およびシュッツェ、ハインリッヒ。自然言語処理における CNN と RNN の比較研究。arXiv:1702.01923、2017。
ユウ、フィッシャー、コルトゥン、ヴラドレン。拡張畳み込みによるマルチスケールのコンテキスト集約。ICLR にて、2016 年。Zhang
、Saizheng、Wu、Y uhuai、Che、Tong、Lin、Zhouhan、Memisevic、Roland、Salakhutdinov、Ruslan R、および Bengio、Yoshua。
リカレント ニューラル ネットワークのアーキテクチャの複雑さの尺度。NIPSにて、2016年
。Zhang、Xiang、Zhao、Junbo Jake、およびLeCun、Yann。テキスト分類のための文字レベルの畳み込みネットワーク。生理学研究所にて、2015年。

補足資料

A. ハイパーパラメータの設定

A.1. TCN ハイパーパラメータ

 表 2 は、一般的な TCN モデルをさまざまなタスクやデータセットに適用するときに使用するハイパーパラメーターの一覧です。パラメーターを選択する際の最も重要な要素は、タスクに必要なコンテキストの量をカバーできるkを選択することです。kddd TCN に十分な大きさの受容野があることを確認します。

表2

表 2. セクション 5 の実験の TCN パラメーター設定。

 セクション 5 で説明したように、モデル サイズが比較対象のリカレント モデルとほぼ同じレベルになるように、隠れユニットの数が選択されます。表 2 で、勾配クリッピングの N/A は、勾配クリッピングが適用されなかったことを意味します。より大きなタスク (言語モデリングなど) では、勾配クリッピングを経験的に見つけます ( [0.3, 1] [0.3,\ 1]から開始します)[ 0.3  1 ] ) は、TCN を正規化し、収束を加速するのに役立ちます。

すべての重みはガウス分布N ( 0 , 0.01 ) \mathcal{N}(0,\ 0.01) から引き出されます。N ( 0 , 0.01 )が初期化されました。一般に、有効履歴 (つまり、受容野) サイズが十分である限り、TCN はハイパーパラメータの変化に比較的鈍感であることがわかります。

A.2. LSTM/GRU のハイパーパラメータ

 表 3 は、LSTM に使用されるハイパーパラメータ設定を示しています。これらの値は、最大 3 層の LSTM のハイパーパラメーター検索から選択され、オプティマイザーは {SGD、Adam、RMSprop、Adagrad} から選択されました。一部のより大きなデータセットについては、以前の研究で使用された設定を採用しました (例: Grave et al. (2017) on Wikitext-103)。GRU ハイパーパラメータも同様の方法で選択されますが、ネットワーク全体のサイズをほぼ同じに保つために、通常は LSTM よりも多くの隠れユニットが含まれます (GRU ユニットはよりコンパクトであるため)。

表3

表 3. セクション 5 の実験用の LSTM パラメーター設定。

B. 最新の結果

 前に述べたように、私たちが使用した汎用 TCN および LSTM/GRU モデルは、一部のタスクではより特殊なアーキテクチャによって凌駕される可能性があります。表 4 は、最先端の結果をまとめたものです。すべてのタスクは同じ TCN アーキテクチャを使用します。最新モデルはTCNとサイズが異なる場合がありますのでご注意ください。

表4

表 4. セクション 5 のタスクの最先端 (SoTA) 結果。

C. フィルタ サイズと残留ブロックの影響

 このセクションでは、TCN 層のさまざまなコンポーネントの影響について簡単に説明します。一般に、長期的な依存関係のモデル化にはスケーリングが必要であると考えられるため、ここでは主に 2 つの追加要素に焦点を当てます:レイヤーごとに使用されるフィルター サイズkkと残留ブロックの影響。

 一連の対照実験を実施しました。アブレーション分析の結果を図 6 に示します。以前と同様に、拡張係数を厳密に制御するために、モデルのサイズと深さをモデル間でまったく同じに保ちます。実験は、コピー メモリ、順列 MNIST (P-MNIST)、およびペン ツリーバンクのワードレベル言語モデリングの 3 つの異なるタスクで行われました。これらの実験により、両方の要素 (フィルター サイズと残留接続) がシーケンス モデリングのパフォーマンスに寄与することが確認されました。

図6

図 6. TCN モデルのさまざまなコンポーネントの影響を研究するための対照実験。

フィルター サイズk \boldsymbol{k}k複製メモリおよび P-MNIST タスクでは、フィルター サイズが大きいほど収束が速くなり、精度が高くなることが観察されました。特に、図 6a を見ると、フィルタ サイズ≤ 3 ≤ 3TCN 3はランダムな推測と同じレベルにのみ収束します。対照的に、ワードレベル言語モデリングでは、フィルター サイズはk = 3 k=3k=3という小さいコアがこれは、小さなカーネル (および固定拡張) がローカル コンテキストに重点を置く傾向があり、これが PTB 言語モデリングにとって特に重要であるためであると考えられます (実際、n グラム モデルの成功は、モデリング言語のメモリが比較的短いことを示唆しています)。 。

残りのブロックここで比較する 3 つのケースすべてにおいて、残差関数によってトレーニングが安定化し、より高速な収束とより良い最終結果が得られることがわかります。特に言語モデリングでは、残りの接続がパフォーマンスに大きく寄与することがわかりました (図 6f を参照)。

D. ゲート機構

 ゲート アクティベーション (van den Oord et al、2016; Dauphin et al、2017) は、言語モデリングの畳み込みアーキテクチャに関する以前の研究で使用されたコンポーネントです。一般的な TCN モデルではゲートを使用しないことを選択しました。ここで、この選択をさらに詳しく検討します。Dauphin et al. (2017) は、ゲート線形ユニット (GLU) とゲートタンハユニット (GTU) の効果を比較し、非拡張ゲート ConvNet に GLU を採用しました。同じ選択に従って、ReLU を使用した TCN とゲーティング (GLU) を使用した TCN を比較します。これは 2 つの畳み込み層間の要素ごとの積で表され、そのうちの 1 つはシグモイド関数 σ ( x ) σ(x ) によっても渡されますσ ( x )ゲート アーキテクチャでは、ReLU-TCN よりも約 2 倍の数の畳み込み層が使用されることに注意してください。

 結果を表 5 に示します。モデル パラメーターの数をほぼ同じサイズに保ちました。GLU は、PTB などの特定の言語モデリング データセットに対する TCN の精度をさらに向上させており、これは以前の研究と一致しています。ただし、より長い情報保持が必要なポリフォニック音楽モデリングや合成ストレス テストなど、他のタスクでは同様の利点は観察されませんでした。T = 1000でT = 1000T=1000のコピー メモリ タスクでは、ゲーティングを使用した TCN は、ReLU を使用した TCN よりも悪い結果に収束することがわかります (ただし、リカレント モデルよりはまだ優れています)。

表5

表 5. TCN ゲートの評価。プレーン TCN とゲーティングを使用してアクティブ化された TCN を比較します。

おすすめ

転載: blog.csdn.net/weixin_42475026/article/details/129656935
おすすめ