時系列データに最適なニューラル ネットワーク

この記事では、サイクリック ニューラル ネットワーク RNN の開発プロセスを簡単に紹介し、勾配降下アルゴリズム、バックプロパゲーション、LSTM プロセスを分析します。

科学技術の発展とハードウェアのコンピューティング能力の大幅な向上により、人工知能は数十年にわたる舞台裏の仕事から突然人々の目に飛び込んできました。人工知能の背後には、ビッグデータ、高性能ハードウェア、優れたアルゴリズムのサポートがあります。2016 年、Google 検索ではディープラーニングがホットワードになりましたが、ここ 1 ~ 2 年で AlphaGo が囲碁の人間対機械戦で世界チャンピオンに輝いた後、人々は、急速に近づいてくる囲碁に抵抗できなくなったと感じています。 AIの。2017年、AIは空を突き抜け、知能ロボット、無人運転、音声検索など関連製品が人々の生活にも登場しました。最近、世界知能会議が天津で成功裡に開催され、会議では多くの業界専門家や起業家が将来についての見解を表明し、ほとんどのテクノロジー企業や研究機関が人工知能の見通しについて非常に楽観的であることがわかりました。結局のところ、彼が有名になろうが失敗しようが、何も得られない限り、彼の富の一部は人工知能にかかっています。なぜディープラーニングは突然これほど大きな効果と盛り上がりを見せたのでしょうか? なぜなら、テクノロジーは生活を変え、将来的には多くの職業がゆっくりと人工知能に取って代わられる可能性があるからです。人々は人工知能とディープラーニングについて話題にしており、ヤン・ルクンも中国での人工知能の人気を実感しています。

時系列データに最適なニューラル ネットワーク 時系列データに最適なニューラル ネットワーク

より身近な人工知能の背後には、ビッグ データ、優れたアルゴリズム、強力なコンピューティング機能を備えたハードウェア サポートがあります。たとえば、Nvidia は、強力なハードウェア研究開発能力と深層学習フレームワークのサポートにより、世界で最も賢い企業トップ 50 に選ばれています。また、ディープラーニングのアルゴリズムには優れたものが多く、時々新しいアルゴリズムが登場するので、本当に目まぐるしいです。しかし、それらのほとんどは、畳み込みニューラル ネットワーク (CNN)、ディープ ビリーフ ネットワーク (DBN)、リカレント ニューラル ネットワーク (RNN) などの古典的なアルゴリズムの改良に基づいています。

この記事では、時系列データに最適なネットワークでもある、古典的なネットワークリカレント ニューラル ネットワーク (RNN) について紹介します。特定の逐次的な機械学習タスクに関しては、RNN は他のアルゴリズムが匹敵することのできない高レベルの精度を達成できます。これは、従来のニューラル ネットワークが一種の短期記憶しか持たないのに対し、RNN には短期記憶が制限されているという利点があるためです。しかし、研究者らはバックプロパゲーションや勾配降下アルゴリズムを利用する過程で深刻な勾配消失問題に悩まされており、これが数十年にわたって RNN の開発を妨げてきたため、第 1 世代の RNN は大きな注目を集めていません。最後に、90 年代後半に大きな進歩が起こり、より正確な新世代の RNN が誕生しました。Google 音声検索や Apple Siri などのアプリがその主要なプロセスを奪い始めるまで、約 20 年間にわたってこの画期的な進歩を基礎にして、開発者は新世代の RNN を完成させ、最適化しました。RNN ネットワークは現在、あらゆる研究分野で使用されており、人工知能のルネッサンスの火付け役となっています。

過去関連ニューラル ネットワーク (RNN)

時系列データに最適なニューラル ネットワーク 時系列データに最適なニューラル ネットワーク

フィードフォワード ニューラル ネットワークなどのほとんどの人工ニ​​ューラル ネットワークは、受け取ったばかりの入力の記憶を持ちません。たとえば、フィードフォワード ニューラル ネットワークに「WISDOM」という文字を入力すると、「D」という文字に到達するまでに、「S」という文字を読み取ったばかりであることを忘れてしまいます。これは大きな問題です。ネットワークをトレーニングするのがどれほど難しくても、次に可能性の高い文字「O」を推測するのは常に困難です。このため、次の文字を予測する能力によって認識が大きく恩恵を受ける音声認識など、特定のタスクではあまり役に立たない候補になります。一方、RNN ネットワークは以前の入力を記憶しますが、そのレベルは非常に複雑です。

再度「WISDOM」を入力し、リカレントネットワークに適用します。RNN ネットワーク内のユニット、つまり人工ニューロンは、「D」を受信すると、以前に受信した文字「S」も入力として受け取ります。言い換えれば、過去の出来事と現在の出来事を組み合わせて、次に何が起こるかを予測するための入力が必要となり、短期記憶が限られているという利点が得られます。トレーニング時に、十分なコンテキストがあれば、次の文字が「O」である可能性が最も高いと推測できます。

調整と再調整

すべての人工ニューラル ネットワークと同様に、RNN のセルは、ネットワーク層の各入力の重みを表す重みの行列を複数の入力に割り当てます。その後、関数がこれらの重みに適用されて、通常 Called と呼ばれる単一の出力が決定されます。損失関数 (コスト関数) は、実際の出力と目標出力の間の誤差を制限します。ただし、RNN は現在の入力だけでなく、過去の入力にも重みを割り当てます。次に、損失関数を小さくして現在の入力と過去の入力に割り当てられた重みを動的に調整することにより、このプロセスには、勾配降下法と逆伝播 (BPTT) という 2 つの重要な概念が含まれます。

勾配降下法

機械学習で最も有名なアルゴリズムの 1 つは勾配降下法アルゴリズムです。その主な利点は、「次元の呪い」を大幅に回避できることです。「次元の呪い」とは何か、つまり、ベクトルを含む計算問題では、次元数が増えると計算量が指数関数的に増加します。最小の損失関数を達成するにはあまりにも多くの変数を計算する必要があるため、この問題は多くのニューラル ネットワーク システムを悩ませています。ただし、勾配降下アルゴリズムは、コスト関数の多次元誤差または極小値を増幅することにより、次元の呪いを打ち破ります。これは、ネットワークがより正確になるように、システムが個々のユニットに割り当てられた重み値を調整するのに役立ちます。

時間の経過による逆伝播

RNN は、逆推論を通じて重みを微調整することでユニットをトレーニングします。簡単に言うと、ユニットによって計算された合計出力と目標出力の間の誤差に基づいており、ネットワークの最終出力から層ごとの逆回帰を行い、損失関数の偏導関数を使用して、各ユニットの重量を調整します。これは有名な BP アルゴリズムです。BP アルゴリズムについては、このブロガーの関連ブログを読むことができます。RNN ネットワークは、時間逆伝播 (BPTT) と呼ばれる同様のバージョンを使用します。このバージョンでは、前の瞬間 (T-1) の入力値に対応する各ユニットのメモリに責任のある重みを含めるように調整プロセスを拡張します。

いやー、勾配消失問題

時系列データに最適なニューラル ネットワーク 時系列データに最適なニューラル ネットワーク

勾配降下法アルゴリズムと BPTT の助けを借りて初期のある程度の成功を収めたにもかかわらず、多くの人工ニューラル ネットワーク (第一世代の RNN を含む) は最終的に深刻な挫折、つまり勾配の消失の問題に見舞われました。勾配消失の問題は何ですか? 基本的な考え方は実際には非常に単純です。まず、傾きとしての勾配の概念を見てみましょう。ディープ ニューラル ネットワークのトレーニングのコンテキストでは、勾配が大きいほど急勾配を表し、システムがより速くゴールラインに到達してトレーニングを完了できるようになります。しかし、ここで研究者たちは問題に遭遇します。傾斜が平坦すぎると、高速トレーニングは機能しません。これは、深いネットワークの最初の層にとって特に重要です。最初の層の勾配値がゼロの場合、調整方向がないことを意味し、損失関数を最小限に抑えるために関連する重み値を調整できないためです。勾配損失」。勾配がどんどん小さくなるにつれて、トレーニング時間はどんどん長くなっていきますが、これは物理学の直線に沿って移動するのと同じで、滑らかな表面上ではボールは動き続けます。

時系列データに最適なニューラル ネットワーク 時系列データに最適なニューラル ネットワーク

大きな進歩: 長短期記憶 (LSTM)

1990 年代後半に、前述の勾配消失問題が大きな進歩により解決され、RNN ネットワークの開発に研究の第 2 の波がもたらされました。この大きな進歩の中心となるアイデアは、長期短期記憶 (LSTM) ユニットの導入です。

時系列データに最適なニューラル ネットワーク 時系列データに最適なニューラル ネットワーク

LSTM の導入により、AI の分野に別の世界が生まれました。これは、これらの新しいユニット、つまり人工ニューロン (RNN の標準的な短期記憶ユニットのような) が最初から入力を記憶するという事実によるものです。ただし、標準の RNN セルとは異なり、LSTM はメモリ上に取り付けることができ、通常のコンピュータのメモリ レジスタと同様の読み取り/書き込み特性を備えています。また、LSTM はデジタルではなくアナログであるため、その機能が区別できます。つまり、曲線が連続しており、斜面の急峻さが分かります。したがって、LSTM は、バックプロパゲーションや勾配降下法に関係する部分計算に特に適しています。

時系列データに最適なニューラル ネットワーク 時系列データに最適なニューラル ネットワーク

全体として、LSTM は重みを調整できるだけでなく、トレーニングの勾配に応じて、保存されたデータの流入と流出を保持、削除、変換、制御することもできます。最も重要なことは、LSTM は重要なエラー情報を長期間保持できるため、勾配が比較的急で、ネットワークのトレーニング時間が比較的短いことです。これにより、勾配消失の問題が解決され、今日の LSTM ベースの RNN ネットワークの精度が大幅に向上します。Google、Apple、その他の多くの先進企業は、RNN アーキテクチャの劇的な改善のおかげで、RNN を使用してビジネスの中核となるアプリケーションを強化しています。

要約する

リカレント ニューラル ネットワーク (RNN) は以前の入力を記憶できるため、音声認識などの継続的なコンテキスト依存タスクに関しては、他の人工ニューラル ネットワークに比べて大きな利点があります。
RNN ネットワークの開発の歴史について: 第 1 世代の RNN は、バックプロパゲーションと勾配降下アルゴリズムを通じてエラーを修正する機能を実現しました。しかし、勾配消失の問題により RNN の開発は妨げられ、1997 年に LSTM ベースのアーキテクチャが導入されて大きな進歩が見られました。
新しい方法は、RNN ネットワーク内の各ユニットを効果的にアナログ コンピューターに変え、ネットワークの精度を大幅に向上させます。
著者情報
Jason Roell: ディープラーニングとその革新的なアプリケーションに情熱を注ぐソフトウェア エンジニア。
Linkedin: http://www.linkedin.com/in/jason-roell-47830817/
この記事は、Beiyou @爱可可-爱生活教師によって推奨され、Alibaba Cloud Yunqi Community によって翻訳されました。

おすすめ

転載: blog.csdn.net/yaxuan88521/article/details/132576110