メモリスタクロスバースイッチアレイの長短期記憶(LSTM)ニューラルネットワーク

メモリスタクロスバースイッチアレイの長短期記憶(LSTM)ニューラルネットワーク

原文:メモリ
スタクロスバーアレイの長短期記憶ネットワーク著者:CanLi et al ..
ジャーナル:Nature machine Intelligence

インストラクターによって割り当てられた冬休みのタスクの1つは、いくつかの指定されたドキュメントを翻訳することでした。その中で最も興味深いのは、これと、メモリスタベースのストレージ計算統合システムの性質に関する2020年の清華の記事です。以下は、実験結果の前の部分と実験結果のメモリスタクロスバースイッチアレイの部分を変換したものです。

概要:

最近、長期および短期記憶(LSTM)ユニットに基づく循環ディープニューラルネットワークのブレークスルーにより、人工知能の分野で大きな進歩がもたらされました。ただし、複雑さが大幅に増し、パラメータが多数あるため、最先端のLSTMモデルには、計算能力の点でボトルネックがあります。これらのボトルネックは、限られたストレージ容量と限られたデータ転送帯域幅に起因します。この記事では、LSTMで、異なる時間ステップで共有されるシナプスの重みが、回路サイズが小さく、多数のパラメーターを格納できるメモリスタクロスバーアレイに実装できることを実験的に検証しました。同時に、それが提供するインメモリコンピューティングパワーは、「フォンノイマンのボトルネック」を克服するのに役立ちます。クロスバーアレイが実際に回帰と分類の問題を解決するコアコンポーネントとして機能することを実証しました。これは、メモリスタベースのLSTMがエッジ推論に理想的な低電力で低遅延のハードウェアプラットフォームであることを示しています。

テキスト:

人工知能の分野での最近の成功は、ディープニューラルネットワークの進歩から大きな恩恵を受けています。ニューラルネットワークの多くのアーキテクチャの中で、LSTMは重要なものです。観測された履歴データを記憶または忘れるように学習プロセスを制御することにより、LSTMベースのリカレントニューラルネットワーク(RNN)は、データ予測、自然言語理解、機械翻訳、音声認識などの時系列データの分析で役割を果たします。ビデオ監視。ただし、LSTMを従来のデジタル回路に実装すると、その複雑なアーキテクチャにより、推論の遅延と消費電力が低下します。モノのインターネット(IoT)の時代では、データのソースで生成された時間データの処理を伴うアプリケーションが増えるにつれて、これらの問題はますます顕著になっています。LSTMベースのリカレントニューラルネットワークを加速するために、新しいアーキテクチャの設計にますます多くの努力が費やされていますが、コンピューティングユニットとストレージユニットの間の低い並列処理と限られた帯域幅は依然として未解決の問題です。したがって、LSTMネットワークの代替コンピューティングパラダイムを見つけることは、現在緊急の課題です。

メモリスタは2ポートの「メモリ抵抗」であり、物理法則によれば、情報が保存されている場所で計算できます(ストレージ内計算)。このストレージと計算の統合により、ストレージと計算の間でデータを転送する必要が完全になくなります。クロススイッチ構造で構築されたメモリスタは、完全に接続されたフィードフォワードニューラルネットワークに正常に適用され、CMOSに基づく同じ部分と比較して、消費電力と推定遅延に大きな利点を示します。一部のメモリスタの短期記憶効果は、予備プールの計算にも使用されています。一方、最近の時間データ処理の成功に貢献しているLSTMを含む最先端のディープニューラルネットワークは、完全に接続されたネットワークよりも複雑な構造で構築されています。主に大きなメモリスタアレイが比較的不足しているため、メモリスタクロスバースイッチアレイへのLSTMの実装はまだ確認されていません。

この記事では、メモリスタクロスバースイッチアレイ上のLSTMネットワークのコア部分の実験的実現を確認しました。メモリスタはトランジスタにモノリシックに統合され、単一のトランジスタ-単一のメモリスタユニットを実現します。リカレントLSTMネットワークを完全に接続されたネットワークに接続することにより、回帰と分類の問題について、このLSTMベースのマルチレイヤーリカレントニューラルネットワークのその場トレーニングと推論を実装しました。すべてのマトリックスの乗算と更新はデジタル計算によって推論され、物理的に実装されます。 memristorインターリーブアレイ上。これらのLSTMネットワークは、メモリスタテストでの歩行に基づいて、フライトの乗客数と1人の認識を予測することに成功しました。これらの作業は、メモリスタクロスバースイッチアレイ上に構築されたLSTMネットワークが、速度と消費電力の点で効率的な有望な代替コンピューティングパラダイムを表していることを示しています。

結果:

LSTM用のメモリスタクロスバースイッチアレイ:LSTMセルを含むニューラルネットワークは循環的です。つまり、図1aに示すように、異なるレイヤー間のノードを完全に接続するだけでなく、異なるタイムステップノードで同じレイヤーを循環的に接続します。LSTMユニットのサイクリック接続には、メモリまたは忘却を制御するためのゲートユニットも含まれているため、LSTMは長期依存性を学習できます。標準のLSTMユニットのデータフローは図1bに示すとおりで、式(1)(線形行列演算)および式(2)(ゲートレベルの非線形アクティブ化)または同等の式(3)のメソッドとして表されます。 )から(5)。

(式1と式2を表示)

ここでxtx ^ tバツtは、現在のステップの入力ベクトルhth ^ thtおよびht− 1 h ^ {t-1}ht 1は、それぞれ現在および前のタイムステップの出力ベクトルです。c^ t \ hat {c} ^ tc^tは内部セルユニットの状態です⨀\ bigodot要素ごとの乗算を表します。σはロジスティックシグモイド関数であり、入力ゲート、忘却ゲート、出力ゲートのi ^ t、f ^ tを生成します\ hat {i} ^ t、\ hat {f} ^ t^tf^to ^ t \ hat {o} ^ tザ・^tモデルパラメータは、重みW、サイクル重みU、およびバイアスパラメータbに格納され、それぞれセルのアクティブ化(a)および各ゲート(i、f、o)に使用されます。この複雑な構造により、LSTMユニットを含む最先端のディープRNNには、通常はオンチップメモリ​​(通常はスタティックランダムストレージ、SRAM)、場合によってはオフチップメインメモリ(通常はオフチップ)を超える多数のモデルパラメータが含まれています。ダイナミックランダムストレージ)。ストレージ、DRAMの通常の容量)。その結果、ネットワークの推論とトレーニングでは、計算のために別のチップから処理ユニットにパラメータを送信する必要があり、チップ間のデータ送信は、従来のハードウェアでのLSTMベースのRNNのパフォーマンスを大幅に制限します。

この問題を解決するために、RNNにメモリスタクロスバーアレイを採用し、メモリスタのコンダクタンスとしてLSTM-RNNに必要な多数のパラメータを保存しました。このニューラルネットワークのトポロジーとデータフローの方向を図1cに示します。線形行列乗算は、メモリスタスイッチのクロス配列でその場計算を実行し、重み値を前後に送信する必要をなくします。モデルのパラメータは、アナログ行列の乗算を実装するメモリスタスイッチの同じクロス配列に格納されます。ここで説明する実験では、LSTM層を完全に接続された層に接続します。将来的には、これらの層をより複雑な構造にカスケードすることができます。検証の目的で、現在の作業でLSTM層のゲートレベルユニットと完全接続層の非線形ユニットはソフトウェアで実装されていますが、デジタル信号変換を必要としないアナログ回路で実装できます。 、これにより、エネルギー消費と推論の遅延が大幅に削減されます。

LSTMのアナログマトリックスユニットは、128×64 1 T 1 R 128 \ times64 \ space1T1Rに実装されています。1 2 8××6 4 1 T 1 R クロスアレイ。メモリスタは、市販のファウンドリトランジスタアレイの上にモノリシックに統合されています。統合されたTa / H f O 2 Ta / HfO_2T a / H f O2メモリスタは安定した多層コンダクタンスを示し、アナログ信号の分野での行列乗算を実現できます。電流はトランジスタ制御によって制限され、統合されたメモリスタアレイには、書き込みと検証(以前はアナログ信号と画像の処理、および完全に接続されたニューラルネットワークのex-situトレーニングに使用)またはThroughによって事前定義されたコンダクタンスマトリックスをロードできます。単純な2パルス方式(以前は完全に接続されたニューラルネットワークのin-situトレーニングに使用されていましたが、私たちの作業ではLSTMのin-situトレーニングにも使用されていました)。LSTM層の推論は、メモリスタアレイの行線に電圧を印加し、仮想接地(列線)に電流を印加することによって実行されます。読み取り電流ベクトルは、メモリスタコンダクタンス行列と入力電圧振幅ベクトルの内積であり、物理法則から直接取得できます(オームの法則は乗算に使用され、キルヒホッフの現在の法則は合計に使用されます)。各LSTMモデルのパラメーターは、同じ列の2つのメモリスタのコンダクタンスの差によってエンコードされます。同じ振幅で極性が異なる電圧を対応する行の線に印加することにより、クロスバースイッチアレイを使用して減算を実現できます。メモリスタに接続された行ラインに印加される電圧は、バイアスを示すために使用されます。バイアスは、すべてのサンプルとタイムステップで固定されています。メモリスタスイッチクロスアレイのテスト読み取り電流は4つの部分で構成され、式(1)i} ^ tで説明されているベクトルa ^ t、i ^ t、f ^ t \ hat {a} ^ t、\ hat {を表します。、\ hat {f} ^ tA^t^tf^to ^ t \ hat {o} ^ tザ・^t、それらは非線形にアクティブ化され、ゲートレベルによって制御され、電圧に変換されます(現在の作業でソフトウェアによって実装されます)。電圧ベクトルhth ^ thtの後、次のレイヤー(完全に接続されたレイヤー)にフィードバックされ、次のタイムステップ(ht − 1 h ^ {t-1})でLSTMレイヤー自体にループしますht 1)。ニューラルネットワークは、メモリスタスイッチアレイ上でその場でトレーニングされ、デバイス出力の制限、コンダクタンス状態とノイズの変化、ライン抵抗、アナログ信号の周辺非対称性など、考えられるハードウェアの欠陥を補正します。トレーニングの前に、すべてのメモリスタコンダクタンスは、メモリスタデバイス全体に設定された電圧パルスとトランジスタのタイムリーな固定振幅パルスによって初期化する必要があります。トレーニング中に、時系列データのバッチ(小さなバッチ)に対して初期推論が実行され、時系列出力が生成されます。次に、メモリスタのコンダクタンスを調整して、推定出力をターゲット出力に近づける必要があります(損失関数で評価。方法のセクションを参照)。コンダクタンスの望ましい増加は、オフチップ電子デバイスでバックプロパゲーション時間アルゴリズム(BPTT)を使用して計算され(詳細については、方法のセクションを参照)、メモリスタアレイのテストで使用されます。コンダクタンスを低減する必要があるメモリスタの場合、最初にリセット電圧パルスを下部電極に適用して(上部電極を接地)、メモリスタを低コンダクタンス状態に初期化します。次に、同期設定電圧パルスを上部電極に適用し、アナログ電圧パルスをトランジスタゲート回路に適用します(ΔVゲート∝ΔGΔV_ {gate} \proptoΔGΔ VG A T EΔ Gは)、ゼロ電圧は、アレイ内のすべてのメモリスタのコンダクタンス値を更新するために下部電極(接地)に適用されます。前の作業で述べたように、コンダクタンスの更新は各行または列で実行できます。線形で対称的なメモリスタコンダクタンスの更新を実現するという点で、このダブルパルス方式は以前の研究で効果的であることが証明されています。

現在の作業は、新しいアナログデバイス(メモリスタなど)の使用に基づいて、さまざまな構造を持つニューラルネットワーク(特にLSTMネットワーク)の実現可能性を調査することに焦点を当てています。この目的のために、matlabでKeras予測機能を使用してニューラルネットワーク構造を確立しました。これにより、ニューラルネットワークアーキテクチャの任意の構成を実現できます。特に、このLSTMで完全に接続されたネットワーク(詳細な構造を図2に示します) )。実験で使用されたメモリスタは、順方向および逆方向の伝搬で行列の乗算と重みの更新を実行します。これは、シミュレートされたメモリスタインターリーブアレイまたは32ビット浮動小数点計算を使用するソフトウェアバックエンドに置き換えることができます。このアーキテクチャは、同じアルゴリズムとデータセットを使用して、クロスアレイニューラルネットワークとデジタル方式を直接比較することで実現できます。スイッチアレイの実現において、この構造は、カスタマイズされたオフチップテストシステム(メモリスタスイッチクロスアレイから受信または送信)と通信します。これにより、最大128の異なるアナログ電圧を提供し、64の電流チャネルを瞬時に感じることができます。マトリックスを完成させます。乗算と重みの更新。

おすすめ

転載: blog.csdn.net/weixin_45358177/article/details/113896316