ストレージコンピューティングハードウェア

ストレージコンピューティングハードウェア

クラウドストレージとモノのインターネット、家庭用電化製品、航空宇宙、地球資源情報、科学計算、医療画像処理、生命科学、軍事機器、その他の重要な電子情報アプリケーションの開発により、今日の社会は情報爆発を伴うビッグデータの時代にあります。超高速、高帯域幅、大容量、高密度、低消費電力、低コストの超高性能コンピューティングが爆発的に増加しています。従来のコンピューターは、計算機能とストレージ機能が分離されたフォンノイマンアーキテクチャを使用しており、中央処理装置(CPU)とメモリによってそれぞれ完成されています。マイクロエレクトロニクス技術の急速な発展に伴い、速度や容量などのCPUとメモリのパフォーマンスは急速に向上していますが、データと命令を送信するためのバス速度の非常に限られた増加により、CPUとメモリ間の頻繁なデータ送信が情報処理を引き起こしていますボトルネックは保管壁と呼ばれます。

「ストレージウォール」が明らかになると、コンピュータ研究者は「ストレージウォール」の問題を解決または弱める方法を見つけ始めました。これまで業界で使用されている方法は、よく知られている「メモリ階層」です。基本的なアイデアは、一連のキャッシュメモリ(キャッシュ)を挿入することで、プロセッサと動的ストレージユニット間の速度の不一致をバッファリングすることです。ストレージ階層は、計算の平均待ち時間をある程度削減しますが、「ストレージウォール」の問題を根本的に排除するものではありません。

現在、多くの学者や機関がストレージでのコンピューティング(メモリ内のプロセス)を研究し始めています。コアアイデアは、コンピューティング(処理)機能とストレージ機能を同じチップに統合することです。すべての計算はすべてストレージに実装されます。データを読み書きする必要はありません。

ますます深刻化するストレージウォールの問題、メモリアクセスの電力消費の問題、人工知能アプリケーションによって引き起こされるドライブに直面して、コンピューティングストレージ/インメモリコンピューティング/デポジットおよびコンピューティング統合は有望な方法を提供します。現在の実装から判断すると、コンピューティングストレージ/インメモリコンピューティング/統合コンピューティングは、成熟した揮発性ストレージと未成熟な不揮発性ストレージの2つのルートに分かれています。ルートに関係なく、特定の課題があります。

1)成熟した揮発性ストレージに基づく:このように、コンピューティングストレージ/インメモリコンピューティング/コンピューティングの統合には、プロセッサテクノロジーとメモリテクノロジーの融合が必要です。ただし、プロセッサとメモリの製造プロセスが異なるため、メモリの機能がプロセッサに実装されている場合、メモリのストレージ密度が低下する可能性があります。プロセッサの機能がメモリに実装されている場合、プロセッサに影響する可能性があります実行速度。パフォーマンスと容量の間で適切な妥協を図るのは困難です。

2)未成熟な不揮発性ストレージに基づく:不揮発性ストレージは、ストレージとコンピューティングの自然な融合であり、コンピューティングストレージ/インメモリコンピューティング/統合コンピューティングの構築に最適なデバイスです。ただし、現在の未成熟な製造元とプロセスのため。経済的には、これらの新技術の生産に使用される既存のメモリ製造施設への投資が増えることに加えて、DRAMまたはフラッシュを使用できる限り、ユーザーが新技術に移行することは困難です。

概観

現代の電子機器は、インテリジェンス、軽量、携帯性に向けて急速に発展していますが、インテリジェントなビッグデータ処理の課題とフォンノイマンのコンピューティングアーキテクチャのボトルネックは、現在の電子情報分野における主要な矛盾の1つになっています。 )引き起こされた電力消費と信頼性の問題は、この矛盾の急速な悪化をさらに悪化させました。近年、統合コンピューティングやストレージチップテクノロジーなどの新しいデータ中心のコンピューティングアーキテクチャが、特にエンドサイドのスマートシナリオで広く注目されています。ただし、リソース、遅延、コスト、電力消費、その他のエンドサイド機器の要因などの多くの要因を考慮して、業界では、統合メモリとコンピューティングチップに対する厳しい要件を提示しています。したがって、ストレージコンピューティング統合メディアと計算パラダイムは特に重要です。同時に、デバイスチップアルゴリズムアプリケーションクロスレイヤーコラボレーションは、産業用アプリケーションおよび統合メモリとコンピューティングチップのエコロジカルな構築に不可欠です。この記事では、エンドツーエンドのインテリジェントストレージとコンピューティング統合チップの需要、ステータス、主流の方向、アプリケーションの見通し、および課題の簡単な概要を説明します。5G通信とモノのインターネット(IoT)テクノロジーの成熟により、高効率で低コストのインテリジェントストレージとコンピューティング統合チップのハードウェアに支えられて、インテリジェントなモノのインターネット(AIoT)の時代が到来すると私たちは信じています。
第4の情報革命以降、現代の電子機器は、インテリジェンス、軽量、携帯性に向けて急速に発展しました。特に近年では、ディープラーニングニューラルネットワークに代表される人工知能アルゴリズムの深い研究と普及により、顔認識、音声認識、スマートホーム、セキュリティモニタリング、無人など、あらゆる場所にスマート電子デバイスと関連するアプリケーションシナリオが登場しています運転など 同時に、5G通信とモノのインターネット(IoT)テクノロジーの成熟により、インテリジェントなモノのインターネット(AIoT)の時代が到来することは予測できます。図1に示すように、将来のAIoTシナリオでは、デバイスは主に3つのカテゴリに分類されます:クラウド、エッジ、およびターミナル[1]。エッジターミナルデバイスは爆発的な成長を示します。ご存知のように、人工知能の3つの主要な要素は、計算能力、データ、アルゴリズムです。インターネットと5G通信の普及によりビッグデータの問題が解決され、ディープラーニングニューラルネットワークの急速な発展によりアルゴリズムの問​​題が解決され、NVIDIA GPU / Google TPUなどの高性能ハードウェアの大規模な工業化によってクラウドコンピューティングパワーの問題が解決されました。ただし、リソースに制約のあるエッジ端末デバイスのコンピューティング能力は未だリンクがなく、遅延、電力消費、コスト、セキュリティに関する特別な要件があるため(特に、細分化されたシナリオの特別なニーズを考慮すると)、 AIoTの大規模な産業用アプリケーションのコアキーになります。したがって、AIoTへの道のりで解決する必要がある中心的な課題は、エネルギー効率が高く、低コストで、長時間のスタンバイが可能なエンドサイドのスマートチップです。

 

 


図1.コンピューティングデータセンター、エッジ、ターミナルの3つのレイヤーを含む、将来のAIoTシナリオの概略図[1]

Feng Neumannのコンピューティングアーキテクチャのボトルネックとビッグデータインテリジェント処理の課題

ビッグデータ、モノのインターネット、人工知能などのアプリケーションの急速な増加に伴い、データは爆発的な速度で急速に成長しています。関連する調査報告によれば、世界中で毎日生成されるデータの量は約バイトであり、その量は40か月ごとに2倍の速度で増加し続けています[2]。大量のデータの効率的な保存、移行、処理は、電子情報の分野における主要な課題の1つになっています。ただし、図2(a)に示すように、古典的なフォンノイマンコンピューティングアーキテクチャ[3、4]によって制限され、データの保存と処理は分離され、データバスを介してメモリとプロセッサ間でデータ転送が実行されます。ビッグデータ分析などのアプリケーションシナリオでは、このコンピューティングアーキテクチャは、高性能で低電力のコンピューティングシステムの主要なボトルネックの1つになっています。一方、データバスの帯域幅が限られているため、プロセッサのパフォーマンスと効率が大幅に制限されると同時に、図2(b)に示すように、メモリとプロセッサのパフォーマンスが大幅に一致しなくなります。プロセッサの実行速度やパフォーマンスがどれほど優れていても、データは引き続きメモリに格納されます。操作が実行されるたびに、データバスを介してメモリからプロセッサにデータを移動し、データの処理後にデータをメモリに戻す必要があります。これは砂時計のようなもので、砂時計の両端はメモリとプロセッサを表し、砂はデータを表し、砂時計の両端を結ぶ狭いチャネルはデータバスを表します。したがって、メモリ帯域幅は、ストレージウォールチャレンジと呼ばれるプロセッサのパフォーマンスを大幅に制限します。同時に、ムーアの法則は次第に失敗し、デバイスサイズのスケーリングに依存してチップのパフォーマンスを向上し続ける技術的な道は、電力消費と信頼性の大きな課題に直面しています。したがって、従来のフォンノイマンコンピューティングアーキテクチャは、インテリジェントなビッグデータアプリケーションシナリオの高速で正確かつインテリジェントな応答要件を満たすことが困難です。一方、メモリとプロセッサ間で頻繁にデータが移行すると、パワーウォールチャレンジと呼ばれる深刻な送信電力消費問題が発生します。Nvidiaの調査レポートは、データ移行に必要な電力消費量が実際のデータ処理電力消費量よりもさらに大きいことを指摘しています。たとえば、関連する調査レポートでは、22ナノメートルのプロセスノードでは、1ビット浮動小数点演算に必要なデータ送信電力消費量は、データ処理電力消費量の約200倍であることが示されています[5]。電子情報の分野では、ストレージウォールとパワーウォールの問題は、フォンノイマンコンピューティングアーキテクチャのボトルネックとも呼ばれます。したがって、インテリジェントなビッグデータ処理の課題は、基本的に、ハードウェア設備の処理能力と処理される問題のデータスケールの間の矛盾によって引き起こされます。インテリジェントなビッグデータアプリケーションのコンテキストでフォンノイマンコンピューティングアーキテクチャのボトルネックに対処するために、特にリソースが限られたAIoTエッジターミナルデバイスで効率的なハードウェア設備とコンピューティングアーキテクチャを構築することは、大きな科学的重要性とアプリケーションの見通しです。

 

 

図2(a)フォンノイマンコンピューティングアーキテクチャの概略図、(b)メモリとプロセッサ間のパフォーマンスのギャップ
フォンノイマンコンピューティングアーキテクチャのボトルネックを解消し、データの移動によるオーバーヘッドを削減するための最も簡単なアプローチの1つは、データバスの帯域幅またはクロック周波数を増やすと、必然的に消費電力とハードウェアコストのオーバーヘッドが大きくなり、そのスケーラビリティも厳しく制限されます。現在、業界で採用されている主流のソリューションは、高速インターフェース、光相互接続、3Dスタッキング、オンチップキャッシュを介して高速かつ高帯域幅のデータ通信を実現することです。同時に、データ転送の距離を短縮するために、メモリをプロセッサにできるだけ近づける必要があります。光相互接続技術はまだ研究開発のパイロット段階にあり、3Dスタッキング技術やオンチップキャッシュの追加などの方法が実際の製品で広く使用されています。Google、Intel、AMD、Nvidia、Cambrian Technologyなど、多くの高効率企業や国内外の企業がこのテクノロジーを開発して適用しています。たとえば、3Dスタッキングテクノロジーを使用し、プロセッサチップに大容量メモリを統合すると、データ帯域幅が数十GB /秒から数百GB /秒に増加します。3DスタッキングDRAMテクノロジーに基づいて、IBMは、 100億倍のスーパーコンピューティングシステム[6];国内のBaidu KunlunとBritish Graphcoreの会社は、パフォーマンスを向上させるために200MB〜400MBのオンチップキャッシュオンチップ製品を統合しました。上記のソリューションは必然的に電力消費とコストのオーバーヘッドをもたらすことに注意してください。エネルギー消費とエッジ端末のコストが制限されているAIoTデバイスに適用することは困難であり、データストレージとデータ処理の分離の問題を変更しないため、ある程度は軽減できますが、フォンノイマンのコンピューティングアーキテクチャのボトルネックを根本的に解決することはできません。

節約とコンピューティングを統合するための基本原則と国内外の現在の開発状況


統合されたコンピューティングおよびストレージチップテクノロジーは、従来のコンピューティング中心のアーキテクチャを、データ処理にメモリを直接使用するデータ中心のアーキテクチャに変換することを目的としています。これにより、データストレージとコンピューティングを同じチップに統合し、Fengを完全に排除できます。 Neumannのコンピューティングアーキテクチャのボトルネックは、ディープラーニングニューラルネットワークなどの大規模な並列アプリケーションシナリオに特に適しています。コンピューティングインメモリ、インメモリコンピューティング、ロジックインメモリ、インメモリ処理、プロセッシングインメモリなど、現在、アカデミアや業界には多くの同様の英語の概念があります。など、さまざまな研究分野(デバイス、回路、アーキテクチャ、データベースソフトウェアなど)のタイトルは統一されておらず、対応する中国語の翻訳も異なります(メモリ処理、メモリ内処理、メモリコンピューティング、メモリコンピューティングフュージョン、メモリなど)。計算、保存、計算など さらに、広義では、ニアメモリコンピューティングも、デポジットとコンピューティングの統合のテクノロジーパスの1つとして要約されます。

統合コンピューティングとコンピューティングの基本的な概念は1970年代までさかのぼることができます。スタンフォード研究所のKautzらは1969年に統合コンピューティングとコンピューティングの概念を提案しました[7、8]。その後の研究は、チップ回路、コンピューティングアーキテクチャ、オペレーティングシステム、システムアプリケーションのレベルで行われました。たとえば、カリフォルニア大学バークレー校のパターソン他は、DRAMメモリチップにプロセッサを統合して、インテリジェントストレージおよびコンピューティング統合コンピューティングアーキテクチャを実装しました[9]。ただし、チップ設計と製造コストの複雑さ、およびキラーレベルのビッグデータアプリケーションを駆動できないため、ストレージとコンピューティングの初期の統合は研究段階にとどまり、実際には適用されていません。近年、データ量の増加とメモリチップ技術の向上により、メモリとコンピューティングの統合という概念が再び注目され、商用グレードのDRAMメインメモリに適用され始めています。特に2015年頃、モノのインターネットや人工知能などのビッグデータアプリケーションの台頭に伴い、技術は国内外の学界や産業界で広く研究および適用されています。NVIDIA、Intel、Microsoft、Samsung、連邦工科大学チューリッヒ、カリフォルニア大学サンタバーバラなどを含む2017 Microprocessor Annual Conference(Micro 2017)では、すべて統合コンピューティングおよびストレージシステムのプロトタイプを発表しました[10 -12]。
特に、近年では、フラッシュメモリ(Flash)、メモリスタ(抵抗変化メモリRRAM)、相変化メモリ(PCM)、スピン磁気メモリ(MRAM)などの不揮発性メモリテクノロジが使用されています[13-17]。統合メモリとコンピューティングチップの効率的な実装は、新たな夜明けをもたらしました。これらの不揮発性メモリの抵抗ストレージの原理は、固有の計算能力を提供できるため、データストレージとデータ処理機能を同じ物理ユニットアドレスに統合できます。さらに、非揮発性により、システムオンチップに直接データを格納できるため、追加のオフチップメモリ​​を必要とせずに、すぐに電源をオン/オフできます。Hewlett-Packard Laboratoryのウィリアムズ教授のチームは、2010年にメモリスタを使用して単純なブール論理関数を実装することを提案および検証しました[18]。その後、多くの関連する研究活動が出現し続けました。2016年、カリフォルニア大学サンタバーバラ校のXie Yuan教授(UCSB)のチームは、RRAMを使用して、ストレージとコンピューティングの統合アーキテクチャ(PRIME [19]と呼ばれる)に基づくディープラーニングニューラルネットワークを構築することを提案し、業界で広く注目されました。テスト結果は、フォンノイマンコンピューティングアーキテクチャに基づく従来の方式と比較して、PRIMEは約20倍の消費電力削減と約50倍の速度向上を達成できることを示しています[20]。この方式は、ベクトル行列乗算演算を効率的に実現でき、ディープラーニングニューラルネットワークアクセラレータの分野で大きな応用の見通しがあります。国際的には、デューク大学、パデュー大学、スタンフォード大学、マサチューセッツ大学、シンガポールのナンヤン工科大学、ヒューレットパッカード、インテル、マグネシウムなどがすべて関連する研究を行い、関連するテストチッププロトタイプをリリースしました[21-24]。この分野における中国の研究は、中国科学院のマイクロエレクトロニクス研究所の劉明教授チーム、北京大学の黄魯教授と康金峰教授のチーム、清華大学の楊華中教授と呉華強教授のチーム、中国科学院の上海マイクロシステムズなど、一連の革新的な成果も達成しました。 Song Zhitang教授のチームおよびHuazhong科学技術大学のMiao Xiangshui教授のチームなどはすべて、関連するデバイス/チップのプロトタイプをリリースし、画像/音声認識などのアプリケーションを通じてテストおよび検証されています[25-27]。PCMはRRAMと同様のマルチビット特性を備えており、同様の原理に基づいてベクトルマトリックス乗算を実装できます。MRAMの場合、そのバイナリストレージの物理的特性により、クロスポイントアレイに基づくベクトルマトリックス乗算演算を実現することは困難です。そのため、MRAMに基づくメモリ計算統合は、通常、ブール論理の計算パラダイムを採用します[28-30]。しかし、技術/プロセスの成熟度などの問題により、相変化メモリ、抵抗変化メモリ、およびスピンメモリに基づく統合メモリおよび計算チップは、まだ工業化されていません。同時に、Nor フラッシュの統合メモリおよびストレージチップテクノロジーは、最近業界から特別な注目を集めています。2016年にUCSBによって最初のサンプルがリリースされて以来、Mythic、米国のSyntiant、中国のZhikun Technologyなど、多くの新興企業が研究開発を行っています。 Lam Research、Applied Materials、Intel、Micron、ARM、Bosch、Amazon、Microsoft、Softbank、Walden、SMICなど、主流の半導体企業と国内外の資本の産業投資 それに比べて、Nor Flashは、テクノロジー/プロセスの成熟度とコストの点で、エンドツーエンドのAIoT分野で有利です。3つの主要企業はすべて、2019年末までに大量生産を発表しました。

エンドツーエンドのインテリジェントアプリケーション機能と統合されたコンピューティングおよびストレージチップ要件


AIoTの急速な発展に伴い、図3(a)に示すように、遅延、帯域幅、消費電力、プライバシー/セキュリティなどの特別なアプリケーション要件がユーザーにあり、エッジ側でインテリジェントアプリケーションシナリオが急増しています。まず、レイテンシはユーザーエクスペリエンスの最も直感的な感覚であり、自動運転、リアルタイムインタラクティブゲーム、AR / VRなどの特定のアプリケーションシナリオに必要な要件です。リアルタイムで生成されるデータの量、実際の伝送帯域幅、エンド側の機器のエネルギー消費を考慮すると、すべての操作をクラウドに依存することは不可能です。たとえば、Intelの見積もりによると、各自動運転車は1日あたり最大400 GBのデータを生成します[1]。別の例として、各高解像度セキュリティ監視カメラは1日あたり最大40 GB〜200 GBのデータを生成します。すべての車両、さらにはすべてのカメラによって生成されたデータが処理のためにクラウドに送信される場合、それはユーザーエクスペリエンスだけではありません。伝送ネットワークとクラウドデバイスにとっても、災害になります。さらに、エッジデータの半減期は通常比較的短く、そのような大量のデータです。実際、実際に意味のあるデータは非常に小さい場合があるため、すべてのデータをクラウドに送信して処理することは意味がありません。さらに、同じタイプの機器によって生成されるほとんどのデータは、通常、同じパターンの非常に高い特性を持っています。エッジ/ターミナルの処理能力が限られているため、ほとんどの不要なデータをフィルターで除外できるため、ユーザーエクスペリエンスとオーバーヘッドが大幅に向上します。ユーザーエクスペリエンスを向上させるもう1つのパラメーターはスタンバイ時間です。これは、ポータブルウェアラブルデバイスにとって特に重要です。たとえば、スマートグラスとイヤホンは、少なくとも1日以上の全負荷待機時間が必要です。したがって、端末機器の消費電力/エネルギー効率は大きな課題です。第二に、ユーザーはプライバシー/セキュリティをますます要求し、データをクラウドに送信して処理することに消極的であり、ローカル処理を端末デバイスに不可欠な機能にしています。例えば、音声認識や顔認識アプリケーションの普及により、プライバシー漏洩の問題への関心が高まっており、スマートホームが普及しているにもかかわらず、音声処理機能をオフにするユーザーが増えています。最後に、ネットワークレス環境のシナリオでは、エッジ端末処理が必要になります。同様に、クラウドチップとは異なり、エンドサイドのスマートチップでは、コストと電力消費の要件が最も高く、図3(b)に示すように、汎用性、計算能力、速度の要件が2番目です。したがって、チップのパフォーマンスを改善し続けるためにデバイスサイズのスケーリングに依存する従来のテクノロジパスは、消費電力とコストの面で大きな課題に直面しますが、デバイスとアーキテクチャの革新に依存するテクノロジパスはますます注目されています。2018年、US DARPAの「電子ルネサンス計画」は、ムーアの法則にもはや依存しない同規模の小型化経路を明確に提案し、新しい材料、新しいデバイス機能、統合テクノロジーを使用して、従来のフォンノイマンコンピューティングアーキテクチャを超えた革新を模索しました データ処理回路でのモバイルデータの必要性を減らし、データのストレージと処理のための新しいコンピューティングトポロジアーキテクチャを研究して、コンピューティングパフォーマンスを大幅に改善します。業界では一般に、統合されたコンピューティングおよびストレージチップテクノロジーが、この目標を達成するための実現可能な技術パスの1つを提供すると信じています。

 

 

図3.(a)エッジとエンドでのスマートアプリケーションシナリオの需要特性、Gartner、2019から適応、(b)クラウドとエンドでのスマートチップの異なるパフォーマンス要件

統合コンピューティングおよびストレージチップの主な研究方向


さまざまなストレージメディアによると、統合メモリとストレージチップの現在の主流のR&Dは、SRAM、DRAMなどの従来の揮発性メモリ、およびRRAM、PCM、MRAM、フラッシュメモリなどの不揮発性メモリに焦点を当てています。 SRAMとMRAMは、一般的なニアメモリコンピューティングアーキテクチャの代表です。この章では主に、統合コンピューティングチップとメモリチップに基づくディープラーニングニューラルネットワークアクセラレータの実装について説明します。このようなアプリケーションでは、演算の95%以上がベクトル行列乗算(MAC)であるため、ストレージと計算の統合は主に演算のこの部分を高速化するために使用されます。

(1)一般的なニアメモリコンピューティングアーキテクチャ
を図4に示します。このスキームは通常、同種のメニーコアアーキテクチャを採用しています。各ストレージコンピューティングコア(MPU)には、コンピューティングエンジン(Processing Engine、PE)、キャッシュ(キャッシュ)、および制御が含まれています(CTRL)および入出力(Inout / Output、I / O)など。ここでは、キャッシュはSRAM、MRAMまたは同様の高速ランダムアクセスメモリです。各MPUは、ネットワークオンチップ(NoC)を介して接続されます。各MPUは独自のキャッシュにアクセスし、高性能の並列操作を実装できます。典型的なケースには、テストチップが200〜400MBのSRAMキャッシュを統合する英国のGraphcore社、およびテストチップが40MBの組み込みMRAMキャッシュを統合するUS Gyrfalcon Technology社が含まれます。
(2)SRAMストレージと計算の統合
SRAMはバイナリメモリであるため、バイナリMAC演算はXNOR累積演算と同等であり、バイナリニューラルネットワーク演算に使用できます。図4(a)と図4(b)に示すように、2つの典型的な設計スキームは、コアアイデアネットワークの重みがSRAMセルに格納され、励起信号が追加のワード線から供給され、最後にXNOR累積演算が周辺回路によって実現され、結果が渡されます計算機またはアナログ電流出力、特定の実装は[31,32]を参照できます。この方式の主な難点は、操作の精度を確保しながら、大規模な配列操作を実現することです。

 

 図4. SRAMストレージと計算を統合したユニット設計;(a)12チューブ設計[31];(b)8チューブ設計[32](3)DRAMストレージと計算統合

ストレージと計算のDRAMベースの統合設計は、主にDRAMセル間の電荷共有メカニズムを使用します[33、34]。図5は典型的な実装スキーム[33]を示しています。複数行のセルが同時にゲートされると、格納されたデータの違いにより、異なるセル間で電荷交換と共有が発生し、論理演算が実装されます。この方式の問題の1つは、計算操作がデータを破壊することです。つまり、DRAMストレージユニットに保存されたデータは、操作が実行されるたびに破壊され、操作ごとにリフレッシュする必要があるため、消費電力の問題が大きくなります。もう1つの問題は、演算の精度を確保しながら、大規模な配列演算を実現することです。

 

 図5.典型的なDRAMベースの統合設計とストレージ設計の原則[33]

(4)RRAM / PCM / Flash多値
ストレージと計算の統合RRAM / PCM / Flahベースの多値ストレージと計算ソリューションの基本原則は、ストレージユニットの多値特性を使用して、デバイスの固有の物理的および電気的動作(キールなど)を渡すことです図7に示すように、ハフの法則とオームの法則)を使用して、多値MAC演算を実現します[13、21-25]。各メモリセルは、ネットワークの重みを格納するために使用される可変コンダクタンス/抵抗と見なすことができ、電流/電圧(励起)が各行に適用されると、各列はMAC操作の電圧/電流値を取得できます。実際のチップでは、さまざまなストレージメディアの物理的な原理と操作方法に応じて、具体的な実装は異なります。RRAM / PCM /フラッシュ自体は、ネットワークの重みを直接保存できる不揮発性メモリであるため、オフチップメモリ​​は不要であり、チップコストを削減できます。同時に、不揮発性により、電源がオフのときにデータが失われないようにすることができ、インスタントブートを実現します/シャットダウン動作は、静的な電力消費を低減し、待機時間を延長します。これは、電力消費が制限されたエッジ端末デバイスに非常に適しています。現在、RRAM / PCMに基づくストレージとコンピューティングの統合技術は、学界において非常に熱い研究の方向性です。残念ながら、RRAM / PCMの成熟度やその他の問題により、まだ工業化されていませんが、Flashに基づいて将来的に大きな可能性があります。ストレージとコンピューティングの統合テクノロジーは比較的成熟しており、業界から広く注目されており、2019年末までに量産される予定です。

 

 図6. RRAM / PCM / Flahに基づくMAC操作の基本原理[13]

(5)RRAM / PCM / MRAMバイナリ
ストレージと計算の統合RRAM / PCM / MRAMバイナリストレージと計算の統合に基づく2つの主要なスキームがあります。最初の解決策は、上記のSRAMメモリおよびコンピューティング統合に類似した補助周辺回路を使用することです。図7(a)に示すように、これは、ストレージアプリケーションおよびストレージで使用できる典型的な再構成可能なメモリおよびコンピューティング統合実装スキーム[35]です。コンピューティングアプリケーションを切り替えます。RRAM / PCM / MRAMの不揮発性抵抗性ストレージの原理により、特定のリファレンス[35-37]の回路実装が異なります。2番目のスキームは、図7(b)に示すように、ストレージユニットを直接使用してブール論理計算[28,38-40]を実行する方法です。このスキームは、異なるメモリストレージユニットに従って、ストレージユニットの入力および出力操作を直接使用して論理演算を実行します。構造や操作方法が異なり、実装も異なる可能性がありますので、詳細は【28,38-40】をご参照ください。

 

 図7. RRAM / PCM / MRAMに基づくメモリと計算の統合の基本原理(a)周辺回路スキームを使用[35];(b)ストレージユニットスキームを使用[40]

アプリケーションの展望と課題


統合されたコンピューティングおよびストレージチップテクノロジー、特に不揮発性の統合されたコンピューティングおよびストレージチップテクノロジーは、その高いコンピューティング能力、低消費電力、低コストおよびその他の利点により、将来のAIoTの分野で大きなアプリケーションの見通しを持っています。図9に示すように、統合メモリとコンピューティングチップの大規模な工業化の課題は、主に2つの側面から生じます。(1)技術レベル、統合メモリとコンピューティングチップには、デバイスチップアルゴリズムアプリケーションなどのマルチレベルのクロスレイヤーコラボレーションが含まれます。たとえば、サブディビジョンアプリケーションシナリオのさまざまなパフォーマンス要件は、ニューラルネットワークアルゴリズムとチップの設計を決定します。アルゴリズムは、ニューラルネットワークフレームワーク、コンパイル、駆動、マッピング、およびその他のツールとチップアーキテクチャとのコラボレーションに依存します。チップアーキテクチャは、デバイス、回路、およびファウンドリプロセスに依存します。 。これらは、ストレージとコンピューティング用の統合チップの研究開発と準備、特にファウンドリのサポートに対するかなりの挑戦です。特に、新しいストレージメディアに基づく統合ストレージおよびコンピューティングテクノロジーには、異なる物理原理、動作特性、および統合プロセスがあります。最適なパフォーマンス(精度、消費電力、遅延など)とコストを実現するには、レイヤー間のコラボレーションが必要です。

(2)産業生態学レベル;大規模に普及する場合、新興技術として、チップメーカー、ソフトウェアツールメーカー、アプリケーション統合ベンダーなどの活発なコラボレーション、研究開発、プロモーション、アプリケーションを必要とする産業生態学の構築と切り離せません。特に従来のチップが既存のアプリケーションシナリオのほとんどを占めているという前提の下で、パフォーマンスとシナリオの組み合わせとパフォーマンスを実現するには、新しい市場を突破し、新しいユーザーを引き付ける方法が、急速な工業化の鍵となります。NVIDIA GPUの成功は、私たちに良いインスピレーションとリファレンスを与えてくれました。一方では、ユーザーの使用を容易にするためにツールとサービスを最適化する必要があります。他方では、統合ストレージとコンピューティングチップの利点に基づいて、競争をできるだけ回避し、新しいアプリケーション、新しいシナリオ、新しい市場を開拓し、従来のチップではカバーできない新しいアプリケーション市場を作成する必要があります。

 

 


図8.統合されたコンピューティングデバイスチップアルゴリズムアプリケーションのクロスレイヤーコラボレーションの概略図

おすすめ

転載: www.cnblogs.com/wujianming-110117/p/12695513.html