インメモリコンピューティングチップの研究の進歩と応用

統合ストレージとコンピューティング技術の開発の歴史 

ストレージとコンピューティングの統合には、ニアメモリ コンピューティングとインメモリ コンピューティングが含まれます。この概念は1969 年に初めて提案されました[9,10] その後、さまざまな国の学者が、回路、アルゴリズム、コンピューティング アーキテクチャ、オペレーティング システム、システム アプリケーション、その他のレベルで一連の関連研究を実施しました。たとえば、1997 の文献[11]では、インテリジェントな機能が実証されました。メモリ(インテリジェント RAM) ソリューション。プロセッサとDRAM を統合します。シングル チップの計算能力は、最先端のCrayベクトル プロセッサ (Cray T-90 ) >プロセスは成熟しており、単位面積は小さいですが、揮発性のストレージでもありますDRAM、単位面積が大きくコストが高い、大規模で大電力のインメモリ コンピューティング チップを低コストで実現することは困難です。 )停電するとデータが失われる 揮発性メモリです。 =86>( 優れたスケーラビリティを備えていますが、 は成熟したテクノロジーとSRAMさまざまなストレージ メディアに基づいたストレージとコンピューティングの統合チップの研究が盛んですが、大規模な工業化の前に、それぞれが依然としていくつかの問題や課題に直面しています。具体的には、。研究機関には、Samsung、TSMC、MIT、プリンストン大学、清華大学、北京大学、復旦大学、中国科学院大学、その他のトップクラスの国際大学や企業。 20ストレージとコンピューティングの統合に関する 20 以上の論文が含まれていますISSCCは、チップ分野におけるオリンピックのトップ国際会議として知られています2021-2022 が表示されます。特に[25–38]SRAM、DRAM、フラッシュ、ReRAM、PCM、FeFET、MRAM などのさまざまなストレージ メディアに基づいた一連の関連研究が発表されていますSRAM/ReRAM[20–24] はマルチコアの存在を提案しました。粒子 統合されたチップとみなされます。文献[19]、文献 2022統合されたストレージとコンピューティング アーキテクチャにより、ニューラル ネットワーク動作の高速化が実現します。 DRAM3 つの価値観[18]、文献2021 オールインワンのストレージおよび計算チップ。計算遅延を短縮し、エネルギー効率を大幅に向上します。 ReRAMモデルでは[17]、文書2020 年統合されたストレージと計算チップにより、バイナリ重みのニューラル ネットワーク畳み込み計算を実現できます。 25 が提案されました[16]、文書2019 年しています。バーバラ、NVIDIA、インテル、マイクロソフト、サムスンなど[13–15]インターネット、チューリッヒ工科大学、カリフォルニア大学サンタ校など、多くの大学や企業がストレージとコンピューティングの統合チップやシステム プロトタイプを発表(Micro2017)マイクロプロセッサ トップ年次カンファレンス2017 Iman アーキテクチャの限界はますます明らかになりつつあり、ビッグ データ アプリケーションの推進と技術レベルの継続的な向上と相まって、ストレージとコンピューティングの統合テクノロジが新たな注目を集め、研究ブームになっています。たとえば、、ムーアの法則とフォンの段階的な無効化により2015 年以降 回。しかし、初期の段階ではビッグデータ処理のためのアプリケーション要件が欠如しており、高価な製造コストとチップの複雑な設計も相まって、統合ストレージとコンピューティング技術は長年研究段階に留まっています。 40 ソリューション、シミュレーション結果は、チップ アーキテクチャがコンピューティング パフォーマンスを向上できることを示しています(FlexRAM)は、組み込みコンピューティング機能 FlexRAM を提案しました。 [12]、文書1999 年 回。 5







 

デバイスは定期的にリフレッシュする必要があり、リークの問題があるため、高精度のインメモリ コンピューティング チップの実装が困難ですが、近年、ニアメモリ コンピューティングで広く使用されています。 ReRAM は不揮発性メモリであり、大規模なクロスポイント アレイを実現できます。インメモリ コンピューティング チップを実現するための潜在的なメディアの 1 つです。将来的には可能ですが、現時点ではプロセスがまだ成熟しておらず、メモリ ユニットのマルチビット精度が低い(以下) >8 ビット)神話たとえば( は不揮発性メモリです。電源を切ってもデータは失われません。プロセスが成熟しており、コストが低いです。チップの量産が可能です。達成されましたフラッシュは比較的マルチビットを実装する場合は小さい インメモリ コンピューティング チップには特定の課題があります。 250%)(高い抵抗と低い抵抗 比率)約数千オーム( は、高耐久性、高速性、低消費電力などの利点を持つ不揮発性メモリです。この技術は比較的成熟しており、優れた拡張性を備えています。ただし、 デバイスの抵抗MRAM は不揮発性ストレージを実現し、クロスポイント アレイを実現できますが、現在のプロセスはまだ成熟していません。 FeFET は不揮発性メモリであり、大規模なクロスポイント アレイを実装できますが、消費電力が大きく、速度が遅く、耐久性も低くなります。 PCMは堅牢性に劣ります。 /、一貫性、Zhicun Technology のWTM2101) ですが、小型化に関してはいくつかの課題があります。幸いなことに、 2.5D/3D高度なパッケージング技術の急速な発展により、高度なロジック プロセスとの互換性のある統合を実現できます。要約すると、さまざまなメモリ メディアに基づくストレージとコンピューティングの統合チップ間のパフォーマンスの比較を、表1に示します。
 

ストレージとコンピューティングの統合テクノロジーも、業界で非常に急速に進歩しています。
台湾の TSMC、韓国の Samsung など、多くの国内外の企業が積極的に研究開発を行っています。日本の東芝、米国のミシック、国内のZhicun Technologyなどしかし現在、工業化に最も近いのはTSMC、Mythic、Zhicun Technologyだ。 2019 年以来、TSMC はその強力なプロセス能力の恩恵を受け、SRAM と ReRAM に基づく一連の統合ストレージおよびコンピューティング チップの研究結果を発表しました[40,41]、大量生産および OEM 機能を備えています。 Mythic は、NOR フラッシュ
をベースとしたインメモリ コンピューティングの量産チップ M1076 を 2021 年に発売し、80 MB のニューラル ネットワークの重みをサポートでき、単一チップのコンピューティング能力は 25 TOPS に達します。主にエッジサイドのインテリジェントなシナリオを対象としています。 Zhicun Technology は、NOR Flash ベースのインメモリ コンピューティング SoC チップ WTM2101 を 2021 年に発売しました。そのコンピューティング能力は、市場の同様のチップよりも 2 桁高く、消費電力は1 mW、主にエンドユーザー向け、低消費電力および低コストのアプリケーション シナリオ。  

 インメモリコンピューティングチップの研究状況


コンピューティング パラダイムとストレージ メディアの違いにより、インメモリ コンピューティング チップはさまざまな方法で分類できます。さまざまなコンピューティング パラダイムに従って、主にアナログとデジタルの 2 つのタイプに分類されます。アナログインメモリコンピューティングとは、ストレージユニット内またはアレイ周辺の信号をアナログ信号の形で操作することを意味し、デジタルインメモリコンピューティングとは、実際の動作中にストレージユニット内またはアレイ周辺の信号を操作することを意味しますデジタル信号の形で動作します。その中で、多くの研究成果にはアナログとデジタルの両方の計算方法が含まれています。同時に、さまざまな記憶媒体に応じて、インメモリ コンピューティング チップは、従来のメモリに基づくものと新しい不揮発性メモリに基づくものの 2 つのタイプに分類できます。従来のメモリにはSRAM、DRAMフラッシュなどが含まれますが、新しい非メモリ- 揮発性フレキシブル メモリには、ReRAM、PCM、FeFET、MRAM などが含まれます。このうち、工業化に近いものはNOR フラッシュSRAM<をベースとしています。 a i=11 >インメモリ コンピューティング チップ。

SRAMインメモリ コンピューティング

SRAM ベースのインメモリ コンピューティング チップは、図 3(a) に示すように、典型的な 6T (6 トランジスタ) 基本ユニットに基づいています。 SRAM はバイナリ メモリであるため、バイナリの乗算および累積演算は累積演算と同等であり、バイナリ ニューラル ネットワークの演算に使用できます。中心となるアイデアは、ネットワークの重みが SRAM ユニットに保存され、励起がワード線から信号を入力し、最後に周辺回路で排他演算や積算演算を行い、その結果をカウンタやアナログ電流・電圧で出力します。
複数ビット精度の演算を実装したい場合は、通常、複数のユニットを結合する必要があり、必然的に領域のオーバーヘッドが生じます。 6T 基本セルへの簡単な変更は、図 3(b) に示すように、ワード線を分割することです。さらに、読み書き干渉の問題を解決するために、8T基本ユニットを使用することもできますが、図3(c)に示すように、レイアウト面積が大幅に増加します。 SRAMをベースとしたインメモリコンピューティング技術は、そのプロセスの成熟度と拡張性の良さから業界から大きな注目を集めており、近年ISSCCカンファレンスでも多くの関連論文が報告されています。たとえば、2021 年には、インメモリ コンピューティングに関するサブフォーラムが 2 つあり、合計 8 件の論文が含まれており、そのうち 5 件は SRAM インメモリ コンピューティング チップに関するものです。 2022 年の ISSCC で、北京大学は、ダイナミック ロジックに基づき、アナログ デジタル コンバーターを使用しない SRAM インメモリ コンピューティング チップを提案しました[42]。 SRAM インメモリ コンピューティング テクノロジの応用上の主な困難は、コンピューティング精度を確保しながら、高いコンピューティング能力と小さな面積を実現することです。


DRAMインメモリ コンピューティング
DRAM ベースのインメモリ コンピューティング チップ階層は、アレイ、サブアレイ、およびユニットに分割できます。アレイのグループは、いくつかのサブアレイと読み出しおよび書き込み動作用の関連周辺回路で構成され、サブアレイには 1T1C (1 トランジスタ 1 キャパシタ) ユニット、センス アンプ、およびローカル デコーダの数行が含まれます。基本原理は、DRAM セル間の電荷共有メカニズムを利用することです[13,43]。図 4 は、典型的な実装スキームを示しています[43]。複数行のセルが同時にゲートされると、異なるセルがデータを保存します。その違いにより、電荷交換共有により、論理演算が実現されます。 DRAM インメモリ コンピューティング ソリューションには、主に 2 つの問題があります。まず、これは揮発性メモリであり、コンピューティング操作
によりデータが破壊され、操作のたびにリフレッシュする必要があるため、電力消費の問題が発生します。 ; 第 2 に、大規模な配列演算を実装する場合、演算の精度を確保することが困難です。


ReRAM/PCMインメモリ コンピューティング
ReRAM/PCM インメモリ コンピューティングの基本原理は、シミュレートされたマルチ記憶装置のビット特性 オームの法則と電流/電圧のキルヒホッフの法則により行列の乗算と加算演算を実行 図に示すように、主な実装方式として 1T1R (1 トランジスタ 1 抵抗) 構造とクロスアレイ構造の 2 つがあります。図5(a)および図5(b)に示す。 ReRAM は大規模なクロスポイント アレイを実現できるため、学術界で注目されている研究方向です。 2008 年に初めて ReRAM が実験的に発見されて以来、ReRAM をベースとしたインメモリ コンピューティングの研究が次々と登場しています。

特に 2020 年に、清華大学は複数の ReRAM アレイをベースにしたインメモリ コンピューティング システムを開発しました。このシステムの手書き数字セットの認識精度は 96.19% に達し、これはソフトウェアの認識精度と同等であり、メモリの認識精度が証明されました。内部コンピューティング アーキテクチャの完全なハードウェア実装の実現可能性を検討するためのテスト チップを図 5(c)[24]に示します。 ReRAM インメモリ コンピューティング技術は、将来的に非常に大きな応用可能性を秘めていますが、現在の主な問題点は、技術がまだ成熟していないこと、マルチビット精度の達成が難しいこと、一貫性/堅牢性が低いことです。

MRAMインメモリ コンピューティング
MRAM インメモリ コンピューティングには 2 つの主な技術ソリューションがあります。(1) 読み取り/読み取りに基づくデジタル メモリ書き込み操作 インメモリ計算 (2) キルヒホッフの電流法則とオームの法則に基づくアナログメモリ内計算。初期の MRAM インメモリ コンピューティングのほとんどはデジタル ソリューションに基づいていました。たとえば、2015 年に日本の東北大学は、読み取り操作に基づいたさまざまなブール論理とテープアウト検証を実装することを提案し、48.3% のエネルギー効率の向上を達成しました。 [44 ]; 2019 年、北京航空航天大学は、単一の書き込み操作に基づくデジタル MRAM インメモリ コンピューティング ソリューションを提案しました。レイテンシと消費電力を削減しながら計算結果をその場に保存する[45–47]。 MRAM に基づくアナログ インメモリ コンピューティングの難しさは、デバイスの抵抗 (約数千オーム) と高抵抗と低抵抗の比率 (約 250%) が比較的小さいため、マルチビット精度の達成が難しいことです。 。近年、コンピューティング パラダイム、デバイス、回路におけるマルチレベルの革新的なブレークスルーのおかげで、MRAM アナログ インメモリ コンピューティングが急速に発展しました。 2021 年、米国のプリンストン大学は、回路レベルの最適化とテープアウトを通じて、STT-MRAM に基づく初のアナログ インメモリ コンピューティング ハードコアを検証しました。[ 4 8 ]; 2022 年、韓国の Samsung 社は、抵抗蓄積方式に基づく MRAM アナログ インメモリ コンピューティング チップのプロトタイプを Nature 誌に発表し、最大 405 TOPS/W のエネルギー効率比を達成しました。 > のアレイのレイアウト、顕微鏡写真、構造を図 6 に示します。 [49]


NOR フラッシュインメモリ コンピューティング
NOR フラッシュに基づくインメモリ コンピューティング テクノロジーの原理は、次に示すように ReRAM の原理と似ています。図 7(a) に示す。現在、NOR フラッシュ インメモリ コンピューティング チップ技術は比較的成熟しており、2021 年には量産を達成しています。米国の Mythic と中国の Zhicun Technology はいずれも NOR フラッシュ インメモリ コンピューティング チップ製品を発売しており、そのうち Mythic は M1076 チップ (図 7(b) を参照) を発売し、Zhicun Technology は WTM2101 チップを発売しました。量産 SoC チップ (図 7(c) に示すような)。


他のメディアに基づくインメモリ コンピューティング
さらに、学術コミュニティは、NAND フラッシュや新しいナノデバイス (FeFET、スキルミオンなど)、その基本原理は上記のスキームと似ていますが、現時点では概念的な段階にすぎず、ここでは詳しく説明しません

インメモリ コンピューティング チップの適用状況:WTM2101
を例として
継続的にInternet of Everything の発展には、スマート デバイスには主にクラウド、エッジ、ターミナルの 3 つのカテゴリがあります。クラウド機器に求められる要件は、主に高い演算能力、高いスループット、高い信頼性ですが、現在のインメモリコンピューティングの進歩では、その需要を満たすのは依然として困難です。セキュリティや自動運転などのエッジ デバイスには、コンピューティング能力、遅延、消費電力、セキュリティなどについて比較的包括的な要件があり、端末デバイスでは主に消費電力、コスト、プライバシーが重視されます。現時点では、インメモリ コンピューティング チップのアプリケーションはまだ初期段階にあります。
このセクションでは、Zhicun Technology が発売した量産型 SoC チップ WTM2101 を例として、エッジおよびエッジでのアプリケーションについて説明します。音声に焦点を当てた端末のシーンの紹介では、そのコア回路とチップ アーキテクチャ、パフォーマンス、およびアプリケーション シナリオも紹介します。


コア回路とチップ アーキテクチャ
NOR フラッシュ インメモリ コンピューティング チップでは、電流/電圧の相互コンダクタンスとキルヒホッフの法則に基づいてベクトル行列乗算演算が物理的に実装されます。図 7(a) に示すように。したがって、中核となるのは、大規模なエネルギー効率の高いベクトル行列乗算演算に対応できるように NOR フラッシュ セル アレイを設計することです。同時に、コア回路に基づいて、アルゴリズム特性に従ってチップアーキテクチャが設計され、ニューラルネットワークデータフローの特性を最大限に活用してチップの並列化とパイプラインを実現します。従来の NOR フラッシュ アレイでは、特定のデバイスをプログラミングすると、同じ行にある他のデバイスのステータスが必然的に変化します。これを行干渉と呼びます。インメモリ コンピューティング アプリケーションとして、NOR フラッシュ プログラミングには各デバイスで個別の操作が必要です。各デバイスは 8 ビット (256 量子化状態) を超える情報を保存しており、わずかな干渉によって状態が変化します。したがって、プログラミング干渉を排除するには、プログラミング干渉防止アレイ構造が必要です。さらに、NOR フラッシュは、 フローティング ゲート
内の電子の数に基づいて情報を保存します。時間が経過すると、電子がリークし、しきい値電圧がドリフトします。ストレージ アプリケーションに使用される NOR フラッシュ デバイスは、通常 1 ~ 2 ビットの情報 (2 ~ 4 つの異なる状態に相当) のみを保存しますが、状態間のマージンは比較的大きく、特別な設計を行わずに情報を 10 年以上保存できます。ただし、インメモリ コンピューティング アプリケーションでは、NOR フラッシュ デバイスは 8 ビット (256 の異なる状態) を超える情報を保存する必要があり、状態間のマージンは非常に小さく、アレイ全体が同時に動作します。したがって、閾値電圧ドリフトの影響は非常に大きくなります。 WTM2101は特殊な回路設計により、閾値電圧ドリフトによる計算精度への影響を抑制します。さらに、低電力コンピューティングと低電力制御を同時に実現するために、WTM2101 は RISC-V 命令セットと NOR フラッシュ インメモリ コンピューティング アレイを組み合わせており、そのアレイ構造とチップ アーキテクチャを図 8 に示します。 1.8 MB NOR フラッシュ メモリを含む、コンピューティング アレイ、RISC-V コア、デジタル コンピューティング アクセラレータ グループ、320 kB
RAM、およびさまざまなペリフェラル インターフェイスを備えています。   

パフォーマンスとアプリケーションのシナリオ
WTM2101 は 40 nm プロセスに基づいてテープアウトされています。単一の NOR フラッシュ デバイスは 8 ビットの重みを保存できるため、行列の乗算と累積演算を実行できます。 8ビット精度で。図9に入力信号と出力電流の関係を示しますが、ユニット、チップともに良好な線形関係を示しています。 WTM2101 には 4 つの大きな利点があります。 (1) インメモリ コンピューティング アーキテクチャに基づいて、ニューラル ネットワークの音声アクティベーション検出と数百の音声コマンド ワード認識を効率的に実現できます。 (2) ニューラルネットワークの環境ノイズ低減アルゴリズム、健康状態の監視および分析アルゴリズムを超低消費電力で実装します。 (3) 一般的なアプリケーション シナリオでは、動作消費電力はマイクロワット レベルです。 (4) 極めて小さなパッケージサイズを採用。上記の利点と特性に基づいて、WTM2101 はスマート ウェアラブル デバイス、スマート ホーム、セキュリティ監視、おもちゃのロボットなどに使用できます。音声認識、音声ノイズの低減/強調、軽量視覚認識、健康状態モニタリング、声紋認識などのさまざまなアプリケーションに使用できます。図 10 は、WTM2101 を搭載したヘッドセット製品とその自動展開プロセスを示しています。図 11 に、WTM2101 によるヘッドフォンのノイズ低減効果の前後の波形とスペクトルの比較を示します。表 2 に示すように、WTM2101 に展開されたニューラル ネットワークの各層の累積コサイン類似度 (8 ビット量子化計算に対してメモリ内で計算されたコサイン類似度を指します) は、8 層のニューラル ネットワーク計算後に、 、コサイン類似度次数は 0.99 を超えたままです。表 3 は、音声起動検出、音声ウェイクアップ、コマンドワード認識、環境ノイズ除去および声紋認識の観点から、WTM2101 と市販の類似製品との比較を示しています。

インメモリコンピューティングチップの応用の展望と課題 

インメモリ コンピューティング チップ テクノロジは、高いコンピューティング能力、低消費電力、低コストなどの利点により、モノのインターネットなどの大規模なデータ特性を備えたインテリジェントなアプリケーション シナリオにエネルギー効率の高いハードウェアを提供できます。 、ビッグデータ、将来の人工知能ソリューション。しかし、大規模工業化にはまだまだ課題が多く、 (1) アナログ演算の精度向上が難しい アナログインメモリ演算の精度は信号対雑音比に影響され、 8以上を達成するのは難しい。デジタル インメモリ コンピューティングは信号対雑音比の影響を受けませんが、エネルギー効率、面積、コストを総合的に比較検討する必要があります。近年では、デジタルとアナログの混合設計アプローチを通じて、精度、コスト、消費電力の間で適切な妥協点を達成することができます。これは、インメモリ コンピューティングの開発における重要な方向性です。 (2) 良好なエコシステムを確立するには、ツール チェーン リンクをさらに改善する必要があります。インメモリ コンピューティング チップの産業化は初期段階にあり、現在、関連するツール チェーンからのサポートが不十分であるという問題に直面しており、アルゴリズム/アプリケーションメーカーが移植する予定です。インメモリコンピューティング技術の急速な発展と、企業によるこの技術分野への投資の増加に伴い、これに対応するコンパイル、最適化、その他のツールチェーンが急速に進歩し、予備的なアプリケーションエコシステムが確立されることが期待されています。 (3) 層間協調設計のさらなる強化が必要:インメモリコンピューティングチップには、デバイス、チップ、プロセス、アルゴリズム、アプリケーションなど、多層の層間連携が含まれており、各層は連動して分離不可能であり、層間連携が必要です。パフォーマンス (精度、消費電力、遅延、信頼性など) とコストの最適化を達成するには、コラボレーションが必要です。
 

 

おすすめ

転載: blog.csdn.net/m0_58966968/article/details/135023079