2023 年の Arm の最新プロセッサ アーキテクチャの分析 - X4、A720、A520

1 はじめに

前回の記事でArmのCortex-X1からCortex-X3シリーズのプロセッサを紹介しましたが、2023年5月末にArmは予定通り超大型コアのCortex-X4と大型コアのA720、小型コアの新春プロセッサアーキテクチャをリリースしました。 A520。スマートフォン業界では、ユーザーが最先端の製品設計を体験し続けることができるよう、Arm はプロセッサ アーキテクチャのアップグレードを毎年繰り返すリズムを常に維持してきました。この記事では、2023 年の新しいプロセッサ アーキテクチャの変更を主に紹介し、大きく変更された Cortex-X4 コアの分析に焦点を当て、今年のコア プロセッサ アーキテクチャの注目に値する変更について説明します。

2. 全体の紹介

Arm のプロモーション データから、今年の 3 つのプロセッサ アーキテクチャは異なる焦点を当てていることがわかります。Cortex-X4 は前世代の Cortex-X3 より 15% 高いパフォーマンスの向上に焦点を当てています。A720 と A520 は性能の向上に焦点を当てています。エネルギー効率 前世代の A715 および A520 と比較して、エネルギー効率がそれぞれ 20% および 22% 向上しました。今年のプロセッサにはアップグレードされたプロセスがなく、これらのデータは同じプロセス(TSMC 4nmなど)に基づいて計算される必要があることに注意してください。

2f1432ea41d113362aa5a8a2f59f4f8b.png

新しいプロセッサ アーキテクチャに加えて、Arm は今年、新しい QARMA3 PAC アルゴリズム、浮動小数点機能の向上、PMU の機能強化を含む新しい Armv9.2 命令セットも導入しました。最も重要な変更は、Arm が 32 ビットを完全に放棄する予定であることです。サポート、3 つの新しいコアは 32 ビット アプリケーションと互換性がありません。

03d2afb5de0f7d3b1e8fb195a2765acd.png

また、Arm は今年 DSU120 モジュールをアップデートして、プロセッサ コア間のデータ管理を改善し、最大 14 コアと最大 32 MB の L3 キャッシュ設計をサポートしました。下の図からわかるように、今年のプロセッサ設計も大幅に変更されました。昨年、クアルコムの 8Gen2 プロセッサは 1+4+3 アーキテクチャを採用しました。今年はスモールコア 1+5+2 アーキテクチャが少なくなるでしょう (リンク 3、Qualcomm 8Gen3 プロセッサーを参照)、マルチコアのパフォーマンスが大幅に向上しました。

130d2faae77708e1e2701e400a5f1273.png

3. Cortex-X4 マイクロアーキテクチャ分析

Cortex-X4 のコード名は Hunter-ELP です。下の写真は X4 のマイクロアーキテクチャ図です。第一印象は「大きくなった」ということです。X4 のコアはどんどん大きくなっています。このマイクロ アーキテクチャ設計は、ますます業界をリードする別のプロセッサに似てきていると感じます。異なるルートが同じ目標につながります。多くの場合、最適な設計には 1 つの選択肢しかありません。以下で分析します。今年の主要な変更点を詳しく説明します。

04dd8c4c95bfdf5860210bf33b739191.png

フロントエンド設計の観点から、X4 は L0 レベルの MOP キャッシュをキャンセルします。この変更はビッグ コア A715 から始まったことに注意してください。これは大きな変更です。また、MOP キャッシュのコストが非常に高い可能性があることも示しています。経済的です。MOP Cache キャンセルの影響を補うため、X4 では今回 Decoder の数を 6 個から 10 個に増やしました。前世代の X3 では、MOP キャッシュからフェッチされたデータが 8 幅で、L1 からフェッチされたデータが 6 幅であった場合、今回の X4 は一律 10 幅です。パイプラインの長さとしては、X3がL1からデータを取得する場合は11ステージ、MOPからデータを取得する場合は9ステージかかりますが、今回はMOPの中止に伴い、X4が特別にパイプラインを最適化し、データをL1 から取得されるステージが 11 ステージから 10 ステージに削減されました。

31703e6b612c774b17c5e9a1c2fe4ded.png

バックエンド設計に関しても、今回 X4 は大きく変更されており、特にコンピューティング ユニットが大きく変更されており、新しいブランチ ユニット、2 つの新しい ALU ユニットが追加され、2 番目の完全な MAC ALU ユニットが提供されています。これは、X4 にとって非常に重要です。全体的なパフォーマンスの向上は非常に役に立ちました。

6e8a3f9d2f343451094e47d57f9fd0f2.png

新しく追加された 10 個のデコーダーとコンピューティング ユニットをサポートするために、X4 のリオーダー バッファー (ROB) のサイズも 320 から 384 に増加し、20% 増加しました。

bfe34f758f3f4430c3ffb06e08d0ae3f.png

ストレージ モジュールに関しては、Arm はロードおよびストア ユニットの数を再調整しており、X3 には LS AGU が 1 つと LD AGU が 1 つ搭載されていますが、X4 では LS AGU が 1 つ、LD AGU が 2 つ、ST AGU が 1 つと調整されています。3 AGU から 4 AGU になりましたが、機能が若干異なります。また、L1のd-TLBも48から96に増加し、データ処理能力が向上しました。

3264f43d3dbe0dcc91e4f1fa9608b010.png

今回の X4 コアのもう 1 つの特徴は、より大規模な L2 キャッシュをサポートすることです。これは、X3 の最大サポート 1MB から、X4 の最大サポート 2MB にアップグレードされました。Arm が提供したデータによると、2MB の L2 キャッシュがサポートされています。ただし、キャッシュを増やすとコストが増加するため、すべてのベンダーが最大キャッシュ サイズまで増やすことに積極的であるわけではありません。

b7110ff332f8b939ef36ad42cbcbe826.png

89a650f8928f34388e6329426cd82e5f.png

X4 の全体的なパフォーマンス データから判断すると、Sepcint2K7 は 2 桁の向上を達成しましたが、Geekbench シリーズは 6 ~ 8% の間で 1 桁の向上しかありません。Geekbench は L2 に対してあまり敏感ではないと推測されますが、Sppdometer2、 L2 キャッシュに依存するこのベンチマークの改善は比較的明らかですが、ここでのテスト データは 2MB L2 テストを使用して取得されていることに注意してください。

さらに、Arm データによると、X4 の一般的な CPU 周波数は約 3.4G まで動作することができます。メーカーの実際のプロセッサ周波数は確認されていませんが、前世代の Dimensity 9200+ が 3.35G で動作していたことから、3.4G であると推測されます。 4nmの高周波レベルで達成できる比較である必要があります。

7f7d13d42c254c9dfba205954a12b394.png

Cortex-X4 の主な変更点を要約します。

1. MOP キャッシュがキャンセルされました。

2. デコーダーの数を 6 から 10 に増やします。

3.組立ラインは10レベルに統一されています。

4. ブランチユニットが 2 から 3 に増加しました。

5. ALU ユニットの数が 6 から 8 に増加しました。

6. AGU ユニットを 1 つ追加し、その機能を調整しました。

7. ROB サイズが 320 から 384 に増加しました。

8. L1 の d-TLB が 48 から 96 に増加します。

9. サポートされる最大 L2 キャッシュが 1MB から 2MB に増加しました。

10. 32ビットはサポートされていません。

Sepcint2K7 パラメーターの全体的なパフォーマンスは 13% ~ 14% 向上しました。

d28aa75953722f5f461781ec855c7801.png

4. A720 マイクロアーキテクチャ分析

前のセクションでは、X4 コアの 10 個のマイクロアーキテクチャの変更を挙げましたが、X4 の大きな変更と比較すると、A720 と A520 の変更はそれほど大きくありませんが、調査と議論に値するものがいくつかあります。

まず、A720 について見てみましょう。A720 のコードネームはハンターです。A720 の設計目標は、A715 と比較してエネルギー効率を 20% 向上させることです。同じ消費電力の下で、A720 はより強力な電力を供給できます。パフォーマンス。

A720 の全体的なマイクロアーキテクチャは A715 と大きな違いはなく、Arm はフェッチ/デコード幅の増加や ROB サイズなどの最適化の増加はしませんでしたが、エネルギー効率を最適化するためにマイクロアーキテクチャの詳細にさらに踏み込みました。

0240e9d35a6227c67801a93cc69b42f9.png

フロントエンド設計の点では、A720 は分岐予測機能の最適化を続けています。分岐予測機能とは、平たく言えば、1 歩進んで 2 歩を見る能力です。A720 の分岐予測ミスの回復サイクルは 12 サイクルから 11 サイクルに短縮され、この最適化は実際のユーザー シナリオでは正確に予測できないケースに非常に役立ちます。分岐予測機能に関しては、A710のラージコアはサイクル当たり2つの無条件分岐を予測でき、A715ではさらに条件付き分岐をサポートし、A720ではさらに消費電力を最適化し、パフォーマンスに影響を与えることなく消費電力を削減できるとArmは主張している。

c14dee18a09ac1cf0257d4665e238bcf.png

バックエンド設計では、A720 は FDIV\FSQRT ユニット (除算と平方根) のパイプライン ソートを通じて命令実行のエネルギー効率を向上させます。同時に、A720 は整数および浮動小数点単位のデータの伝送効率を最適化し、データ伝送の遅延とデータの保存の遅延を削減します。A720 では、起動キューと実行ユニットも改善され、ネットワーク ポイントから AGU へのデータ送信が簡素化されています。

5f165968ef4bef11ae4a9542606075db.png

A720 のストレージ モジュールの明らかな最適化は、L2 アクセスの遅延を 10 サイクルから 9 サイクルに短縮することです。これは、メモリ アクセスが多いシナリオでより役立ちます。さらに、A720 がサポートする L2 キャッシュの最大量は引き続き 512KB です。

af8d1d7324b746e9e66c191626bfc929.png

最後に、今年の A720 の最大の変更点をご紹介しますと、今年の Arm の A720 は 1 人ではなく、双子のペアになり、Arm はもう 1 つの A720min (仮称) コアを提供します。このコアはA720とは異なり、面積がある程度縮小されており、全体のコア面積はA78に近く、性能もA720よりは劣りますが、A720よりは約10%強力です。 A78. 要約すると、A720min の面積は A78 の面積に近く (消費電力も近いはずです)、その性能は A720 のブランチに属する A78 よりも 10% 優れています。

8bb52379ef81a754f3aea739ae6be743.png

最後に、A720 の主な変更点を簡単にまとめます。

1. 分岐予測ミスの回復サイクルが 12 サイクルから 11 サイクルに短縮されました。

2. L2 アクセス遅延が 10 サイクルから 9 サイクルに短縮されます。

3. A720min のオプションを提供します。面積は A78 に近く、パフォーマンスは A78 より 10% 強化されます。

5. A520 マイクロアーキテクチャ分析

スモール コア A520 を見てみましょう。A520 スモール コアのコード名は Hayes です。アウトオブオーダー実行はまだサポートされていません。設計は比較的シンプルで、エネルギー効率の向上に重点が置かれています。A520 は、A510 の 2 つの小さなコアを結合して SIMD ユニットを共有する設計を継承していますが、今回、A520 は 64 ビットのみをサポートし、32 ビットはサポートしなくなりました。A520 は、PAC の影響を 1% 以内に低減するように設計された新しい QARMA3 PAC アルゴリズムを提供します。

15f6b436c19dce39cc3a9ff97517cd90.png

A520 も A510 と比較して、エネルギー効率を向上させるために減算が行われており、主な変更点は実行ユニットの ALU を削減することです。A510 には 3 つの ALU がありますが、A520 には 2 つだけがあります。もちろん、Arm はグローバル最適化によってパフォーマンスの損失を補うことができると述べており、Arm が提供したデータによると、同じパフォーマンスの下で A520 の消費電力を 22% 削減でき、同じ消費電力の下ではパフォーマンスを向上させることができます。 8%程度の改善が見込めるので、実際にテストも行います。

残念ながら、8% の性能向上は、フラッグシップ プロセッサの需要と比較すると、まだ一定のギャップがあります。今年のフラッグシップ プロセッサの設計では、チップ メーカーが A520 スモール コアの使用を削減し続けており、一部のメーカーは A520 スモール コアを使用していないことがわかりました。 A520は全く小さいコアです。

5b2be541303e1e125bba49c051203133.png

b779223e43fd860fecdf007764146d6a.png

6. DSU120の解析

最後に、プロセッサ コアとキャッシュを調整するために使用される DSU モジュールを見てみましょう。Arm は、クラスタ内で最大 14 コアをサポートし、最大 32 MB の L3 キャッシュ管理をサポートできる最新の DSU120 モジュールをアップグレードしました。

DSU120 は貴重な機能を提供しますが、L3 キャッシュがますます大きくなるにつれて、静的リークは考慮する必要のある影響要因となり、携帯電話の待機電力消費シナリオに影響を与えます。DSU120 は部分的な L3 シャットダウン機能を提供しており、このような大規模なキャッシュを使用する必要がない一部のシナリオでは、L3 キャッシュの一部をオフにすることで静的リークを減らすことができます。

02581ffb2e8b12aaeecca823127d059d.png

7. まとめ

この記事では、Armが2023年にリリースするCortex-X4、A720、A520などの最新プロセッサアーキテクチャを主に分析します。今年は Arm が第 4 世代 X シリーズ プロセッサをリリースしますが、これまでの分析を通じて、Arm がコア プロセッサのコンピューティング パフォーマンスを継続的に向上させ、業界最先端のアーキテクチャ設計に挑戦していることがわかりました。同時に、Arm は A720 および A520 のエネルギー効率を最適化することで、チップのエネルギー効率の点でより競争力のある製品ポートフォリオをユーザーに提供します。

2023 年、チップ メーカーは従来のコア構成に満足できず、小型コアの数を減らし、大型コアのアーキテクチャ アップグレードを増やし始めました。今年は、マルチコアのパフォーマンスがさらに向上した、より多くのマルチコア SOC 設計が見られるでしょう。2023年のプロセッサ競争はさらに激化するのは間違いなく、マルチコアの導入による消費電力や発熱の増加リスクにも警戒が必要であるチップやスマートデバイス端末の開発者としては、プロセッサのアーキテクチャを十分に理解する必要がある合理的なソフトウェアとハ​​ードウェアのスケジューリングを使用して、チップのエネルギー効率を最適化して設計し、ユーザーに最高の持続可能なパフォーマンスを提供します。

以前の記事のレビュー:

1. A76 から A78 へ - 変化の中で ARM マイクロアーキテクチャを学ぶ 

2. Arm マイクロアーキテクチャ学習シリーズ 2 - Armv9 時代の幕開け

3. Armマイクロアーキテクチャ分析シリーズ3 - ArmのX計画

参考リンク:

1、https://www.anandtech.com/show/18871/arm-unveils-armv92-mobile-architecture-cortex-x4-a720-and-a520-64bit-exclusive

2、A720 https://fuse.wikichip.org/news/7531/arm-introduces-the-cortex-x4-its-newest-flagship-performance-core/

3、8Gen3 https://www.xda-developers.com/qualcomm-snapdragon-8-gen-3/

4、Cortex-X4 https://twitter.com/Cardyak/status/1664753062487941120

5、A720 https://fuse.wikichip.org/news/7529/arm-introduces-a-new-big-core-the-cortex-a720/

6、A520 https://fuse.wikichip.org/news/7527/arm-launches-next-gen-efficiency-core-cortex-a520/

過去

予想

押す

お勧め

ShaderNN 2.0: GPU フルグラフィックススタックに基づく効率的で軽量なモバイル推論エンジン

Chromium マルチプロセス アーキテクチャ、どれくらい知っていますか?

良い名前の重要性について: Linux カーネル ページから Folio への変更

7f8fdaa6b14693dde1804ecd80deefd6.gif

長押ししてカーネル職人WeChatをフォローしてください

Linux カーネル ブラック テクノロジー | 技術記事 | 注目のチュートリアル

おすすめ

転載: blog.csdn.net/feelabclihu/article/details/131606688