Spring Crest-英特尔出品的神经网络训练场景加速卡 - 代码天地

Spring Crest-英特尔出品的神经网络训练场景加速卡

其他 2019-12-04 23:50:47 阅读次数: 0

Spring Crest应当是个codename，代表其出品的神经网络的训练场景的加速卡。还有推理场景的加速卡，推理的设计可能会简单一点以后再看。

采用的是TSMC 16nm工艺，采用的是硅中介的封装。叫做CoWos的2.5D的封装，Chip on Wafer on Substrate，（Wafer是圆晶，Substrate是基底）；

60*60=2600mm^2（相当于是BGA的面积），其中1200mm^2的CoWos封装（相当于是硅中介的面积）；其中Die的大小是680mm^2。

含有24个TPC（Tensor Processor Clusters），支持bfloat16，也就是具有fp32的计算精度；互联也是mesh网状结构。24个TPC按照4个内存，分为4个模块。
芯片支持两种形态：PCIe X16 Gen4（300W TDP）和OCP的OAM（375W TDP）形态。OAM形态下ICL并不是全部引出。

整个芯片的方块图如下：

可以看出主要有下面三个方面：

内存方面：可以看出四边还有4个HBM2,8Hi的。每个模块四8GiB，合计是32GiB。并且工作频率是2400MHz（已经DDR倍频）。已经算是很高了。内存的带宽是：4个HBM2*1024bit*2400MHz/8/1000=1228.8GB/s=1.229TB/s
互联方面：互联上实现了X16*4个SerDes，工作频率是28Ghz，那么整体的带宽是：28GHz*64bit/8*2双向=448GB/s；ICL支持环状互联，全互联，立方体互联。OAM可以实现1024个互联。（PICe和ICL不是复用SerDes）
计算方面：参考下面对TPC的分析；一个Spring Crest有24个TPC。

TPC的方块图如下：

主要可以看出有四个系统：

On Chip Router，相当于和外部联系的中转站
The Controller，相当于控制器，主要是指令解码，调度操作，和循环指令。顺便协调TPC内部的计算单元。其中的ISA是简单的tensor指令集。
MPU主要的运算部分，每个TPC包含2个MPU（MAC Processing Unit）;每个MPU包含32*32的MAC Array，频率是1.1GHz，那么性能是：32*32*2M/A*1FLOPs/cycle*1.1Ghz=2.25TFLOPs。整个Chip的计算能力是24*2*2.25=108TFLOPs(FP32).
内存子系统，主要是缓存的作用，大小是2.5MiB，那么整个24个TPC可以提供的是24*2.5MiB=60MiB的缓存。并且针对并行计算有优化。这一部分的MPU和缓存的带宽是1.4Tbps，暂时不知道怎么计算的。

参考文献：

主要介绍了spring crest的参数

https://en.wikichip.org/wiki/nervana/microarchitectures/spring_crest

主要给出了MPU的工作频率，可以计算整体的理论性能

https://fuse.wikichip.org/news/2972/a-look-at-spring-crest-intel-next-generation-dc-training-neural-processor/

可以从下面的连接看到ICL实现的OAM的级联的方案，在上面没展开

https://fuse.wikichip.org/news/2219/intels-spring-crest-nnp-l-initial-details/

猜你喜欢

转载自www.cnblogs.com/kongchung/p/11986443.html

Spring Crest-英特尔出品的神经网络训练场景加速卡

英特尔QAT加速卡说明（二）

英特尔QAT加速卡说明（一）

英特尔计划年底前出货第一代神经网络处理器——“Lake Crest”

英特尔推出功能强大的FPGA加速卡

英特尔的Movidius AI加速技术适用于mini-PCIe版本，旨在加速神经网络

英特尔加速 Android 应用

spring的传播机制（场景）

spring 事务失效场景

Spring事务失效场景

spring事务失效的场景

加速神经网络训练（Speed UpTraining)

优化神经网络的方法，加速训练

在英特尔 CPU 上加速 Stable Diffusion 推理

Spring Tool Suite(STS)加速

spring

Spring @

Spring:

【Spring】

英特尔收购网络芯片创业公司Barefoot Networks

Spring Batch 使用场景

spring中事务失效场景

Spring事务失效场景详解

spring aop 的适用场景

Spring事务失效的各种场景

英特尔“AI 养猪”！

英特尔“AI 养猪”！

英特尔隐私声明

英特尔、arm架构

英特尔oneAPI介绍

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

Ubuntu 14.04 下Fuel6.0安装部署

香港一小巴侧翻致1死16伤警方：未见机件故障

pikachu--XSS盲打

阅读深入理解JVM虚拟机笔记一

java.sql.SQLException: ORA-00932: 数据类型不一致: 应为 -, 但却获得 CLOB

oracle delete all object under an user

[LeetCode]20 Valid Parentheses 有效的括号

树形DP求树的直径【模板】

Context propagation over HTTP in Go

【PAT】（B）1053 住房空置率 (20)*

每日归档

更多

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)