【智算中心】国产GPU横向对比

认证证书
近日，沐曦发布了一篇名为《沐曦与智谱AI完成兼容性测试共建软硬件一体化解决方案》的公众号，表示曦云®C500千亿参数AI大模型训练及通用计算GPU与智谱AI开源的中英双语对话语言模型ChatGLM2-6B完成适配。测试结果显示，曦云®C500在智谱AI的升级版大模型上充分兼容、高效稳定运行。

据悉，在2023年算力大会期间算能科技、寒武纪等国产GPU厂商也获得了ChatGLM2-6B模型适配认证，下面我们就国产化GPU和高端GPU到底有多大差距和ChatGLM2-6B模型是什么模型，能决绝那些问题等方面展开聊一下。

文章目录

什么是GPU？
国产化GPU
英伟达V100、A100、H100横向对比
国产GPU横向对比

什么是GPU？

GPU，全称为图形处理器，是一种专门设计用于处理计算机图形和图像的处理器。它可以加速计算机图形渲染和处理操作，提高计算机图形和图像的性能和质量。GPU相对于CPU而言，具有更多的处理单元和更高的并行处理能力，因此可以更快地处理大量的图形和图像数据。

随着人工智能技术的飞速发展，GPU的应用场景不断细分，出现了 GPGPU、 NPU、 DCU 等新的概念。

GPU。是指图形处理器。可以理解成显卡，一般用来显示工作的。
GPGPU。是通用目的GPU，现阶段主流显卡都是GPGPU。通常算力很强，可以适用于大多数目的，即通用目的。
NPU。神经网络处理器，是一种专门用于进行深度学习计算的芯片。
DCU。深度计算器。是海光（HYGON）推出的一款专门用于AI人工智能和深度学习的加速卡。

国产化GPU

羲彩®G100（图形处理GPU）

曦彩®G100是一款面向数据中心和工作站应用的图形处理GPU。它内置工艺先进、算力强大的MXG100GPU处理器，具备超强的图形处理能力。曦彩®G100可广泛应用于云游戏、元宇宙、数字李生、云渲染、影视动画制作、专业制图等场景。

算力。对标国际厂商主流架构旗舰GPU产品
大容量显存。集成 32G显存 并支持显存扩展
通信接口。PCle Gen5.0
互联。桥接互联
视频处理。支持多种视频格式的多路视频编解码

羲云®C500（通用计算GPU）

在这里插入图片描述
曦云®C500基于自主研发的高性能GPU IP，具有强大的多精度混合算力、 64GB 大容量高带宽内存、先进的多卡互联技术、全兼容主流GPU生态的MXMACA®软件栈，特别适合千亿参数AI大模型的训练和推理；全面 兼容CUDA生态，实现用户零成本迁移；通过自主知识产权的MetaXLink实现 单机8卡GPU全互联，提供构建高密度算力和云计算部署的优秀国产GPU解决方案；可广泛应用于千亿参数AI大模型训练与推理、AIGC内容生成、推荐系统、自动语音识别、语音合成、图像分割检测，以及科学计算、数据库加速等多种场景。

产品代号	羲云®C500 PCIe	羲云®C500 OAM
算力	FP32(vector):15TFLOPS FP32(matrix):30TFLOPS TF32: 120 TFLOPS FP16:240TFLOPS BF16:240 TFLOPS INT8:480 TOPS	FP32(vector):18TFLOPS FP32(matrix):36TFLOPS TF32: 140 TFLOPS FP16:280TFLOPS BF16:280 TFLOPS INT8:560 TOPS
内容规格	64GBHBM2e,带宽18TB/s	64GBHBM2e,带宽18TB/s
视频/JPEG解码	160路1080p@30FPS	160路1080p@30FPS
视频/JPEG编码	12路1080p@30FPS	12路1080p@30FPS
互联	MetaXLink 2卡4卡全互联	MetaXLink 8卡全互联
虚拟化示例	1/2/4/8	1/2/4/8
功耗	350W	450W

曦思®N100（推理GPU）

在这里插入图片描述
曦思®N100是一款人工智能推理GPU，拥有 160TOPS AI峰值算力，及128路编码和96路解码超高密度视频处理能力；高速互联和多卡扩展等功能使其具有高带宽、低延时的属性，可应用与智慧交通、智慧安防、智能转码等人工智能领域。

算能 SC5（AI加速卡）

在这里插入图片描述
Al加速卡SC5搭载算丰AI处理器BM1684.是面向 AI推理的算力卡。可集成于服务器、工控机中，高效适配市场上所有AI算法实现视频结构化、人脸识别、行为分析、状态监测等应用，为智慧城市、智慧交通、智慧能源、智慧金融智慧电信、智慧工业等领域进行AI赋能。

算力：

扫描二维码关注公众号，回复： 17276832 查看本文章

支持52.8T的INT8 峰值算力
支持6.6T的FP32高精度算力

编解码和转码能力：

支持 114路1080P@25fps 高清视频硬件解码
支持 6路1080P@25fps 高清视频硬件编码
支持 54 路1080P至CIF 格式的视频流片上转码

算能 SC7（AI加速卡）

在这里插入图片描述
Al加速卡SC7是面向AI推理的算力卡可集成于服务器、工控机中，高效适配市场上所有AI算法实现视频结构化、人脸识别、行为分析、状态监测等应用,为智慧城市、智慧交通、智慧能源、智慧金融、智慧电信、智慧工业等领域进行AI赋能。

算力：

支持 256/96TOPS的INT8 峰值算力
支持128/48FLOPS的FP16/BF16 峰值算力
支持16/6TFLOPS的FP32高精度算力

编解码和转码能力：

支持 256/96路1080P@25fps高清视频硬件解码
支持96/36路1080P@25fps 高清视频硬件编码

英伟达V100、A100、H100横向对比

产品代号	V100（NVLink）	A100（SXM）	H100（SXM）	A800（SXM）
FP64	7.8 TFLOPS	9.7 TFLOPS	34 TFLOPS	9.7 TFLOPS
FP64 Tensor Core	-	19.5 TFLOPS	67 TFLOPS	19.5 TFLOPS
TF32	-	156 TFLOPS/312 TFLOPS	989 TFLOPS	156 TFLOPS/312 TFLOPS
FP16 Tensor Core	-	312 TFLOPS/624 TFLOPS	1979 TFLOPS	312 TFLOPS/624 TFLOPS
INT8 Tensor Core	-	624 TOPS/1248 TOPS	3958 TOPS	624 TOPS/1248 TOPS
显存	32/16GB HBM2	80GB HBM2	80GB	80GB HBM2
显存带宽	900 GB/s	1935 GB/s	3.35TB/s	2039 GB/s
功耗	300W	400W	700W	400W

近年，美国政府出台新政策，禁止美国公司向中国的超算公司和高性能计算机制造商出售高端图形处理器(也就是高端GPU)和其他制造设备。国内现在买不到如NVIDIA的A100 H100等高端GPU从短期来看，这个政策可能会对中国的算力行业带来一定的压力，目前中国仍然需要使用高端GPU进行生产但从长远来看，对于国产GPU行业发展而言是一个机遇。

禁令出现后英伟达也是做出了应对措施，推出了A100/H100的阉割版本，A800、H800 GPU，主要是在NVLink模式下的带宽从600GB/s下降到400GB/s，其他参数均保持致。即使是阉割版本国内也是一卡难求，我们在今年3月份询的A800服务器价格在110万/台，6月现货价格在135万/台，期货130万每台，还需要全款后2月内交付。第三季度又放出A800停止发货消息。

国产GPU横向对比

产品代号	寒武纪思元370	寒武纪思元290	昇腾910	燧原云燧T20/T21	海光DCU	羲云C500	算能SC7
FP64	-	-	-	-	11.5 TFLOPS	-	-
FP32	24 TFLOPS	-	-	32 TFLOPS	-	18 TFLOPS/36 TFLOPS	6 TFLOPS/16 TFLOPS
TF32	-	-	-	128 TFLOPS	-	140 TFLOPS	-
FP16	96 TFLOPS	-	320TFLOPS	128 TFLOPS	-	280 TFLOPS	48 TFLOPS/128 TFLOPS
BP16	96 TFLOPS	-	-	128 TFLOPS	-	280 TFLOPS	48 TFLOPS/128 TFLOPS
INT16	128 TFLOPS	256 TFLOPS	-	-	-	-	-
INT8	256 TOPS	512 TOPS	640 TOPS	256 TOPS	-	560 TOPS	96 TOPS/256 TOPS
显存	24GB LPDDR5	32 HBM2	-	32 HBM2E	32 HBM2E	64 HBM2E	-
显存带宽	307.2 GB/s	1228 GB/s	-	1.6 TB/s	1 TB/s	1.8 TB/s	-
功耗	150W	350W	310W	300W	260-350W	450W	-

目前这些GPU多用在国产商用机、国内服务器、云端计算以及AI计算等方面。从上面的参数可以看出，昇腾910、羲云C500在国产AI加速卡中极具竞争力，海光DCU更适合超算领域，但是和行业主流厂商相比还有较大差距，差距不仅仅是纸面参数方面，在多卡互联能力、高速计算网络、可靠性、可持续迭代和生态等多方面。海外各种禁令虽然短期内会在相应领域上给我们带来不小的麻烦，但也会促进国内公司在相应的领域上发力，这对于这些公司而言未尝不是一个机会。