华为Ascend昇腾计算产业介绍

一、参考资料

1.1 解决方案

[产品与解决方案介绍视频(渠道版)] 020101Atlas人工智能计算平台

[彩页(客户版)] 华为Atlas人工智能计算解决方案产品彩页

[营销物料] 人工智能创新应用优秀案例集

1.2 昇腾文档

昇腾官网

AscendCL文档

昇腾产品成长地图
在这里插入图片描述
在这里插入图片描述

二、相关介绍

2.1 Ascend昇腾

华为昇腾系列芯片的系列名称。昇腾芯片上集成了AI COREAI CPUCPU。其中,AI CORE负责大型Tensor Vector运算,AI CORE负责标量运算,CPU负责逻辑控制和任务分发。在昇腾310AI处理器(NPU)上,既有负责专用计算Davinci Core,也有负责通用计算Control CPU

Host侧CPU负责将图或算子下发到昇腾芯片。昇腾芯片由于具备了运算、逻辑控制和任务分发的功能,所以不需要与Host侧的CPU进行频繁的交互,只需要将计算完的最终结果返回给Host侧,实现整图下沉到Device执行,避免Host-Device频繁交互,减小了开销。

2.1.1 达芬奇架构

达芬奇核心分为三种,最完整的是 Max,其次是 Lite,再次是 Tiny,Max 可在一个周期内完成 8192 次 MAC 运算,Tiny 为512次。昇腾 910 属于 Ascend-Max 系列,它基于 7nm 增强版 EUV 工艺,单 Die 内建 32颗达芬奇核心,半精度高达 256TFOPs,功耗为 350W。

2.1.2 计算密度

在 HotChips 大会上,华为还将昇腾 910 的计算密度与 NVIDIA Tesla V100Google TPU v3进行了对比,其中昇腾 910 的计算密度远远超过了这两个竞争对手。

2.1.3 On Device

所谓On Device中的Device通常指Ascend(昇腾)AI处理器。

2.1.4 计算图下沉

on-device执行

计算图整图下沉到Device上执行,减少Host-Device交互开销。可以结合 循环下沉 实现多个Step下沉,进一步减少Host和Device的交互次数。

2.1.5 循环下沉

on-device执行

循环下沉是在On Device执行的基础上的优化,目的是进一步减少Host侧和Device侧之间的交互次数。通常情况下,每个Step都返回一个结果,循环下沉是控制每隔多少个Step返回一次结果。

默认配置下,每一个Epoch返回一次结果,在每个Epoch里,Host侧和Device侧只需要进行一次数据交互。

2.1.6 数据下沉

数据下沉是指数据通过通道直接传送到Device上。

2.2 昇腾产品形态

昇腾产品形态说明

2.2.1 设备形态

支持端、边、云的各种设备。

2.2.2 RC与EP模式

在这里插入图片描述

昇腾 AI 处理器的工作模式如下:

  • 昇腾310 AI处理器有EP和RC两种模式。

  • 昇腾710 AI处理器只有EP模式。

  • 昇腾910 AI处理器只有EP模式。

RC(Root Complex)模式

以昇腾 AI 处理器的PCIe的工作模式进行区分,如果PCIe工作在 主模式,可以扩展外设,则称为 RC模式。这种模式下,计算设备直接承担主控任务,设备自己就是“根”。

**RC模式的优点:**内存管理简单,无需考虑Host侧的事情。

**RC模式的缺点:**不能平行接入同类设备。就是说,一个Atlas200做主控的时候,不能平行接入另一个Atlas200做并行计算,也就失去了扩展性。

支持RC模式的产品有:

  • Atlas 200 AI加速模块。
  • Atlas 200 DK 开发者套件。

EP(End Point)模式

如果PCIe 工作在 从模式,则称为 EP模式。EP模式通常 由Host侧作为主端,Device侧作为从端。客户的AI业务程序运行在Host系统中,产品作为Device系统以PCIe从设备接入Host系统,Host系统通过PCIe通道与Device系统交互,将AI任务加载到Device侧的昇腾 AI 处理器中运行。

**优点:**主控CPU在计算设备之外,可以用一个主控CPU接多个计算设备(比如Atlas300I推理卡),方便扩展,执行并行计算。

**缺点:**编程复杂度偏高一些。要考虑Host->Device内存数据传输及其时间开销。

支持EP模式的产品:

  • 昇腾310 AI处理器:Atlas 200 AI加速模块、Atlas 300I 推理卡、Atlas 500 智能小站、Atlas 500 Pro 智能边缘服务器、Atlas 800 推理服务器。
  • 昇腾710 AI处理器:Atlas 300I Pro 推理卡、Atlas 300V Pro 视频解析卡。
  • 昇腾910 AI处理器:Atlas 800 训练服务器、Atlas 300T 训练卡。

2.2.3 Host与Device

Host和Device的概念说明如下:

  • Host:Host指与Device相连接的 X86服务器ARM服务器,会利用Device提供的NN(Neural-Network)计算能力,完成业务。

  • Device:是指安装了昇腾AI处理器的硬件设备,利用PCIe接口与Host服务器连接,为Host服务器提供NN计算能力。广义的Device泛指安装了NPU的硬件设备,例如Atlas 300I。Atlas 300I 利用PCIe接口与主机(Host)侧连接,为Host提供NN计算能力。广义的Device既包含芯片,也包含板子上的内存等其他设备。Atlas 300I焊接了4片昇腾310 AI处理器,侠义的Device特指这几个芯片。
    在这里插入图片描述
    在这里插入图片描述

2.3 CPU

型号 厂家
kunpeng鲲鹏920 华为
Intel® Xeon® SP Skylake Intel
Cascade Lake Intel
Intel V5 Cascade Lake Intel

2.4 NPU

Neural-Network Processing Unit(简称“NPU”),神经网络处理单元。

2.5 AI处理器

型号
昇腾310
昇腾910
昇腾920

查看昇腾芯片的详细信息:

ascend-dmi -i -dt

返回信息中“Chip Name”对应取值即为<soc_version>。使用atc命令转换模型时,实际配置的*<soc_version>值,要去掉“Chip Name”对应取值中的空格,例如“Chip Name”对应取值为Ascend xxx yyy,实际配置的<soc_version>值为Ascendxxxyyy*。

--soc_version=Ascend310
--soc_version=Ascend710
--soc_version=Ascend910A

2.6 ADK

Ascend Development Kit(简称“ADK”)设备开发套件,ADK是解决方案提供的开发者套件包,通过安装相关软件包后获得开发必需的API、库、工具链等开发组件。

2.7 华为全栈全场景AI解决方案

在这里插入图片描述
在这里插入图片描述

2.8 Atlas人工智能计算平台全景图

在这里插入图片描述

2.9 1平台+3计划

1平台+3计划,支撑昇腾产业合作伙伴及开发者。五年投资30亿RMB,发展3000家合作伙伴,培养百万开发者。
在这里插入图片描述

三、Atlas人工智能计算解决方案

3.1 Atlas智能边缘解决方案

华为Atlas智能边缘解决方案,基于华为昇腾系列处理器,通过模块、板卡、小站等系列化产品,打造面向端侧面向边缘侧场景下人工智能基础设施方案。端侧摄像头、无人机等端侧部署AI模块可实现视频监控、图像识别;面向边缘侧的智能小站凭借超强算力、体积小、环境舒适性强等优势,可满足在安防、交通、社区、园区、商场、超市等复杂环境区域的AI算力需求。

相关产品

  • Atlas 200 AI加速模块(型号:3000);
  • Atlas 300I 推理卡(型号:3000/3010);
  • Atlas 500 智能小站(型号:3000);
  • Atlas 500 Pro 智能边缘服务器(型号:3000);

3.2 Atlas数据中心解决方案

华为Atlas数据中心解决方案,基于华为昇腾系列AI处理器,通过板卡、服务器、集群等系列化产品,打造云场景下人工智能基础设施方案,适配各种不同规模数据中心需求,覆盖深度学习领域推理和训练全流程,适用于智慧城市、智慧医疗、智慧金融、天文探索、石油勘探等行业领域。

相关产品

  • Atlas 300T 训练卡(型号:9000);
  • Atlas 800 训练服务器(型号:9000);
  • Atlas 900 PoD(型号:9000);
  • Atlas 900 AI集群(型号:9000);

四、ModelArts

ModelArts 应用使能,提供全流程服务,分层API和预集成方案。ModelArts是面向开发者的一站式 AI开发平台,为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式 Training、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。 专属资源池为专业用户提供高性能,高效率的优化体验,资源池支持包周期及按需计费,满足不同专业用户需求。

五、MindStudio

MindStudio 用户手册

MindStudio 全流程开发工具链,提供AI开发所需的一站式开发环境,支持 模型开发算子开发应用开发三个开发任务。依靠 模型可视化算力测试IDE本地仿真调试 等功能,帮助开发者高效便捷的完成AI开发。

MindStudio 全流程工具链串起一条从上到下的应用流,从训练模型、开发模型到应用模型和使用 SDK,快速的走通一个应用、一个分类目标检测的应用。
在这里插入图片描述
在这里插入图片描述

5.1 MindStudio架构

MindStudio 是一套基于 IntelliJ 框架的开发工具平台,提供了应用开发、调试、模型转换功能,同时还提供了网络移植、优化和分析功能,为用户开发应用程序带来了极大的便利。

功能特性

  • 针对算子开发,Mind Studio提供了全套的算子开发、调优能力。通过Mind Studio提供的工具链也可以进行第三方算子开发,降低了算子开发的门槛,并提高算子开发及调试调优的效率,有效提升了产品竞争力。
  • 针对网络模型的开发,Mind Studio集成了离线模型转换工具、模型量化工具、模型精度比对工具、模型运行性能分析工具、日志分析工具,提升了网络模型移植、分析和优化的效率。
  • 针对计算引擎开发,Mind Studio预置了典型的分类网络、检测网络等计算引擎代码,降低了开发者的技术门槛,加快了开发者对AI算法引擎的编写及移植效率。
  • 针对应用开发,Mind Studio集成了各种工具,如分析器(Profiler)和编译器(Compiler)等,为开发者提供了图形化的集成开发环境,通过Mind Studio能够进行工程管理、编译、调试、性能分析等全流程开发,能够很大程度提高开发效率。

5.2 AI全栈开发典型场景

  • 应用开发场景的流程:创建应用工程,代码开发,模型集成,应用调试,应用性能调优,质量保证,发布应用。
  • 模型调优场景:创建算法工程,模型训练,生成模型,模型转换,模型算子精度比对,模型整网调优,模型评估。
  • 算子开发场景:创建算子工程,算子开发,算子调试,算子仿真运行,算子性能调优,算子上板运行,算子质量评估。
    在这里插入图片描述

六、MindSpore

MindSpore 白皮书

MindSpore 文档

MindSpore昇思是华为自研的深度学习框架,最佳匹配昇腾AI处理器算力的 全场景AI框架,支持端、边、云独立的和协同的统一训练和推理,支持全场景灵活部署。全场景的意思是从「大规模公有 云 端 \textcolor{Red}{云端} 环境」一直到「智能 边 缘 \textcolor{Red}{边缘} 」的智能相机、边缘盒子、手机,甚至是 终 端 \textcolor{Red}{终端} 嵌入式开发板,都可以用这一套框架来开发。

功能特性

  • 自动并行。从最基础的数据并行,到可以做模型并行、再到 Pipeline 并行。MindSpore 是混合自动并行,意思是可以自动进行「最优的分布式并行策略」搜索,可以给开发者提供最优的并行策略。
  • 二阶优化。做二阶求导是理论上非常符合直觉,但是工程实践上非常难的事情。尤其是你可以持续保持你做一阶的正增益,效率提高将近 1 倍,但MindSpore 是可以做到的。
  • 动静态图结合。
  • 全场景部署协同。MindSpore 和华为昇腾硬件平台配合,可以发挥巨大的性能,提供很多性能调试工具。

七、CANN

CANN (Compute Architecture for Neural Networks)异构计算架构 是芯片算子库和高度自动化算子开发工具,实现了统一异构计算架构,释放昇腾硬件澎湃算力。强大的异构计算平台,能够充分的释放强大的算力,提供了 AscendCL 统一编程接口,通过 CANN 的优化做到极致性能。CANN能够支持异构计算,尤其是进行大量面向底层硬件编译优化的软件系统。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

7.1 AscendCL

Ascend Computer Language(AscendCL,简称“ACL”)昇腾统一编程语言,实现软硬件解耦,提供Device管理、Context管理、Stream管理、运行资源管理、内存管理、模型加载与执行、算子加载与执行、媒体数据处理等C++ API库,能够实现利用昇腾硬件计算资源、在昇腾CANN平台上进行 深度学习推理计算图形图像预处理单算子加速计算等能力,供用户开发深度神经网络应用。简单来说,就是 统 一 的 A P I 框 架 , 实 现 对 所 有 资 源 的 调 用 \textcolor{Red}{统一的API框架,实现对所有资源的调用} API

计算资源层是昇腾AI处理器的硬件算力基础,主要完成神经网路的矩阵相关计算,完成控制算子/标量/向量等通用计算和执行控制功能,完成图像和视频数据的预处理,未深度神经网络计算提供执行上的保障。

功能特性

  • 高度抽象:算子编译、加载、执行的API归一,相比每个算子一个API,AscendCL大幅减少API数量,降低复杂度。
  • 向后兼容:AscendCL具备向后兼容,确保软件升级后,基于旧版本编译的程序依然可以在新版本上运行。
  • 零感知芯片:一套AscendCL接口可以实现应用代码统一,多款昇腾AI处理器无差异。

7.2 AOL

昇腾算子库。

7.3 ATC

昇腾张量编译器。

7.4 ACE

昇腾计算执行器。

7.5 DVPP

昇腾CANN系列课程-AscendCL特性之图像增强(C++)

DVPP数字视觉预处理,实现硬件加速,提升图像预处理并行能力。DVPP各组件基于处理速度处理占有量的考虑,对输入、输出有特殊的限制,如**对输出图片的宽高有对齐要求,且其输出格式通常为YUV420SP等格式。**在视频分析的场景下有广阔的应用。

功能模块

  • 视频解码模块(VDEC):视频解码模块提供对H.264/H.265格式视频的解码功能,对输入的视频码流进行解码并输出图片,可用于视频结构化等场景。

  • 视频编码模块(VENC):与之相对应的,视频编码模块可将原始YUV数据帧编码成H.264/H.265格式的视频流,用于直接展示等场景。

  • JPEG图片解码(JPEGD):将.jpg、.jpeg、.JPG、.JPEG图片解码成YUV格式图片,用于模型推理等场景。

  • JPEG图片编码(JPEGE):将YUV格式图片编码成.jpg图片,用于直接展示等场景。

  • 视觉与处理模块(VPC):可以实现图片的裁剪抠图(crop)、缩放(resize)、粘贴(paste)、格式转换(YUV/RGB到YUV420)等功能。

    DVPP的缩放(resize)接口对输出数据的分辨率是有对齐要求的,即要求输出数据的分辨率要进行16 x 2对齐。

DVPP内存管理

一定要用 acldvppMalloc() 这个接口来申请Device上的大页内存,通过该接口申请出来的大页内存满足数据处理的要求(例如,内存首地址128对齐)。acldvppMalloc() 申请出来的内存必须由 acldvppFree() 来释放。

// 申请DVPP内存
aclError acldvppMalloc(void **devPtr, size_t size)

// 释放DVPP内存
aclError acldvppFree(void *devPtr)

使用DVPP中的VPC进行图像处理时,输入和输出内存地址起始要求16字节对齐,其中128字节对齐性能最高

VPC基本流程

VPC的图像处理接口,当前都是异步接口,因此调用异步接口后,不能马上释放资源,需调用同步等待接口 aclrtSynchronizeStream() 阻塞应用程序运行直到指定Stream中的所有任务都完成,任务执行完成后才能释放。
在这里插入图片描述

7.6 AIPP

AIPP(Artificial Intelligence Pre-Processing)人工智能预处理,主要用于在AI Core上完成数据预处理,通过AIPP提供的色域转换功能,输出满足要求的图片格式;通过改变图像尺寸中的补边(Padding)功能,输出满足长宽对齐的图片等,数据处理之后再进行真正的模型推理。AIPP的出现是对DVPP能力的有效补充。

通过在模型转换过程中开启AIPP功能,可以在推理之前就完成所有的数据处理,专门的加速模块实现并保证性能,可以不让图像处理成为推理阶段的瓶颈,图像处理方式比较灵活。

功能 解释
改变图像尺寸 Crop(抠图)、补边(Padding)
色域转换 转换图像格式

静态AIPP与动态AIPP

把模型转换过程中集成的“AIPP”叫做“静态AIPP”,是因为这部分AIPP能力已经被融入到om中了,没法在编程角度通过代码控制。与之相对应的还有“动态AIPP”,即编写代码能够控制的AIPP。两者之间的区别如下:
在这里插入图片描述
DVPP与AIPP对比
在这里插入图片描述

DVPP AIPP
对输出数据的尺寸是否对齐

在这里插入图片描述

7.7 HCCL

HCCL华为通信集合库,在分布式训练中为不同昇腾AI处理器之间提供高效的数据传输能力。

八、MindX

昇腾 应用使能,MindX包含“2+1+X”,深度学习使能 MindX DL 、智能边缘使能 MindX Edge、1个优选模型库 ModelZoo和X个行业SDK。
在这里插入图片描述

8.1 MindX DL

MindX DL(昇腾深度学习组件)是支持 Atlas 800 训练服务器、Atlas 800 推理服务器的深度学习组件实现 深度学习使能,提供昇腾AI处理器资源管理和监控、昇腾AI处理器优化调度、分布式训练集合通信配置生成等基础功能。数据中心计算资源统一管理与调度,使能合作伙伴快速开发深度学习系统。
在这里插入图片描述
在这里插入图片描述

8.2 MindX Edge

MindX Edge(昇腾智能边缘组件)智能边缘使能,提供边缘AI业务容器的全生命周期管理能力,为客户提供边云协同的边缘计算解决方案,使能客户快速构建边缘 AI 业务。轻量化的边缘计算资源管理运维,使能行业客户快速搭建边云协同推理平台。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8.3 ModelZoo

ModelZoo优选模型库,为开发者提供丰富的场景化优选预训练模型,为开发者解决了模型的选型难、训练难、优化难等问题。

8.4 MindX SDK

MindX SDK行业AI应用开发套件,面向行业场景的完整AI开发套件,提供极简易用的API及图形界面,使能开发者以极少代码快速开发行业AI应用。比如,mxVision,行业 SDK mxManufacture,AI 超算、交易、医疗、金融、电力……用尽量少的代码,打通一个全流程。
在这里插入图片描述
在这里插入图片描述

九、Atlas系列硬件

Atlas系列硬件

昇腾计算

Atlas是基于Ascend系列AI处理器,通过丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施方案。

Altas行业解决方案

  • 平安城市;
  • 智慧网点;
  • 高压线无人巡检;
  • 省界收费站“自由流”;
  • 智能推荐系统;
  • 智慧营业厅;

Atlas 200 AI加速模块(型号:3000)

[白皮书(渠道版)] 华为Atlas 200 AI加速模块 技术白皮书(型号 3000)

Atlas 200 AI加速模块(型号:3000)集成了 昇腾310 AI处理器,可以在 端侧 实现目标识别、图像分类等,广泛用于智能摄像机、机器人、无人机等端侧AI场景。
在这里插入图片描述

Atlas 200 DK(型号:3000)

[白皮书(渠道版)] 华为Atlas 200 DK 开发者套件 技术白皮书(型号 3000)08

Atlas 200开发者套件(型号:3000),又称Atlas 200 Developer Kit(简称Atlas 200 DK),是以Atlas 200 AI加速模块为核心的开发者板形态的终端类产品,集成了 昇腾310 AI处理器。 多级算力配置,支持22/16/8 TOPS三级算力。
在这里插入图片描述

经验

Atlas 200DK是rc形态,是8个aicpu core分了4个当host用,性能较差。

Atlas 300I 推理卡

[白皮书(渠道版)] 华为Atlas 300I 推理卡 技术白皮书 (型号 3010)

[白皮书(渠道版)] 华为Atlas 300I 推理卡 技术白皮书 (型号 3000)

Atlas 300I 推理卡(型号:3000/3010)基于 昇腾310 AI处理器,提供超强AI推理性能,单卡算力可达88 TOPS INT8,支持80路高清视频实时分析,可广泛应用于智慧城市、智慧交通、智慧金融等场景。
在这里插入图片描述

Atlas 300I Pro 推理卡

[白皮书(渠道版)] 华为Atlas 300I Pro 推理卡 技术白皮书

[白皮书(渠道版)] 华为Atlas 300I Pro 推理卡 安全技术白皮书 01

Atlas 300I Pro 推理卡基于 昇腾710 AI处理器,融合“通用处理器、AI Core、编解
码”于一体,提供超强AI推理、目标检索等功能,具有
超强算力、超高能效、高性能特征检索、安全启动等优势,可广泛应用于OCR识别、语音分析、搜索推荐、内容审核等诸多AI应用场景。

Atlas 300I Duo 推理卡

Atlas 300I Duo 推理卡融合“通用处理器、AI Core、编
解码”于一体,提供AI推理、视频分析等功能,具有超
强算力、超高能效、高性能视频分析等优势,可广泛应用于互联网、智慧城市、智慧交通等多场景,支持检索聚类、内容审核、OCR识别、语音分析、视频分析等多应用。

Atlas 300V Pro 视频解析卡

Atlas 300V Pro 视频解析卡集成了 昇腾710 AI处理器,融合“通用处理器、AI Core、编解码”于一体,提供超强AI推理、视频图片编解码等功能,具有超大视频解析路数、高性能特征检索、安全启动等优势,支持128路高清视频实时分析,可广泛应用于智慧城市、智慧交通、智慧园区、智慧金融等诸多AI行业场景。

Atlas 300T 训练卡(型号:9000)

Atlas 300T 训练卡(型号:9000)是基于 昇腾910 AI芯片,配合服务器,为数据中心提供强劲算力的训练卡,单卡可提供280 TFLOPS FP16算力,加快深度学习训练进程。具有高计算密度、大内存、高带宽等优点,标准全高3/4长PCIe卡,适用于通用服务器。满足运营商、互联网、金融等需要人工智能训练以及高性能计算领域的算力需求。
在这里插入图片描述

Atlas 300T Pro 训练卡

[白皮书(渠道版)] Atlas 300T 训练卡 技术白皮书 (型号9000)

华为Atlas 300T Pro训练卡配合服务器,为数据中心提供强劲算力的AI加速卡,单卡可提供最高280 TFLOPS FP16算力,加快深度学习训练进程。Atlas 300T Pro具有最强算力、最高集成、最快带宽等特点,满足互联网、运营商、金融等需要人工智能训练以及高性能计算领域的算力需求。

Atlas 500 (型号:3000)智能小站

[白皮书(渠道版)] 华为Atlas 500 智能小站 技术白皮书(型号 3000, 3010)

[彩页(客户版)] 华为Atlas 500智能小站 产品彩页

[白皮书(渠道版)] 华为Atlas 500 智能小站 安全技术白皮书(型号 3000, 3010)02

Atlas 500智能小站(型号:3000)集成了 昇腾310 AI处理器,是面向边缘应用的产品,具有超强计算性能、体积小、环境适应性强、易于维护和支持云边协同等特点,可以在边缘环境广泛部署,满足在安防、交通、社区、园区、商场、超市等复杂环境区域的应用需求。
在这里插入图片描述

Atlas 500 Pro (型号:3000)智能边缘服务器

[白皮书(渠道版)] Atlas 500 Pro 智能边缘服务器 技术白皮书(型号 3000)

Atlas 500 Pro 智能边缘服务器(型号:3000)集成了 昇腾310 AI处理器,是面向边缘应用的产品,具有超强计算性能、高环境适应性、易于部署维护和支持云边协同等特点。可以在边缘场景中广泛部署,满足在安防、交通、社区、园区、商场、超市等复杂环境区域的应用需求。
在这里插入图片描述

Atlas 800 (型号:3000)推理服务器

[白皮书(渠道版)] Atlas 800 推理服务器 技术白皮书(型号 3000)

Atlas 800 推理服务器 (型号:3000)是 基于Kunpeng鲲鹏处理器+华为昇腾310处理器 的推理服务器,最大可支持8个
Atlas 300I/V Pro,提供强大的实时推理能力和视频分析
能力,广泛应用于中心侧AI推理场景。

Atlas 800 (型号:3010)推理服务器

[白皮书(渠道版)] Atlas 800 推理服务器 技术白皮书(型号 3010)

Atlas 800 推理服务器 (型号:3010)是 基于Intel处理器+华为昇腾310处理器 的推理服务器,最多可支持7个Atlas 300I/V Pro,支持896路高清视频实时分析,广泛应用于中心侧AI推理场景。

Atlas 800 (型号:9000)训练服务器

[白皮书(渠道版)] Atlas 800 训练服务器 技术白皮书 (型号 9000,液冷)

[白皮书(渠道版)] Atlas 800 训练服务器 技术白皮书 (型号9000, 风冷)

Atlas 800 训练服务器(型号:9000)是 基于华为鲲鹏920+昇腾910处理器 的AI训练服务器,具有 最强算力密度超高能效高速网络带宽 等特点。该服务器广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。
在这里插入图片描述

Atlas 800 (型号:9010)训练服务

[白皮书(渠道版)] Atlas 800 训练服务器 技术白皮书 (型号9010)

Atlas 800 训练服务器(型号:9010)是 基于华为昇腾910+Intel Cascade Lake处理器 的AI训练服务器,具有最强算力密度、高速网络带宽等特点。该服务器广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。

Atlas 900 PoD(型号:9000)AI训练集群基础单元

[白皮书(渠道版)] Atlas 900 PoD 技术白皮书 (型号9000, 直流)

[白皮书(渠道版)] Atlas 900 PoD 技术白皮书 (型号9000, 交流)

[白皮书(渠道版)] Atlas 900 计算节点 技术白皮书 (风冷)

[白皮书(渠道版)] Atlas 900 计算节点 技术白皮书 (液冷)

Atlas 900 PoD(型号:9000)是 基于华为昇腾910+ 鲲鹏920 处理器 的AI训练集群基础单元,具有超强AI算力、更优AI能效、最佳AI拓展等特点。该基础单元广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大AI算力的领域。
在这里插入图片描述

Atlas 900 AI集群

Atlas 900 AI集群代表了当今全球的算力巅峰,它 由数千颗昇腾910 AI处理器构成,通过华为集群通信库和作业调度平台,整合HCCS、 PCIe 4.0 和100G RoCE三种高速接口,充分释放昇腾910的强大性能。其总算力达到256P~1024P FLOPS @FP16,相当于50万台PC的计算能力。经实测,Atlas 900可以在60秒完成基于Resnet-50模型训练,比第2名快15%。这可以让研究人员更快的进行图像、语音的AI模型训练,让人类更高效的探索宇宙奥秘、预测天气、勘探石油,加速自动驾驶的商用进程。
在这里插入图片描述

十、FAQ

Q: Atlas 800 (型号:9000)与(型号:9010)的区别?

Atlas 800 训练服务器(型号:9000)是 基于华为鲲鹏920+昇腾910处理器 的AI训练服务器;Atlas 800 训练服务器(型号:9010)是 基于华为昇腾910+Intel Cascade Lake处理器 的AI训练服务器。

猜你喜欢

转载自blog.csdn.net/m0_37605642/article/details/125700635