一、参考资料

1.1 解决方案

1.2 昇腾文档

昇腾文档
- 概览
  - 文档地图
  - 软件栈文档
  - 在线实验
  - 代码样例 - Sample
- 开发者文档（社区版）
- 开发者文档（商用版）
- 硬件产品文档

二、相关介绍

2.1 Ascend昇腾

华为昇腾系列芯片的系列名称。昇腾芯片上集成了AI CORE、AI CPU和CPU。其中，AI CORE负责大型Tensor Vector运算，AI CORE负责标量运算，CPU负责逻辑控制和任务分发。在昇腾310AI处理器（NPU）上，既有负责专用计算的Davinci Core，也有负责通用计算的Control CPU。

Host侧CPU负责将图或算子下发到昇腾芯片。昇腾芯片由于具备了运算、逻辑控制和任务分发的功能，所以不需要与Host侧的CPU进行频繁的交互，只需要将计算完的最终结果返回给Host侧，实现整图下沉到Device执行，避免Host-Device频繁交互，减小了开销。

2.1.1 达芬奇架构

达芬奇核心分为三种，最完整的是 Max，其次是 Lite，再次是 Tiny，Max 可在一个周期内完成 8192 次 MAC 运算，Tiny 为512次。昇腾 910 属于 Ascend-Max 系列，它基于 7nm 增强版 EUV 工艺，单 Die 内建 32颗达芬奇核心，半精度高达 256TFOPs，功耗为 350W。

2.1.2 计算密度

在 HotChips 大会上，华为还将昇腾 910 的计算密度与 NVIDIA Tesla V100 和 Google TPU v3进行了对比，其中昇腾 910 的计算密度远远超过了这两个竞争对手。

2.1.3 On Device

所谓On Device中的Device通常指Ascend（昇腾）AI处理器。

2.1.4 计算图下沉

on-device执行

计算图整图下沉到Device上执行，减少Host-Device交互开销。可以结合循环下沉实现多个Step下沉，进一步减少Host和Device的交互次数。

2.1.5 循环下沉

on-device执行

循环下沉是在On Device执行的基础上的优化，目的是进一步减少Host侧和Device侧之间的交互次数。通常情况下，每个Step都返回一个结果，循环下沉是控制每隔多少个Step返回一次结果。

默认配置下，每一个Epoch返回一次结果，在每个Epoch里，Host侧和Device侧只需要进行一次数据交互。

2.1.6 数据下沉

数据下沉是指数据通过通道直接传送到Device上。

2.2 昇腾产品形态

昇腾产品形态说明

2.2.1 设备形态

支持端、边、云的各种设备。

2.2.2 RC与EP模式

在这里插入图片描述

昇腾 AI 处理器的工作模式如下：

昇腾310 AI处理器有EP和RC两种模式。
昇腾710 AI处理器只有EP模式。
昇腾910 AI处理器只有EP模式。

RC（Root Complex）模式

以昇腾 AI 处理器的PCIe的工作模式进行区分，如果PCIe工作在 主模式，可以扩展外设，则称为 RC模式。这种模式下，计算设备直接承担主控任务，设备自己就是“根”。

**RC模式的优点：**内存管理简单，无需考虑Host侧的事情。

**RC模式的缺点：**不能平行接入同类设备。就是说，一个Atlas200做主控的时候，不能平行接入另一个Atlas200做并行计算，也就失去了扩展性。

支持RC模式的产品有：

Atlas 200 AI加速模块。
Atlas 200 DK 开发者套件。

EP（End Point）模式

如果PCIe 工作在 从模式，则称为 EP模式。EP模式通常 由Host侧作为主端，Device侧作为从端。客户的AI业务程序运行在Host系统中，产品作为Device系统以PCIe从设备接入Host系统，Host系统通过PCIe通道与Device系统交互，将AI任务加载到Device侧的昇腾 AI 处理器中运行。

**优点：**主控CPU在计算设备之外，可以用一个主控CPU接多个计算设备（比如Atlas300I推理卡），方便扩展，执行并行计算。

**缺点：**编程复杂度偏高一些。要考虑Host->Device内存数据传输及其时间开销。

支持EP模式的产品：

昇腾310 AI处理器：Atlas 200 AI加速模块、Atlas 300I 推理卡、Atlas 500 智能小站、Atlas 500 Pro 智能边缘服务器、Atlas 800 推理服务器。
昇腾710 AI处理器：Atlas 300I Pro 推理卡、Atlas 300V Pro 视频解析卡。
昇腾910 AI处理器：Atlas 800 训练服务器、Atlas 300T 训练卡。

2.2.3 Host与Device

Host和Device的概念说明如下：

Host：Host指与Device相连接的 X86服务器、ARM服务器，会利用Device提供的NN（Neural-Network）计算能力，完成业务。
Device：是指安装了昇腾AI处理器的硬件设备，利用PCIe接口与Host服务器连接，为Host服务器提供NN计算能力。广义的Device泛指安装了NPU的硬件设备，例如Atlas 300I。Atlas 300I 利用PCIe接口与主机（Host）侧连接，为Host提供NN计算能力。广义的Device既包含芯片，也包含板子上的内存等其他设备。Atlas 300I焊接了4片昇腾310 AI处理器，侠义的Device特指这几个芯片。

2.3 CPU

型号	厂家
kunpeng鲲鹏920	华为
Intel® Xeon® SP Skylake	Intel
Cascade Lake	Intel
Intel V5 Cascade Lake	Intel

2.4 NPU

Neural-Network Processing Unit（简称“NPU”），神经网络处理单元。

2.5 AI处理器

型号
昇腾310
昇腾910
昇腾920

查看昇腾芯片的详细信息：

ascend-dmi -i -dt

返回信息中“Chip Name”对应取值即为<soc_version>。使用atc命令转换模型时，实际配置的*<soc_version>值，要去掉“Chip Name”对应取值中的空格，例如“Chip Name”对应取值为Ascend xxx yyy，实际配置的<soc_version>值为Ascendxxxyyy*。

--soc_version=Ascend310
--soc_version=Ascend710
--soc_version=Ascend910A

2.6 ADK

Ascend Development Kit（简称“ADK”）设备开发套件，ADK是解决方案提供的开发者套件包，通过安装相关软件包后获得开发必需的API、库、工具链等开发组件。

2.7 华为全栈全场景AI解决方案

在这里插入图片描述

2.8 Atlas人工智能计算平台全景图

在这里插入图片描述

2.9 1平台+3计划

1平台+3计划，支撑昇腾产业合作伙伴及开发者。五年投资30亿RMB，发展3000家合作伙伴，培养百万开发者。
在这里插入图片描述

三、Atlas人工智能计算解决方案

3.1 Atlas智能边缘解决方案

华为Atlas智能边缘解决方案，基于华为昇腾系列处理器，通过模块、板卡、小站等系列化产品，打造面向端侧和面向边缘侧场景下人工智能基础设施方案。端侧摄像头、无人机等端侧部署AI模块可实现视频监控、图像识别；面向边缘侧的智能小站凭借超强算力、体积小、环境舒适性强等优势，可满足在安防、交通、社区、园区、商场、超市等复杂环境区域的AI算力需求。

相关产品

Atlas 200 AI加速模块（型号：3000）；
Atlas 300I 推理卡（型号：3000/3010）；
Atlas 500 智能小站（型号：3000）；
Atlas 500 Pro 智能边缘服务器（型号：3000）；

3.2 Atlas数据中心解决方案

华为Atlas数据中心解决方案，基于华为昇腾系列AI处理器，通过板卡、服务器、集群等系列化产品，打造云场景下人工智能基础设施方案，适配各种不同规模数据中心需求，覆盖深度学习领域推理和训练全流程，适用于智慧城市、智慧医疗、智慧金融、天文探索、石油勘探等行业领域。

相关产品

Atlas 300T 训练卡（型号：9000）；
Atlas 800 训练服务器（型号：9000）；
Atlas 900 PoD（型号:9000）;
Atlas 900 AI集群（型号:9000）;

四、ModelArts

ModelArts 应用使能，提供全流程服务，分层API和预集成方案。ModelArts是面向开发者的一站式 AI开发平台，为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式 Training、自动化模型生成，及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。专属资源池为专业用户提供高性能，高效率的优化体验，资源池支持包周期及按需计费，满足不同专业用户需求。

五、MindStudio

MindStudio 用户手册

MindStudio 全流程开发工具链，提供AI开发所需的一站式开发环境，支持 模型开发、算子开发、应用开发三个开发任务。依靠 模型可视化、算力测试、IDE本地仿真调试 等功能，帮助开发者高效便捷的完成AI开发。

MindStudio 全流程工具链串起一条从上到下的应用流，从训练模型、开发模型到应用模型和使用 SDK，快速的走通一个应用、一个分类目标检测的应用。
在这里插入图片描述

5.1 MindStudio架构

MindStudio 是一套基于 IntelliJ 框架的开发工具平台，提供了应用开发、调试、模型转换功能，同时还提供了网络移植、优化和分析功能，为用户开发应用程序带来了极大的便利。

功能特性

针对算子开发，Mind Studio提供了全套的算子开发、调优能力。通过Mind Studio提供的工具链也可以进行第三方算子开发，降低了算子开发的门槛，并提高算子开发及调试调优的效率，有效提升了产品竞争力。
针对网络模型的开发，Mind Studio集成了离线模型转换工具、模型量化工具、模型精度比对工具、模型运行性能分析工具、日志分析工具，提升了网络模型移植、分析和优化的效率。
针对计算引擎开发，Mind Studio预置了典型的分类网络、检测网络等计算引擎代码，降低了开发者的技术门槛，加快了开发者对AI算法引擎的编写及移植效率。
针对应用开发，Mind Studio集成了各种工具，如分析器（Profiler）和编译器（Compiler）等，为开发者提供了图形化的集成开发环境，通过Mind Studio能够进行工程管理、编译、调试、性能分析等全流程开发，能够很大程度提高开发效率。

5.2 AI全栈开发典型场景

应用开发场景的流程：创建应用工程，代码开发，模型集成，应用调试，应用性能调优，质量保证，发布应用。
模型调优场景：创建算法工程，模型训练，生成模型，模型转换，模型算子精度比对，模型整网调优，模型评估。
算子开发场景：创建算子工程，算子开发，算子调试，算子仿真运行，算子性能调优，算子上板运行，算子质量评估。

六、MindSpore

MindSpore 白皮书

MindSpore 文档

MindSpore昇思是华为自研的深度学习框架，最佳匹配昇腾AI处理器算力的全场景AI框架，支持端、边、云独立的和协同的统一训练和推理，支持全场景灵活部署。全场景的意思是从「大规模公有 $\textcolor{Red}{云端}$ 环境」一直到「智能 $\textcolor{Red}{边缘}$ 」的智能相机、边缘盒子、手机，甚至是 $\textcolor{Red}{终端}$ 嵌入式开发板，都可以用这一套框架来开发。

功能特性

自动并行。从最基础的数据并行，到可以做模型并行、再到 Pipeline 并行。MindSpore 是混合自动并行，意思是可以自动进行「最优的分布式并行策略」搜索，可以给开发者提供最优的并行策略。
二阶优化。做二阶求导是理论上非常符合直觉，但是工程实践上非常难的事情。尤其是你可以持续保持你做一阶的正增益，效率提高将近 1 倍，但MindSpore 是可以做到的。
动静态图结合。
全场景部署协同。MindSpore 和华为昇腾硬件平台配合，可以发挥巨大的性能，提供很多性能调试工具。

七、CANN

CANN （Compute Architecture for Neural Networks）异构计算架构是芯片算子库和高度自动化算子开发工具，实现了统一异构计算架构，释放昇腾硬件澎湃算力。强大的异构计算平台，能够充分的释放强大的算力，提供了 AscendCL 统一编程接口，通过 CANN 的优化做到极致性能。CANN能够支持异构计算，尤其是进行大量面向底层硬件编译优化的软件系统。
在这里插入图片描述

7.1 AscendCL

Ascend Computer Language（AscendCL，简称“ACL”）昇腾统一编程语言，实现软硬件解耦，提供Device管理、Context管理、Stream管理、运行资源管理、内存管理、模型加载与执行、算子加载与执行、媒体数据处理等C++ API库，能够实现利用昇腾硬件计算资源、在昇腾CANN平台上进行 深度学习推理计算、图形图像预处理、单算子加速计算等能力，供用户开发深度神经网络应用。简单来说，就是 $\textcolor{Red}{统一的API框架，实现对所有资源的调用}$ 。

计算资源层是昇腾AI处理器的硬件算力基础，主要完成神经网路的矩阵相关计算，完成控制算子/标量/向量等通用计算和执行控制功能，完成图像和视频数据的预处理，未深度神经网络计算提供执行上的保障。

功能特性

高度抽象：算子编译、加载、执行的API归一，相比每个算子一个API，AscendCL大幅减少API数量，降低复杂度。
向后兼容：AscendCL具备向后兼容，确保软件升级后，基于旧版本编译的程序依然可以在新版本上运行。
零感知芯片：一套AscendCL接口可以实现应用代码统一，多款昇腾AI处理器无差异。

7.2 AOL

昇腾算子库。

7.3 ATC

昇腾张量编译器。

7.4 ACE

昇腾计算执行器。

7.5 DVPP

昇腾CANN系列课程-AscendCL特性之图像增强(C++)

DVPP数字视觉预处理，实现硬件加速，提升图像预处理并行能力。DVPP各组件基于处理速度和处理占有量的考虑，对输入、输出有特殊的限制，如**对输出图片的宽高有对齐要求，且其输出格式通常为YUV420SP等格式。**在视频分析的场景下有广阔的应用。

功能模块

视频解码模块（VDEC）：视频解码模块提供对H.264/H.265格式视频的解码功能，对输入的视频码流进行解码并输出图片，可用于视频结构化等场景。
视频编码模块（VENC）：与之相对应的，视频编码模块可将原始YUV数据帧编码成H.264/H.265格式的视频流，用于直接展示等场景。
JPEG图片解码（JPEGD）：将.jpg、.jpeg、.JPG、.JPEG图片解码成YUV格式图片，用于模型推理等场景。
JPEG图片编码（JPEGE）：将YUV格式图片编码成.jpg图片，用于直接展示等场景。
视觉与处理模块（VPC）：可以实现图片的裁剪抠图（crop）、缩放（resize）、粘贴（paste）、格式转换（YUV/RGB到YUV420）等功能。

DVPP的缩放（resize）接口对输出数据的分辨率是有对齐要求的，即要求输出数据的分辨率要进行16 x 2对齐。

DVPP内存管理

一定要用 acldvppMalloc() 这个接口来申请Device上的大页内存，通过该接口申请出来的大页内存满足数据处理的要求（例如，内存首地址128对齐）。acldvppMalloc() 申请出来的内存必须由 acldvppFree() 来释放。

// 申请DVPP内存
aclError acldvppMalloc(void **devPtr, size_t size)

// 释放DVPP内存
aclError acldvppFree(void *devPtr)

使用DVPP中的VPC进行图像处理时，输入和输出内存地址起始要求16字节对齐，其中128字节对齐性能最高。

VPC基本流程

VPC的图像处理接口，当前都是异步接口，因此调用异步接口后，不能马上释放资源，需调用同步等待接口 aclrtSynchronizeStream() 阻塞应用程序运行直到指定Stream中的所有任务都完成，任务执行完成后才能释放。
在这里插入图片描述

7.6 AIPP

AIPP（Artificial Intelligence Pre-Processing）人工智能预处理，主要用于在AI Core上完成数据预处理，通过AIPP提供的色域转换功能，输出满足要求的图片格式；通过改变图像尺寸中的补边（Padding）功能，输出满足长宽对齐的图片等，数据处理之后再进行真正的模型推理。AIPP的出现是对DVPP能力的有效补充。

通过在模型转换过程中开启AIPP功能，可以在推理之前就完成所有的数据处理，专门的加速模块实现并保证性能，可以不让图像处理成为推理阶段的瓶颈，图像处理方式比较灵活。

功能	解释
改变图像尺寸	Crop（抠图）、补边（Padding）
色域转换	转换图像格式

静态AIPP与动态AIPP

把模型转换过程中集成的“AIPP”叫做“静态AIPP”，是因为这部分AIPP能力已经被融入到om中了，没法在编程角度通过代码控制。与之相对应的还有“动态AIPP”，即编写代码能够控制的AIPP。两者之间的区别如下：
在这里插入图片描述
DVPP与AIPP对比

	DVPP	AIPP
对输出数据的尺寸是否对齐	是	否

在这里插入图片描述

7.7 HCCL

HCCL华为通信集合库，在分布式训练中为不同昇腾AI处理器之间提供高效的数据传输能力。

八、MindX

昇腾应用使能，MindX包含“2+1+X”，深度学习使能 MindX DL 、智能边缘使能 MindX Edge、1个优选模型库 ModelZoo和X个行业SDK。
在这里插入图片描述

8.1 MindX DL

MindX DL（昇腾深度学习组件）是支持 Atlas 800 训练服务器、Atlas 800 推理服务器的深度学习组件实现深度学习使能，提供昇腾AI处理器资源管理和监控、昇腾AI处理器优化调度、分布式训练集合通信配置生成等基础功能。数据中心计算资源统一管理与调度，使能合作伙伴快速开发深度学习系统。
在这里插入图片描述

8.2 MindX Edge

MindX Edge（昇腾智能边缘组件）智能边缘使能，提供边缘AI业务容器的全生命周期管理能力，为客户提供边云协同的边缘计算解决方案，使能客户快速构建边缘 AI 业务。轻量化的边缘计算资源管理运维，使能行业客户快速搭建边云协同推理平台。
在这里插入图片描述

8.3 ModelZoo

ModelZoo优选模型库，为开发者提供丰富的场景化优选预训练模型，为开发者解决了模型的选型难、训练难、优化难等问题。

8.4 MindX SDK

MindX SDK行业AI应用开发套件，面向行业场景的完整AI开发套件，提供极简易用的API及图形界面，使能开发者以极少代码快速开发行业AI应用。比如，mxVision，行业 SDK mxManufacture，AI 超算、交易、医疗、金融、电力……用尽量少的代码，打通一个全流程。
在这里插入图片描述

九、Atlas系列硬件

Atlas系列硬件

昇腾计算

Atlas是基于Ascend系列AI处理器，通过丰富的产品形态，打造面向“端、边、云”的全场景AI基础设施方案。

Altas行业解决方案

平安城市；
智慧网点；
高压线无人巡检；
省界收费站“自由流”；
智能推荐系统；
智慧营业厅；

Atlas 200 AI加速模块（型号：3000）

[白皮书（渠道版）] 华为Atlas 200 AI加速模块技术白皮书（型号 3000）

Atlas 200 AI加速模块（型号：3000）集成了昇腾310 AI处理器，可以在端侧实现目标识别、图像分类等，广泛用于智能摄像机、机器人、无人机等端侧AI场景。
在这里插入图片描述

Atlas 200 DK（型号：3000）

[白皮书（渠道版）] 华为Atlas 200 DK 开发者套件技术白皮书（型号 3000）08

Atlas 200开发者套件（型号：3000），又称Atlas 200 Developer Kit（简称Atlas 200 DK），是以Atlas 200 AI加速模块为核心的开发者板形态的终端类产品，集成了昇腾310 AI处理器。多级算力配置，支持22/16/8 TOPS三级算力。
在这里插入图片描述

经验

Atlas 200DK是rc形态，是8个aicpu core分了4个当host用，性能较差。

Atlas 300I 推理卡

[白皮书（渠道版）] 华为Atlas 300I 推理卡技术白皮书 (型号 3010)

[白皮书（渠道版）] 华为Atlas 300I 推理卡技术白皮书 (型号 3000)

Atlas 300I 推理卡（型号：3000/3010）基于昇腾310 AI处理器，提供超强AI推理性能，单卡算力可达88 TOPS INT8，支持80路高清视频实时分析，可广泛应用于智慧城市、智慧交通、智慧金融等场景。
在这里插入图片描述

Atlas 300I Pro 推理卡

[白皮书（渠道版）] 华为Atlas 300I Pro 推理卡技术白皮书

[白皮书（渠道版）] 华为Atlas 300I Pro 推理卡安全技术白皮书 01

Atlas 300I Pro 推理卡基于昇腾710 AI处理器，融合“通用处理器、AI Core、编解
码”于一体，提供超强AI推理、目标检索等功能，具有
超强算力、超高能效、高性能特征检索、安全启动等优势，可广泛应用于OCR识别、语音分析、搜索推荐、内容审核等诸多AI应用场景。

Atlas 300I Duo 推理卡

Atlas 300I Duo 推理卡融合“通用处理器、AI Core、编
解码”于一体，提供AI推理、视频分析等功能，具有超
强算力、超高能效、高性能视频分析等优势，可广泛应用于互联网、智慧城市、智慧交通等多场景，支持检索聚类、内容审核、OCR识别、语音分析、视频分析等多应用。

Atlas 300V Pro 视频解析卡

Atlas 300V Pro 视频解析卡集成了昇腾710 AI处理器，融合“通用处理器、AI Core、编解码”于一体，提供超强AI推理、视频图片编解码等功能，具有超大视频解析路数、高性能特征检索、安全启动等优势，支持128路高清视频实时分析，可广泛应用于智慧城市、智慧交通、智慧园区、智慧金融等诸多AI行业场景。

Atlas 300T 训练卡（型号:9000）

Atlas 300T 训练卡（型号：9000）是基于昇腾910 AI芯片，配合服务器，为数据中心提供强劲算力的训练卡，单卡可提供280 TFLOPS FP16算力，加快深度学习训练进程。具有高计算密度、大内存、高带宽等优点，标准全高3/4长PCIe卡，适用于通用服务器。满足运营商、互联网、金融等需要人工智能训练以及高性能计算领域的算力需求。
在这里插入图片描述

Atlas 300T Pro 训练卡

[白皮书（渠道版）] Atlas 300T 训练卡技术白皮书 (型号9000)

华为Atlas 300T Pro训练卡配合服务器，为数据中心提供强劲算力的AI加速卡，单卡可提供最高280 TFLOPS FP16算力，加快深度学习训练进程。Atlas 300T Pro具有最强算力、最高集成、最快带宽等特点，满足互联网、运营商、金融等需要人工智能训练以及高性能计算领域的算力需求。

Atlas 500 （型号：3000）智能小站

[白皮书（渠道版）] 华为Atlas 500 智能小站技术白皮书（型号 3000, 3010）

[彩页（客户版）] 华为Atlas 500智能小站产品彩页

[白皮书（渠道版）] 华为Atlas 500 智能小站安全技术白皮书（型号 3000, 3010）02

Atlas 500智能小站（型号：3000）集成了昇腾310 AI处理器，是面向边缘应用的产品，具有超强计算性能、体积小、环境适应性强、易于维护和支持云边协同等特点，可以在边缘环境广泛部署，满足在安防、交通、社区、园区、商场、超市等复杂环境区域的应用需求。
在这里插入图片描述

Atlas 500 Pro （型号：3000）智能边缘服务器

[白皮书（渠道版）] Atlas 500 Pro 智能边缘服务器技术白皮书（型号 3000）

Atlas 500 Pro 智能边缘服务器（型号：3000）集成了昇腾310 AI处理器，是面向边缘应用的产品，具有超强计算性能、高环境适应性、易于部署维护和支持云边协同等特点。可以在边缘场景中广泛部署，满足在安防、交通、社区、园区、商场、超市等复杂环境区域的应用需求。
在这里插入图片描述

Atlas 800 （型号：3000）推理服务器

[白皮书（渠道版）] Atlas 800 推理服务器技术白皮书（型号 3000）

Atlas 800 推理服务器（型号：3000）是基于Kunpeng鲲鹏处理器+华为昇腾310处理器的推理服务器，最大可支持8个
Atlas 300I/V Pro，提供强大的实时推理能力和视频分析
能力，广泛应用于中心侧AI推理场景。

Atlas 800 （型号：3010）推理服务器

[白皮书（渠道版）] Atlas 800 推理服务器技术白皮书（型号 3010）

Atlas 800 推理服务器（型号：3010）是基于Intel处理器+华为昇腾310处理器的推理服务器，最多可支持7个Atlas 300I/V Pro，支持896路高清视频实时分析，广泛应用于中心侧AI推理场景。

Atlas 800 （型号：9000）训练服务器

[白皮书（渠道版）] Atlas 800 训练服务器技术白皮书 (型号 9000，液冷)

[白皮书（渠道版）] Atlas 800 训练服务器技术白皮书 (型号9000, 风冷)

Atlas 800 训练服务器（型号：9000）是基于华为鲲鹏920+昇腾910处理器的AI训练服务器，具有 最强算力密度、超高能效 与 高速网络带宽 等特点。该服务器广泛应用于深度学习模型开发和训练，适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。
在这里插入图片描述

Atlas 800 （型号：9010）训练服务

[白皮书（渠道版）] Atlas 800 训练服务器技术白皮书 (型号9010)

Atlas 800 训练服务器（型号：9010）是基于华为昇腾910+Intel Cascade Lake处理器的AI训练服务器，具有最强算力密度、高速网络带宽等特点。该服务器广泛应用于深度学习模型开发和训练，适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。

Atlas 900 PoD（型号：9000）AI训练集群基础单元

[白皮书（渠道版）] Atlas 900 PoD 技术白皮书 (型号9000, 直流)

[白皮书（渠道版）] Atlas 900 PoD 技术白皮书 (型号9000, 交流)

[白皮书（渠道版）] Atlas 900 计算节点技术白皮书 (风冷)

[白皮书（渠道版）] Atlas 900 计算节点技术白皮书 (液冷)

Atlas 900 PoD（型号：9000）是基于华为昇腾910+ 鲲鹏920 处理器的AI训练集群基础单元，具有超强AI算力、更优AI能效、最佳AI拓展等特点。该基础单元广泛应用于深度学习模型开发和训练，适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大AI算力的领域。
在这里插入图片描述

Atlas 900 AI集群

Atlas 900 AI集群代表了当今全球的算力巅峰，它由数千颗昇腾910 AI处理器构成，通过华为集群通信库和作业调度平台，整合HCCS、 PCIe 4.0 和100G RoCE三种高速接口，充分释放昇腾910的强大性能。其总算力达到256P～1024P FLOPS @FP16，相当于50万台PC的计算能力。经实测，Atlas 900可以在60秒完成基于Resnet-50模型训练，比第2名快15%。这可以让研究人员更快的进行图像、语音的AI模型训练，让人类更高效的探索宇宙奥秘、预测天气、勘探石油，加速自动驾驶的商用进程。
在这里插入图片描述

十、FAQ

Q: Atlas 800 （型号：9000）与（型号：9010）的区别？

Atlas 800 训练服务器（型号：9000）是基于华为鲲鹏920+昇腾910处理器的AI训练服务器；Atlas 800 训练服务器（型号：9010）是基于华为昇腾910+Intel Cascade Lake处理器的AI训练服务器。

华为Ascend昇腾计算产业介绍

一、参考资料

1.1 解决方案

1.2 昇腾文档

二、相关介绍

2.1 Ascend昇腾

2.1.1 达芬奇架构

2.1.2 计算密度

2.1.3 On Device

2.1.4 计算图下沉

2.1.5 循环下沉

2.1.6 数据下沉

2.2 昇腾产品形态

2.2.1 设备形态

2.2.2 RC与EP模式

2.2.3 Host与Device

2.3 CPU

2.4 NPU

2.5 AI处理器

2.6 ADK

2.7 华为全栈全场景AI解决方案

2.8 Atlas人工智能计算平台全景图

2.9 1平台+3计划

三、Atlas人工智能计算解决方案

3.1 Atlas智能边缘解决方案

3.2 Atlas数据中心解决方案

四、ModelArts

五、MindStudio

5.1 MindStudio架构

5.2 AI全栈开发典型场景

六、MindSpore

七、CANN

7.1 AscendCL

7.2 AOL

7.3 ATC

7.4 ACE

7.5 DVPP

7.6 AIPP

7.7 HCCL

八、MindX

8.1 MindX DL

8.2 MindX Edge

8.3 ModelZoo

8.4 MindX SDK

九、Atlas系列硬件

Atlas 200 AI加速模块（型号：3000）

Atlas 200 DK（型号：3000）

经验

Atlas 300I 推理卡

Atlas 300I Pro 推理卡

Atlas 300I Duo 推理卡

Atlas 300V Pro 视频解析卡

Atlas 300T 训练卡（型号:9000）

Atlas 300T Pro 训练卡

Atlas 500 （型号：3000）智能小站

Atlas 500 Pro （型号：3000）智能边缘服务器

Atlas 800 （型号：3000）推理服务器

Atlas 800 （型号：3010）推理服务器

Atlas 800 （型号：9000）训练服务器

Atlas 800 （型号：9010）训练服务

Atlas 900 PoD（型号：9000）AI训练集群基础单元

Atlas 900 AI集群

十、FAQ

Q: Atlas 800 （型号：9000）与（型号：9010）的区别？

猜你喜欢