浅谈英特尔One API

1.OneAPI行业计划

1.1多个架构的编程挑战

专用工作负载日益增多需要各种不同的以数据为中心的硬件。如今，每种架构都需要单独的编程模型和工具链软件开发的复杂性限制了架构选择的自由

1.2OneAPI 一种用于多种架构和厂商的编程模型

自由选择
▪ 选择软件无法替您决定的最佳加速技术
实现所有硬件价值
▪ 跨 CPU、GPU、FPGA 和其他加速器的性能
放心地开发和部署软件
▪ 开放的行业标准为未来提供了一条安全、清晰的道路
▪ 与现有的语言和编程模型兼容，包括 C++、Python、SYCL、OpenMP、Fortran 和 MPI

1.3强大的OneAPI库

实现所有硬件价值
旨在加速特定领域的关键功能
自由选择
针对每个目标平台进行了预优化，以实现最佳性能

2.英特尔oneAPI产品

基于英特尔丰富的 CPU工具传承并扩展到 XPU 架构，一套完整的高级编译器、库以及移植、分析和调试器工具
▪ 利用最先进的硬件功能加速计算
▪ 可与现有的编程模型和代码库 (C++、Fortran、Python、OpenMP 等）互操作，开发人员可放心
将现有应用与 oneAPI 无缝协作
▪ 易于过渡到新系统和加速器 --使用单一代码库让开发人员有更多时间投入创新

2.1英特尔 ® DPC++ 兼容性工具

协助开发人员一次性将用 CUDA 编写的代码迁移至 DPC++，尽可能生成人类可读的代码
大约 90-95%的代码通常会自动迁移
提供行内注释，帮助开发人员完成应用移植

2.2分析和调试工具

2.3英特尔® oneAPI 工具套件

一整套经过验证的开发人员工具，从 CPU 扩展到更多加速器

扫描二维码关注公众号，回复： 15308662 查看本文章

3.关于英特尔 ® oneAPI 工具套件的详细信息

3.1英特尔 ® oneAPI基础工具套件

一组核心工具和库，用于在英特尔® CPU、GPU 和
FPGA 上开发高性能应用。
供谁使用？
▪ 不同行业的各类开发人员
▪ 附加工具套件用户，因为它是所有工具套件的基础
主要特性/优势
▪ 数据并行 C++ 编译器、库和分析工具
▪ DPC++ 兼容性工具可帮助迁移使用CUDA编写的现有代码
▪ Python分发版包括加速的scikit-learn,NumPy和SciPy库
▪ 优化的性能库，支持线程化、数学、数据分析、深度学习和
视频/图像/信号

3.2Intel ® oneAPI DPC++/C++ 编译器

该编译器可跨 CPU 和加速器提供卓越的并行编程效率和性能
▪ 支持针对不同目标硬件的代码复用，以及面向特定加速器的自定义调优
▪ 替代专属语言的开放式、跨行业方案
DPC++ 基于 ISO C++ 和 Khronos SYCL
▪ 使用通用和熟悉的 C 和 C++ 构造，实现 C++ 的效率优势
▪ 集成了 Khronos Group 的 SYCL，支持数据并行性和异构编程
基于英特尔在架构和高性能编译器领域积累的数十年经验

3.3英特尔 ® oneAPI 聚合通信库优化通信模式

提供优化的通信模式，以在英特尔CPU和GPU上实现高性能，从而将模型训练分配给多个节点
以透明的方式支持多种互连，如英特尔® Omni-Path 架构、InfiniBand 和以太网
基于低层通信中间件（MPI 和 libfabrics）构建
支持高效实施用于深度学习训练的集合 — all-gather、all-reduce 和 reduce-scatter

3.4英特尔 ® VTune ™ 分析器

DPC++ 分析⎯面向CPU、GPU和FPGA调优

分析数据并行 C++ (DPC++)
查看占用时间最多的 DPC++代码行
面向英特尔CPU、GPU和FPGA调优
针对任何支持的硬件加速器进行优化
优化卸载
调整OpenMP卸载性能
各种性能分析
CPU、GPU、FPGA、线程、内存、缓存、存储…
支持常用的语言
DPC++、C、C++、Fortran、Python、Go、Java 或语言组合

3.5英特尔 ® Advisor

设计助手 — 专门针对现代化硬件量身设计

Offload Advisor
预估卸载至加速器的性能
Roofline 分析
优化用于内存和计算的 CPU/GPU 代码
Vectorization Advisor
添加和优化矢量化
Threading Advisor
为非线程化应用添加有效的线程化功能
流图分析器
高效创建和分析流图