一:AI芯片分类
- 从功能划分:
可以分为Training(训练)和Inference(推理)两个环节;
- 从应用场景划分:
可以分成“Cloud/DataCenter(云端)”和“Device/Embedded(设备端)“
- 从技术架构发展划分:
- 通用类芯片,代表如GPU、FPGA;
- 基于FPGA的半定制化芯片,代表如深鉴科技DPU、百度XPU等;
- 全定制化ASIC芯片,代表如TPU、寒武纪 Cambricon-1A等;
- 类脑计算芯片,代表如IBM TrueNorth、westwell、高通Zeroth等。
二:AI进化
人工智能大脑的进化
端侧人工智能的优点
端侧人工智能的应用场景
设备性能-功耗对比图
三:现有国内外端侧AI平台
公司 |
AI平台 |
技术特点 |
备注 |
高通 |
Zeroth |
|
|
华为 |
麒麟970 + NPU |
|
|
瑞芯微 |
RK3399Pro |
CPU+GPU+NPU |
|
NVIDIA |
TX系列 |
|
|
寒武纪 |
Cambricon-1A |
基于CNN神经网络 |
|
苹果 |
A11 Bionic |
神经网络引擎(Neural Engine) |
|
GTI |
SPR2801S |
|
|
耐能(Kneron) |
Kneron NPU IP |
NPU+SDK |
|
联发科 |
NeuroPilot |
|
|
百度 |
XPU |
基于FPGA的云计算加速芯片 |
欠缺可编程能力 |
深鉴科技 |
DPU |
基于FPGA的深度学习单元 |
|
|
Edge TPU |
|
|
IBM |
TrueNorth |
仿人脑计算芯片 |
|
西井科技 |
Deepsouth |
基于FPGA的神经形态芯片 |
|
地平线 |
BPU |
自研AI架构IP |
|
云知声 |
Unione/IVMM/Unitoy |
基于高通和Linux模组 |
|
启英泰伦 |
CI1006 |
语音识别ASIC芯片 |
|
云天励飞 |
IPU |
视觉智能芯片 |
|
人人智能 |
FaceOS |
基于ARM的人脸机芯 |
|
Nervana Systems |
The Nervana Engine |
专用优化ASIC芯片 |
|
ARM |
DynamIQ |
多核集聚 |
|
CEVA |
CEVA-XM6 |
支持深度学习的可编程DSP |
|
MIT |
Eyeriss |
人脸识别和语音识别 |
|
微软 |
Catapult |
FPGA |
|
Barefoot Networks |
Tofino |
可编程芯片 |
|
NovuMind |
|
张量处理架构 |
|
四:总结与思考
上述提到的这些端侧人工智能芯片平台,大部分还是只是雏形阶段,而且基本是都是为了适应某一专用应用场景而做的ASIC芯片,普适性不强。目前可用来作为端侧研究的平台也只有NVIDIA的TX系列,谷歌的Edge TPU和瑞芯微的平台。后续还会继续跟进,看是否能寻求到CPU(ARM)+GPU+NPU形式的端侧人工智能开发平台。