ARM释放Cortex-A77 CPU、机器学习处理器和mail-G77 GPU

ARM发布了一套IP,包括ARM Cortex-A77 CPU、ARM Mali-G77 GPU和ARM机器学习(ML)处理器。
Cortex-A77每时钟提供20%的指令(IPC)性能改进,是Cortex-A75机器学习性能的35倍。它还提供了20%的整数性能改进,35%更好的浮点性能,15%更高的内存带宽。
分支预测:分支预测带宽的两倍,1级分支目标缓冲区(BTB)容量的4倍,2级BTB容量的33%
内存:通过宏操作(MOP)缓存进行高带宽、低延迟提取操作和动态代码优化;基于内存子系统配置的动态数据预取;两倍专用的负载存储问题带宽
执行:整数执行带宽增加50%,每个周期最多支持6条指令;无序窗口大小增加25%,达到160条指令;并添加了第二个AES加密PIP。
ARM机器学习(ML)处理器是一个神经处理单元(NPU),每瓦每秒可提供高达5tera的操作。基于Winograd架构,该架构由执行卷积层的固定功能引擎和非卷积层的可编程层引擎组成,ARMML处理器在普通过滤器上的性能比竞争的NPU高出225%。

ARM ML处理器的主要功能包括:
网络类型:卷积神经网络(CNN)和循环神经网络(RNN)支持分类、目标检测、语音识别、自然语言处理和其他边缘人工智能(AI)应用。
异构计算:与Cortex-A CPU和Mali GPU一起使用的优化
多核可扩展性:集群中最多8个NPU和32个顶层,或者网格配置中最多64个NPU
软件和框架支持:ARMML处理器通过onnx生态系统与TensorFlow、TensorFlowLite、Caffe、Caffe2和其他框架集成。它还与ARMNN软件开发工具包(SDK)兼容。
新的Mali-G77 GPU基于Valhall体系结构,它提供了增强的微体系结构引擎、加载存储缓存和纹理管道。这些升级将使性能提高40%,密度提高30%,能效提高30%,机器学习推断性能比上一代提高60%。ARM预计这将导致峰值图形性能提高40%。

Valhall微体系结构的亮点包括:
更宽的执行引擎:两个16宽的执行引擎,每个核心提供32个融合乘法加法(fma)(每个核心的执行引擎提供两个16 fma的集群)。
四纹理映射器:每个周期有四个texel,提供双倍的MALI-G76吞吐量。
动态指令调度:调度程序决定哪些指令应该从哪个扭曲执行。这完全在硬件中处理,然后传送到独立的并行算术逻辑单元(ALU)。
ARM帧缓冲压缩1.3:AFBC 1.3支持2平面YUV、改进的前缓冲渲染和单独的深度/模板编码,以更好地与Vulkan等API兼容。

猜你喜欢

转载自blog.csdn.net/qq_43359864/article/details/92830406