ARMv8 浮点及NEON指令集 - 代码天地

ARMv8 浮点及NEON指令集

其他 2020-04-11 11:40:41 阅读次数: 0

在这里插入图片描述
通常，每个NEON指令都会导致n个指令并行执行！

向量寄存器

32个128位寄存器
在这里插入图片描述
32个64位寄存器

所有的寄存器都可以在任意时间被访问，且访问者不需要显式地在两种表示之间切换，指令会说明是使用64位还是128位寄存器形式。

浮点寄存器

在这里插入图片描述

标量与NEON

标量就相当于是向量中的某一个lane，通过index获取。
在这里插入图片描述

MOV V0.B[3], W0
只会把w0的第一个字节拷到v0寄存器的第四个lane：

乘法指令只允许16-bit和32-bit标量，而且只能使用前128个标量。即16-bit只能使用0~15号寄存器，32-bit可以使用所有寄存器(因为32个32位刚好是128个)
在这里插入图片描述

浮点参数

在这里插入图片描述

AArch64 NEON指令形式

主要是通过和ARMv7 NEON对比来说明ARMv8 NEON的形式

V前缀被移除

ARMv8 NEON指令具有完全统一的形式，不管是整数、浮点数还是向量。具体执行操作也是完全根据每个指令的不同和不同。
在这里插入图片描述
第一个是32位整数的加法指令；第二个是64位整数加法；第三个是浮点标量加法；最后是向量加法指令。

S U F P 四个前缀可以被添加用来说明是有符号、无符号、浮点数、多项式中的某一种数据类型

SADD x0, x0, x1
UADD x0, x0, x1
FADD D0, D0, D1
PADD v0.16B, v0.16B, v1.16B

向量的组织（元素size和数量）都是用向量寄存器的描述来区分的

ADD Vd.T, Vn.T, Vm.T
其中Vd Vn Vm都是寄存器的名字，T是寄存器的组织形式，可以是8B，16B，8H，4H，4S，2S，2D，D等。

如果是要对2个double进行向量加法：
ADD V0.2D, V0.2D, V1.2D

正常、长、宽、窄、饱和指令

Normal指令，对相同类型的数据进行操作，返回结果的数据类型与源类型相同
长指令，使用L作为后缀，结果数据的位数是源数据位数的两倍
SADDL V0.4S, V1.4H, V2.4H
Wide宽指令，对一个双字数据和一个单字数据进行操作，结果将都是双字数据，使用W作为后缀
SADDW V0.4S, V1.4H, V2.4S
Narrow指令，操作两个四字向量，得到双字向量，结果数据是源数据的一半长，使用N作为后缀
SUBHN V0.4H, V1.4S, V2.4S
有符号和无符号的饱和运算(SQ 和 UQ)，比如加法 SQADD 和 UQADD分别表示有符号饱和加以及无符号饱和加，如果结构数据超过了最大最小界限，饱和运算会使得结果不过超过最大或最小
SQADD V0.16B, V0.16B, V1.16B

后缀P，表示分对操作

比如ADDP V0.4S, V1.4S, V2.4S
在这里插入图片描述

后缀V，表示跨所有lane的操作

比如 ADDV S0, V1.4S
在这里插入图片描述

后缀2，表示对高位的那一半进行操作，可以用在Wide Narrow Lengthing等指令后

宽指令
narrow 指令
Lengthing 指令

发布了42 篇原创文章 · 获赞 33 · 访问量 7万+

私信关注

猜你喜欢

转载自blog.csdn.net/gaussrieman123/article/details/102702369

ARMv8 浮点及NEON指令集

【ARMv8 编程】ARMv8 指令集介绍

汇编-ARMv8架构指令集

ARMv8指令集架构

【ARMv8 SIMD和浮点指令编程】NEON 减法指令——减法也好几种

【ARMv8 SIMD和浮点指令编程】NEON 加法指令——加法都能玩出花

【ARMv8 SIMD和浮点指令编程】编程基础

Armv8上不弃不离的NEON／FPU

ARM Cortex-A系列编程指南之ARMv8 A -- 第五章 ARMv8指令集介绍

ARMv8 汇编指令编写的一些小技巧

关于ARMv8指令的几个问题

[assembly]-ARMV8的load/store指令学习笔记

【ARMv8 编程】A64 流控制指令

ARMv7，ARMv8（AArch64）浮点配置等相关知识

【ARMv8 SIMD和浮点指令编程】Libyuv I420 转 ARGB 流程分析

armv8、aarch64的架构：unrecognized command line option '-mfpu=neon'

【ARMv8 编程】A64 内存访问指令——内存存储指令

【ARMv8 编程】A64 内存访问指令——内存加载指令

【ARMv8 编程】A64 数据处理指令——位域&字节操作指令

【ARMv8 编程】A64 数据处理指令——移动&比较指令

【ARMv8 编程】A64 数据处理指令——逻辑&移位指令

【ARMv8 编程】A64 数据处理指令——算术指令

ARM Cortex-A系列编程指南之ARMv8 A -- 第六章 A64指令集

ARMv8体系结构基础04：算术和移位指令

ARMv8体系结构基础05：比较和跳转指令

【ARMv8 编程】A64 系统控制和其他指令

【ARMv8 编程】A64 内存访问其他指令

ARMv8简介

ARMv8 Caches

ARMV7,ARMV8

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)