NEON 指令集并行技术优化矩阵转置【Android】 - 代码天地

NEON 指令集并行技术优化矩阵转置【Android】

其他 2018-12-24 03:06:20 阅读次数: 0

版权声明：涉猎过的知识都像是不断汇入大海的涓涓细流，你怎么知道是哪条汇入的溪流让海洋成为海洋呢【转载请注明出处】 https://blog.csdn.net/panda1234lee/article/details/85222973

核心代码如下：转置一个 4*4的矩阵，更大的矩阵（不能被4整除的需要特殊处理边界）都可以通过分块来进行转置

void transpose32x4x4(float32x4_t *q0, float32x4_t *q1, float32x4_t *q2, float32x4_t *q3) {
    // ----------------------------------------------
    float32x4x2_t q01 = vtrnq_f32(*q0, *q1);
    float32x4x2_t q23 = vtrnq_f32(*q2, *q3);

    float32x4_t qq0 = q01.val[0];
    float32x2_t d00 = vget_low_f32(qq0);
    float32x2_t d01 = vget_high_f32(qq0);

    float32x4_t qq1 = q01.val[1];
    float32x2_t d10 = vget_low_f32(qq1);
    float32x2_t d11 = vget_high_f32(qq1);

    float32x4_t qq2 = q23.val[0];
    float32x2_t d20 = vget_low_f32(qq2);
    float32x2_t d21 = vget_high_f32(qq2);

    float32x4_t qq3 = q23.val[1];
    float32x2_t d30 = vget_low_f32(qq3);
    float32x2_t d31 = vget_high_f32(qq3);

    *q0 = vcombine_f32(d00, d20);
    *q1 = vcombine_f32(d10, d30);
    *q2 = vcombine_f32(d01, d21);
    *q3 = vcombine_f32(d11, d31);
    // ----------------------------------------------
}

q0-q3 在内存中的初始值如下图所示

经过 vtrn 操作后的结果为：

取低位和高位的结果为：

注意原始的4*4矩阵是

0	1	2	3
32	33	34	35
64	65	66	67
96	97	98	99

转置后应该为

0	32	64	96
1	33	65	97
2	34	66	98
3	35	67	99

所以，应该把 d00 和 d20 结合在一起，其他同理

最后验证一下转置的结果

    int ret = 0;
    for(int i = 0; i<COLS; i++)
    {
        for(int j = 0; j<ROWS; j++)
        {
            ret = src[j*COLS + i] == dst[i*ROWS + j];
            if(!ret)
            {
                LOGE("src[%s] != dst[%d] \t", j*COLS + i, i*ROWS + j);
                break;
            }
        }
    }

    if(ret)
        LOGE("Tranpose Correctly !\t");

如图所示，转置验证是正确的

1024*1024大小的矩阵，大约提升了 42.7% 的性能

猜你喜欢

转载自blog.csdn.net/panda1234lee/article/details/85222973

NEON 指令集并行技术优化矩阵转置【Android】

NEON 指令集并行技术优化矩阵旋转【Android】

NEON 指令集并行技术优化彩色图像转灰度图【Android】

【Neon】arm neon指令集指令解析

【NEON 和 VFP 编程】NEON乘法指令

NEON 指令集【基础备忘】

NEON指令集简介和开发

记ARM NEON指令集深度优化

ARM和NEON指令

neon指令数据解析

neon加速图像转置

arm neon优化

NEON技术粗浅认识

Android neon 学习笔记

linbpng 开启neon指令优化

【NEON 和 VFP 编程】NEON通用算术指令

【NEON 和 VFP 编程】NEON 和 VFP 伪指令

【NEON 和 VFP 编程】NEON移位指令

【NEON 和 VFP 编程】NEON通用数据处理指令

【NEON 和 VFP 编程】NEON 和 VFP 共享的指令

ARM Neon指令集的一些简单的应用

ARMv8 浮点及NEON指令集

aarch64 neon指令集拾遗

【Neon】配置Android Studio错误

NEON在Android中的使用举例

项目记录：SSE/NEON快速指令集优化像素拷贝

NEON 加速矩阵乘法优化 (任意阶)

【NEON 和 VFP 编程】VFP 指令

neon优化二维卷积算法

Android NDK开发之 NEON基础介绍

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)