【OpenCV】访存优化 - 代码天地

【OpenCV】访存优化

企业开发 2023-09-29 20:24:46 阅读次数: 0

随机访问与顺序访问

顺序访问

void BM_ordered(benchmark::State &bm) {
    
    
	for(auto _: bm) {
    
    
#pragma omp parallel for
		for(size_t i = 0; i<n; i++) {
    
    
			benchmark::DoNotOptimize(a[a[i]]);
		}
		benchmark::DoNotOptimize(a[a[i]]);
	}
}

BENCHMARK(BM_ordered);

随机访问

void BM_random(benchmark::State &bm) {
    
    
	for(auto _ : bm) {
    
    
#pragma omp parallel for
		for( size_t i = 0; i < n; i++) {
    
    
			size_t r = randomize(i) % n;
			benchmark::DoNotOptimize(a[a[i]]);
		}
		benchmark::DoNotOptimize(a[a[i]]);
	}
}

结果：
在这里插入图片描述

随机访问的效率比顺序访问低的多
随机访问只会访问到其中一个float,而这导致附近的64字节都被读取到缓存了，但是只用到了其中4字节，之后又没有用到剩下的60字节，导致浪费了94%的带宽
虽然说连续、顺序访问是最理想的，然而在使用哈希表等数据结构中，不可避免的会通过哈希函数得到随机的地址来访问，且Value类型可能小于64字节，浪费带宽。

解决按最大的分块(4096字节)随机访问

解决方案，把分块的大小调的更大一些，比如4KB那么大，即64个缓存行，而不是一个
这样一次随机访问之后会伴随64次顺序访问，能被CPU检测到，从而启动缓存行预取，避免了等待数据抵达前空转浪费时间。

void BM_random_64B(benchmark::State &bm) {
    
    
	for(auto _ : bm) {
    
    
#pragma omp parallel for
		for( size_t i = 0; i < n/16; i++) {
    
    
			size_t r = randomize(i) % (n/16);
			for (size_t j = 0; j < 16; j++) {
    
    
				benchmark::DoNotOptimize(a[a[i]]);
			}
		}
		benchmark::DoNotOptimize(a[a[i]]);
	}
}

void BM_random_4KB(benchmark::State &bm) {
    
    
	for(auto _ : bm) {
    
    
#pragma omp parallel for
		for( size_t i = 0; i < n/1024; i++) {
    
    
			size_t r = randomize(i) % (n/1024);
			for (size_t j = 0; j < 1024; j++) {
    
    
				xxx
			}
		}`
	}
}

在这里插入图片描述

页对齐的重要性

为什么是4KB？因为操作系统管理内存是用分页，程序的内存是一页一页贴在地址空间中的，有些地方可能不可访问呢，或者还没有分配，则把这个页设为不可用状态，访问他就会出错，进入内核模式。
因此硬件处于安全，预取不能跨越页边界，否则可能出发不必要的page fault。所以我们选用页的大小，因为本来就不能跨页顺序预取，所以被我们切掉也无所谓
我们可以用 mm_alloc 申请起始地址对齐到页边界的一段内存，真正做到每个块内部不出现跨页现象。

为什么写入比读取慢？

在这里插入图片描述

写入花的时间似乎是读取的2倍
写入的同事读取，和单写入的时间是一样的
似乎写入一个数组的同时也会读取这个数组，造成两倍带宽？

写入的粒度太小造成不必要的读取

缓存和内存通信的最小单位是缓存行： 64字节。
当CPU试图写入4字节时，因为剩下的60字节没有改变，缓存不知道CPU接下来会不会用到那60字节，因此他只好从内存读取完整的64字节，修改其中的4字节为CPU给的数据，之后再择机协会。
这就导致了虽然没有用到读取数据，但实际上缓存还是从内存读取了，从而浪费2倍带宽。

猜你喜欢

转载自blog.csdn.net/qq_30340349/article/details/131316542

【OpenCV】访存优化

性能优化篇（1）：几种简单的访存优化手段

机器学习访存密集计算编译优化框架 AStitch，大幅提升任务执行效率

数值计算优化方法C/C++(五)——矩阵转置优化示例(访存优化和SIMD的使用)

数值计算优化方法C/C++(四)——矩阵乘法优化示例(访存优化和SIMD的使用)

数值计算优化方法C/C++(六)——统计质数个数(访存优化以及vector-bool的坑)

CPU访存流程深度剖析

2016年+2018年访存大题

访存加速-Speed-up of Memory Access Intensive Program

Cache和主存直接映射和访存过程

ARM的原子访存指令和屏障指令

OpenCv视频读与存

OpenCv图像读存

Opencv存图读图

imwrite用法（opencv存图像）

ARM汇编指令—访存指令（ldr/str &ldm/stm & swp）

段页式访存——线性地址到物理地址的转换

段页式访存——逻辑地址到线性地址的转换

计算机组成原理学习笔记——提高 CPU 访存速度的相关技术

opencv提取视频之后存成图片

opencv读入视频存成图片出错

计算机体系结构的进步--访存指令的复杂与进一步的虚拟化

YOLOV5改进：CVPR2023：加入EfficientViT主干：具级联组注意力的访存高效ViT

YOLOV8改进：CVPR2023：加入EfficientViT主干：具级联组注意力的访存高效ViT

Intel Sandy Bridge/Ivy Bridge架构/微架构/流水线 (16) - L1数据缓存/存储转发&访存消歧&存储体冲突

计算机组成原理8-主存储器—存储器的校验和访存速度提高措施

设CPU有16根地址线，8根数据线，并用MREQ作为访存控制线号......存储器与CPU的连接

opencv学习笔记1:图片的读、写、存

1、OpenCV——图片的读、改、显、存操作函数

优化 OpenCV 的 FAST 检测

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)