ncnn fastMalloc函数 内存对齐式分配 代码浅析

1 起因

工作需要,简单熟悉下ncnn(腾讯的一个神经网络前向计算框架)相关的源码。看到有关内存对齐的一段代码,忍不住分析一番。

涉及到C语言的指针、内存,总会让人有些头大,但我们又不得不承认,它也确是非常有趣。

2 源码 & Demo & 问题

nccc git地址
https://github.com/Tencent/ncnn
简单Demo
allocator.h 中的 alignPtrfastMalloc 两个函数提取出来,做一个简单的调用Demo,具体如下。

9525982-16b2692495efd39b.png
Demo & 问题

如果对上述问题感兴趣,你可以继续往下看了:)

3 分析

Step n 和 第2部分代码中的是一一对应的哦!

3.1 Step1 : 分配内存

unsigned char* udata = (unsigned char*)malloc(size + sizeof(void*) + MALLOC_ALIGN);
9525982-3bdc2906392ff41c.png
内存分配
  • 问题1:为什么要多分配 sizeof(void *) 大小的内存?(图中8B部分)
    因为设计者期望保存对其前的内存指针。
  • 问题2:为什么要多分配 MALLOC_ALIGN 大小的内存?(图中16B部分)
    因为对齐单位是16(MALLOC_ALIGN),而对其后,数据指针不一定指在分配的内存的起始位置,为了保证对其后仍然有100B目标内存可用,要+16。

3.2 Step2 : 对其方法调用分析

unsigned char** adata = alignPtr((unsigned char**)udata + 1, MALLOC_ALIGN);
9525982-6eceb6415a515004.png
关于udata+1
  • 问题3:为什么要将udata转换成(unsigned char **)?
    1)现在udata是char *类型,假设udata指向的内存是0x0000000102803030,那么udata+1 = 0x0000000102803031, 而(unsigned char**)udata + 1 = 0x0000000102803038,我们期望在内存地址的开始初留出一个存放指针的空间(8B),所以选择后者。
    2)我们要使用留出的8B的空间存储对齐前的内存地址,而对齐前的指针的类型(在这个函数体中)是unsigned char *,那么将内存看做一个unsigned char * 的数组的指针,再以此存储我们的对齐前内存地址(unsigned char *类型),多么的优雅,多么的符合概念啊!

Step3 : 实现偏移

template<typename _Tp> static inline _Tp* alignPtr(_Tp* ptr, int n=(int)sizeof(_Tp)) {
    return (_Tp*)(((size_t)ptr + n-1) & -n);
}
9525982-a5a2f7d523e04d4f.png
实现地址偏移
  • 问题4:_Tp是什么类型?
    unsigned char *
  • 问题5:& -n 如何理解?
    1)目的:n = 16 (B),这边的目的是让内存指向的地址为16的整数倍
    2)目的达成分析: 16的二进制值是 0001 0000,-16的二进制值是16二进制值的各位取反(...0001 1111),再加1(...1111 0000)。如果一个地址是64位的,这么操作后就是0xffff ffff ffff fff0,与目标数字按位与后,自然就是一个能被16整除的数字了。
    3)举一反三: 不仅16,2^n的数字都可以这么操作哦
  • 问题6:什么是&,什么是按位与
    ……这个……不解释……

Step4 : 设置未对齐前的内存地址

adata[-1] = udata;
9525982-4eaccbab9246fd0a.png
设置对齐前内存地址
  • 问题7:为什么要设置?
    宝贝儿,因为内存释放的时候要用~ 代码如下,不解释咯!
static inline void fastFree(void* ptr) {
    if (ptr) {
        unsigned char* udata = ((unsigned char**)ptr)[-1];
        free(udata);
    }
}

Step5 : 返回用户关注的内存地址

return adata;
9525982-20068077772d76aa.png
image.png

用户拿到的内存指针指向的是数据的开始位置哦!

  • 问题8:为啥要内存对齐,而且为了对齐还浪费了部分内存?
    简单来说,为了提高运算速度,更深层的原因比较复杂,不赘述咯。

4 草草结束

完~

猜你喜欢

转载自blog.csdn.net/weixin_33709609/article/details/87678197