C++字符数组初始化方法的分析

发现了一个字符数组初始化的误区，而这个往往能导致比较严重的性能问题，分析介绍如下：
往往我们在初始化一个字符数组，大概有如下几种写法：

1 char array1[1024] = "";
2 char array2[1024] = {0};
3 char array3[1024] = {'\0'};
4 char array4[1024];
5 array4[0] = '\0';

但这四种写法，其实代表含义不同，看起来前三种写法只是将array的第一个字符置为0，其实前三种在gcc编译时，都是调用了memset来将整个array置为0，如果这个array很长，其实也会导致性能问题。我写了一个简单的小程序编译生成test，objdump了一下，执行“objdump -S test”可以看下面的代码：

int main() {
400698: 55 push %rbp
400699: 48 89 e5 mov %rsp,%rbp
40069c: 48 81 ec 00 10 00 00 sub $0x1000,%rsp
char array1[1024] = "";
4006a3: 0f b6 05 42 01 00 00 movzbl 322(%rip),%eax # 4007ec <_IO_stdin_used+0x4>
4006aa: 88 85 00 fc ff ff mov %al,0xfffffffffffffc00(%rbp)
4006b0: 48 8d bd 01 fc ff ff lea 0xfffffffffffffc01(%rbp),%rdi
4006b7: ba ff 03 00 00 mov $0x3ff,%edx
4006bc: be 00 00 00 00 mov $0x0,%esi
4006c1: e8 fa fe ff ff callq 4005c0 <memset@plt> //调用了memset

char array2[1024] = {0};
4006c6: 48 8d bd 00 f8 ff ff lea 0xfffffffffffff800(%rbp),%rdi
4006cd: ba 00 04 00 00 mov $0x400,%edx
4006d2: be 00 00 00 00 mov $0x0,%esi
4006d7: e8 e4 fe ff ff callq 4005c0 <memset@plt> //调用了memset

char array3[1024] = {'\0'};
4006dc: 48 8d bd 00 f4 ff ff lea 0xfffffffffffff400(%rbp),%rdi
4006e3: ba 00 04 00 00 mov $0x400,%edx
4006e8: be 00 00 00 00 mov $0x0,%esi
4006ed: e8 ce fe ff ff callq 4005c0 <memset@plt> //调用了memset

char array4[1024];
array4[0] = '\0';
4006f2: c6 85 00 f0 ff ff 00 movb $0x0,0xfffffffffffff000(%rbp)

return 0;
4006f9: b8 00 00 00 00 mov $0x0,%eax
}

所以，对这四种写法，实际执行的代码解释如下：

char array1[1024] = ""; //第11行，调用memset将1023个字符置为0
char array2[1024] = {0}; //第17行，调用memset将1024个字符置为0
char array3[1024] = {'\0'}; //第23行，调用memset将1024个字符置为0
char array4[1024];
array4[0] = '\0'; //只是将第一个字符置为0

而对于字符数组，往往只是作为一个字符串的临时缓冲区使用，没有必要将整个数组置为0，所以第四种写法往往就能达到初始化的目的。建议使用第四种写法来初始化一个字符数组，这样能节约很多性能消耗。

C++字符数组初始化方法的分析

猜你喜欢