我们知道，大数据运算性能的瓶颈常常是在外存（也就是硬盘）IO上，因为外存访问性能要比内存低一两个数量级。因此，做性能优化时，减少硬盘的访问量有时要比减少CPU计算量更为重要。同一个任务，如果能使用硬盘访问量更少的算法，即使CPU计算量不变甚至略多一点，也会获得更好的性能。

分组汇总需要对数据集进行遍历。同一个数据集可能会按不同维度进行分组，这样原则上就要遍历多次，大数据时就会涉及多遍硬盘访问。但是，如果我们能在一次遍历过程中计算出多个维度的分组结果，那就会减少很多硬盘访问量。

可惜，SQL无法写出这样的运算（在遍历中返回多个分组结果），只能遍历多次，或者寄希望于数据库引擎是否能优化。而SPL则支持这种遍历复用的语法，可以一次遍历计算出多个分组结果，从而提高性能。

下面我们做一下测试，以Oracle为例看数据库是否会对多次遍历的计算进行优化，以及在SPL中采用遍历复用算法对性能的影响。

一、数据准备和环境

SPL脚本生成数据文件，数据共两列，第一列id是小于20亿的随机整数，第二列amount是不大于1千万的随机实数。数据记录为80亿行，生成的原始文本文件大小为169G。利用数据库提供的数据导入工具将此文件数据导入到Oracle的数据表topn中，同时也用此文件数据生成SPL组表文件topn.ctx。

在一台Intel服务器上完成测试，2个Intel3014 CPU，主频1.7G，共12核，内存64G。数据库表数据及SPL组表文件均存储在同一块SSD硬盘上。

这里刻意把数据量造得比内存大，以保证操作系统不可能把这些数据都缓存进内存，实际运算时一定会读取硬盘。

二、 Oracle测试

测试分成三种情况：单分组单倍计算量、单分组双倍计算量、双分组双倍计算量。

1. 单分组单倍计算量

select /*+ parallel(12) */ mod(id,100) Aid,max(amount) Amax from topn group by mod(id,100)

2. 单分组双倍计算量

select /*+ parallel(12) */ mod(id,100)+floor(id/20000000) Aid, max(amount) Amax, min(amount) Amin from topn group by mod(id,100)+floor(id/20000000);

计算式多了一倍，相当于计算量大了一倍。

3. 双分组双倍计算量

select /*+ parallel(12) */ * from (select mod(id,100) Aid,max(amount) Amax from topn group by mod(id,100) ) A
join
( select floor(id/20000000) Bid,min(amount) Bmin from topn group by floor(id/20000000) ) B
on A.Aid=B.Bid;

这里的计算量大体与2相同，但有两个分组，我们将观察数据库是否会进行两次遍历。最后的JOIN运算只涉及100行数据，时间可以忽略不计。

三、 SPL测试

我们把Oracle做的测试用SPL再做一遍。

1. 单分组单倍计算量

编写SPL脚本执行测试：

	A
1	=now()
2	=12
3	=file("/home/topn/topn.ctx").create().cursor@m(id,amount;;A2)
4	=A3.groups@u(id%100:Aid;max(amount):Amax)
5	=interval@s(A1,now())

2. 单分组双倍计算量

编写SPL脚本执行测试：

	A
1	=now()
2	=12
3	=file("/home/topn/topn.ctx").create().cursor@m(id,amount;;A2)
4	=A3.groups@u(id%100+id\20000000:Aid;max(amount):Amax,min(amount):Amin)
5	=interval@s(A1,now())

3. 双分组双倍计算量

编写SPL脚本执行测试：

	A	B
1	=now()
2	=12
3	=file("/home/topn/topn.ctx").create().cursor@m(id,amount;;A2)
4	cursor A3	=A4.groups@u(id%100:Aid;max(amount):Amax)
5	cursor	=A5.groups@u(id\20000000:Bid;max(amount):Bmax)
6	=A4.join@i(Aid,A5:Bid,Bid,Bmax)
7	=interval@s(A1,now())

这里采用了SPL特有的遍历复用语法，在A3定义了游标，A4/B4和A5/B5中定义了两套针对这个游标的计算，表示会在一次游标遍历过程同时计算这两个结果。

四、分析与结论

三种情况的测试用时如下表：

测试结果（时间单位：秒）

	单分组单倍计算量	单分组双倍计算量	双分组双倍计算量
Oracle	458	692	878
SPL	336	350	376

从Oracle的测试结果上看，双分组双倍计算量比单分组双倍计算量慢了近200秒，这不是一个可以忽略的时间了，因为两者的计算量几乎相同，这多出来的时间估计就是多做一次遍历的时间了。这说明数据库不会自动做遍历复用的优化，在双分组时会将数据表遍历两次，结果多做一次分组几乎会多出一倍的时间。

而SPL采用了遍历复用的机制，三个测试的计算时间相差很小，多做一次分组并不会多一次遍历，只是多了一些复用控制的逻辑，不会变慢多少。

说明一下，准备数据时把Oracle的amount字段类型设置成decimal了，所以计算速度比较慢；而SPL组表中用的是double类型，所以要快得多。但这个测试不是对比Oracle和SPL的计算性能，这些不同并不影响上面的结论。

性能优化技巧：遍历复用提速多次分组

一、数据准备和环境

二、 Oracle测试

1. 单分组单倍计算量

2. 单分组双倍计算量

3. 双分组双倍计算量

三、 SPL测试

1. 单分组单倍计算量

2. 单分组双倍计算量

3. 双分组双倍计算量

四、分析与结论

猜你喜欢

性能优化技巧：遍历复用提速多次分组

一、 数据准备和环境

二、 Oracle测试

1. 单分组单倍计算量

2. 单分组双倍计算量

3. 双分组双倍计算量

三、 SPL测试

1. 单分组单倍计算量

2. 单分组双倍计算量

3. 双分组双倍计算量

四、 分析与结论

猜你喜欢

一、数据准备和环境

四、分析与结论