从小米10发布来看编译优化

这篇文章的起因是有人跨界要来锤桌面CPU ：

看到新闻的第一感觉就是你在侮辱我的智商，第二感觉就是来自Windows程序员的愤怒。

准备

通过Google搜索了FFT+AGM+PI，最终确认小米用的是这个代码：http://www.kurims.kyoto-u.ac.jp/~ooura/pi_fft.html。下载后大概是这样的：

这是win32bin下面的预编译好的exe。

win32bin/
Makefile : - for intel C++ compiler
pi_cs.exe : PI Calculation Program II
pi_cs_thread.exe : - use FFT level threads
pi_cw.exe : PI Calculation Program III
pi_cw_thread.exe : - use FFT level threads
dgt_div.exe : data converter

微博发的视频太糊了，但是隐约能看到用的是pi_ca.exe。总的来说一共有3个版本的算法，每个又有多线程版本，所以一共是6个 exe。如下：

pi_fftca.c : PI Calculation Program I - standard version
-- use rdft() in "fft*gx.c"
pi_fftcs.c : PI Calculation Program II - memory save version
-- use rdft() in "fft*g_hx.c"
pi_fftcw.c : PI Calculation Program III - memory swap version
-- use rdft() in "fft*g_hx.c"

ca是标准版，cs和cw是内存优化版，可以使用更少的运行内存（2001年内存很宝贵）。同样计算1000万位（实际是2289万位），ca占用218M，cs占用150M，cw占用58M。一般情况下来说，内存占用比较多的会跑的更快一些，空间换时间是编程的经典优化，这里小米用的是ca版也是没问题的。

对比

首先这是我的电脑的运行时间29s：

我的CPU是AMD3700X，虽然小米是和Intel8550U对比，但是都是比较的单核性能差距不会很大。众所周知AMD的单核性能一直要比Intel弱。8550U最高睿频是4.0G，3700X我这边是4.3G，就加个10%当作8550U的运行时间：32s。

先来进行下理论对比: 骁龙865使用的是高通Kryo 585CPU组合 1x Kryo 585 Prime @ 2.84GHz + 3x Kryo 585 Gold @ 2.42GHz + 4x Kryo 585 Silver @ 1.80GHz。单从CPU主频来看，小米10的36s肯定是优化后的结果。

我的猜测是，小米派了工程师对FFT+AGM算法进行一些指令优化，因为2001年的时候应该还没有所谓的SIMD Vectorized指令优化。看看Windows平台在加上最新的AVX2和AVX512指令优化和并行后的水平吧 (http://www.numberworld.org/y-cruncher/)：

2500万位只需要1.6s。

为什么小米的会跑了90多秒？

回到刚刚下载的pi_fftc6，在代码里面，作者很明确的说了编译命令：

/*
---- calculation of PI(= 3.14159...) using FFT and AGM ----
by T.Ooura

Example compilation:
GNU : gcc -O6 -ffast-math pi_fftcs.c fftsg_hx.c -lm -o pi_css
SUN : cc -fast -xO5 pi_fftcs.c fftsg_hx.c -lm -o pi_css
Microsoft: cl /O2 /G6 pi_fftcs.c fftsg_hx.c /Fepi_css.exe
...
etc.
*/

我来示范下在VIsualStudio2019中怎么用命令行编译：

1. 打开开发者命令提示