You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

327 lines
22 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 08 | 代码生成:如何实现机器相关的优化?
你好,我是宫文学。我们继续来学习编译器后端的技术。
在编译过程的前几个阶段之后编译器生成了AST完成了语义检查并基于IR运行了各种优化算法。这些工作基本上都是机器无关的。但编译的最后一步也就是生成目标代码则必须是跟特定CPU架构相关的。
这就是编译器的后端。不过,后端不只是简单地生成目标代码,它还要完成与机器相关的一些优化工作,确保生成的目标代码的性能最高。
这一讲,我就从机器相关的优化入手,带你看看编译器是如何通过指令选择、寄存器分配、指令排序和基于机器代码的优化等步骤,完成整个代码生成的任务的。
首先,我们来看看编译器后端的任务:生成针对不同架构的目标代码。
## 生成针对不同CPU的目标代码
我们已经知道编译器的后端要把IR翻译成目标代码那么要生成的目标代码是什么样子的呢
我以foo.c函数为例
```
int foo(int a, int b){
return a + b + 10;
}
```
执行“**clang -S foo.c -o foo.x86.s**”命令你可以得到对应的x86架构下的汇编代码为了便于你理解我进行了简化
```
#序曲
pushq %rbp
movq %rsp, %rbp #%rbp是栈底指针
#函数体
movl %edi, -4(%rbp) #把第1个参数写到栈里第一个位置偏移量为4
movl %esi, -8(%rbp) #把第2个参数写到栈里第二个位置偏移量为8
movl -4(%rbp), %eax #把第1个参数写到%eax寄存器
addl -8(%rbp), %eax #把第2个参数加到%eax
addl $10, %eax #把立即数10加到%eax%eax同时是放返回值的地方
#尾声
popq %rbp
retq
```
小提示上述汇编代码采用的是GNU汇编器的代码格式源操作数在前面目的操作数在后面。
我在[第1讲](https://time.geekbang.org/column/article/242479)中说过,要翻译成目标代码,编译器必须要先懂得目标代码,就像做汉译英一样,我们必须要懂得英语。可是,**通常情况下,我们会对汇编代码比较畏惧,觉得汇编语言似乎很难学。**其实不然。
补充说明:有些编译器,是先编译成汇编代码,再通过汇编器把汇编代码转变成机器码。而另一些编译器,是直接生成机器码,并写成目标文件,这样编译速度会更快一些。但这样的编译器一般就要带一个反汇编器,在调试等场合把机器码转化成汇编代码,这样我们看起来比较方便。
因此,在本课程中,我有时会不区分机器码和汇编代码。我可能会说,编译器生成了某机器码,但实际写给你看的是汇编代码,因为文本化的汇编代码才方便阅读。你如果看到这样的表述,不要感到困惑。
那为什么我说汇编代码不难学呢你可以去查阅下各种不同CPU的指令。然后你就会发现这些指令其实主要就那么几种一类是做加减乘除的如add指令一类是做内存访问的如mov、lea指令一类是控制流程的如jmp、ret指令等等。说得夸张一点这就是个复杂的计算器。
只不过,相比于高级语言,汇编语言涉及的细节比较多。它是啰嗦,但并不复杂。那我再分享一个我学习汇编代码的高效方法:**让编译器输出高级语言的汇编代码,多看一些各种情况下汇编代码的写法,自然就会对汇编语言越来越熟悉了。**
不过虽然针对某一种CPU的汇编并不难但问题是**不同架构的CPU其指令是不同的。编译器的后端每支持一种新的架构就要有一套新的代码。**这对写一个编译器来说,就是很大的工作量了。
我来举个例子。我们使用“**clang -S -target armv7a-none-eabi foo.c -o foo.armv7a.s**”命令生成一段针对ARM芯片的汇编代码
```
//序曲
sub sp, sp, #8 //把栈扩展8个字节用于放两个参数sp是栈顶指针
//函数体
str r0, [sp, #4] //把第1个参数写到栈顶+4的位置
str r1, [sp] //把第2个参数写到栈顶位置
ldr r0, [sp, #4] //把第1个参数从栈里加载到r0寄存器
ldr r1, [sp] //把第2个参数从站立加载到r1寄存器
add r0, r0, r1 //把r1加到r0,结果保存在r0
add r0, r0, #10 //把常量10加载到r0结果保存在r0,r0也是放返回值的地方
//尾声
add sp, sp, #8 //缩减栈
bx lr //返回
```
把这段代码与前面生成的针对x86架构的汇编代码比较一下你马上就会发现一些不同。这两种CPU完成相同功能所使用的汇编指令和寄存器都不同。我们来分析一下其中的原因。
x86的汇编mov指令的功能很强大可以从内存加载到寄存器也可以从寄存器保存回内存还可以从内存的一个地方拷贝到另一个地方、从一个寄存器拷贝到另一个寄存器。add指令的操作数也可以使用内存地址。
而在ARM的汇编中从寄存器到内存要使用str也就是Store指令而从内存到寄存器要使用ldr也就是Load指令。对于加法指令add而言两个操作数及计算结果都必须使用寄存器。
知识扩展ARM的这种指令风格叫做**Load-Store架构**。在这种架构下指令被分为内存访问Load和Store和ALU操作两大类而后者只能在寄存器上操作。各种RISC指令集都是Load-Store架构的比如PowerPC、RISC-V、ARM和MIPS等。
而像x86这种CISC指令叫做**Register-Memory架构**,在指令里可以混合使用内存地址和寄存器。
为了支持不同的架构,你可以通过手写算法来生成目标代码,但这样工作量显然会很大,维护负担也比较重。
另一种方法是编写“代码生成器的生成器”。也就是说你可以把CPU架构的各种信息比如有哪些指令、指令的特点、有哪些寄存器等描述出来然后基于这些信息生成目标代码的生成器就像根据语法规则用ANTLR、bison这样的工具来生成语法解析器一样。
经过这样的处理,虽然我们生成的目标代码是架构相关的,但中间的处理算法却可以尽量做成与架构无关的。
## 生成目标代码时的优化工作
生成目标代码的过程要进行多步处理。比如你一定注意到了前面foo.c函数示例程序生成的汇编代码是不够优化的它把参数信息从寄存器写到栈里然后再从栈里加载到寄存器用于计算。实际上改成更优化的算法是不需要内存访问的从而节省了内存读写需要花费的大量时间。
所以接下来,我就带你一起了解在目标代码生成过程中进行的优化处理,包括指令选择、寄存器分配、指令排序、基于机器代码的优化等步骤。在这个过程中,你会知道编译器的后端,是如何充分发挥硬件的性能的。
首先,我们看看指令选择,它的作用是在完成相同功能的情况下,选择代价更低的指令组合。
### 指令选择
为了理解指令选择有什么用,这里我和你分享三个例子吧。
第一个例子对于foo.c示例代码在编译时加上“-O2”指令就会得到如下的优化代码
```
#序曲
pushq %rbp
movq %rsp, %rbp
#函数体
leal 10(%rdi,%rsi), %eax
#尾声
popq %rbp
retq
```
它使用了lea指令可以一次完成三个数的相加并把结果保存到%eax。这样一个lea指令代替了三条指令一条mov两条add显然更优化。
这揭示了我们生成代码时面临的一种情况:**对于相同的源代码和IR编译器可以生成不同的指令而我们要选择代价最低的那个。**
第二个例子对于“a\[i\]=b”这样一条语句要如何生成代码呢
你应该知道数组寻址的原理a\[i\]的地址就是从数组a的起始地址往后偏移i个单位。对于整型数组来说a\[i\]的地址就是a+i\*4。所以我可以用两条指令实现这个赋值操作第一条指令计算a\[i\]的地址第二条指令把b的值写到这个地址。
数组操作是很常见的现象于是x86芯片专门提供了一种寻址方式简化了数组的寻址这就是**间接内存访问。**间接内存访问的完整形式是:偏移量(基址,索引值,字节数),其地址是:基址 + 索引值\*字节数 + 偏移量。
所以如果我们把a的地址放到%rdii的值放到%rax那么a\[i\]的地址就是(%rdi,%rax,4)。这样的话a\[i\]=b用一条mov指令就能完成。
第三个例子。我们天天在用的x86家族的芯片它支持很多不同的指令集比如SSE、AVX、FMA等每个指令集里都有能完成加减乘除运算的指令。当然每个指令集适合使用的场景也不同我们要根据情况选择最合适的指令。
好了现在你已经知道了指令选择的作用了它在具体实现上有很多算法比如树覆盖算法以及BURS自底向上的重写系统等。
我们再看一下刚刚这段优化后的代码,你是不是发现了,优化后的算法对寄存器的使用也更加优化了。没错,接下来我们就分析下寄存器分配。
### 寄存器分配
优化后的代码,去掉了内存操作,直接基于寄存器做加法运算,比优化之前的运行速度要快得多(我在[第5讲](https://time.geekbang.org/column/article/246281)提到过内存访问比寄存器访问大约慢100倍
同样的ARM的汇编代码也可以使用“-O2”指令优化。优化完毕以后最后剩下的代码只有三行。而且因为不需要访问内存所以连栈顶指针都不需要挪动进一步减少了代码量。
```
add r0, r0, r1
add r0, r0, #10
bx lr
```
对于编译器来说肯定要尽量利用寄存器不去读写内存。因为内存读写对于CPU来说就是IO性能很低。特别是像函数中用到的本地变量和参数它们在退出作用域以后就没用了所以能放到寄存器里就放寄存器里吧。
在IR中通常我们会假设寄存器是无限的就像LLVM的IR但实际CPU中的寄存器是有限的。所以我们就要用一定的算法把寄存器分配给使用最频繁的变量比如循环中的变量。而对于超出物理寄存器数量的变量则“溢出”到栈里通过内存来保存。
寄存器分配的算法有很多种。一个使用比较广泛的算法是寄存器染色算法,它的特点是计算结果比较优化,但缺点是计算量比较大。
另一个常见的算法是线性扫描算法它的优点是计算速度快但缺点是有可能不够优化适合需要编译速度比较快的场景比如即时编译。在解析Graal编译器的时候你会看到这种算法的实现。
寄存器分配算法对性能的提升是非常显著的。接下来我要介绍的指令排序,对性能的提升同样非常显著。
### 指令排序
首先我们来看一个例子。下面示例程序中的params函数有6个参数
```
int params(int x1,int x2,int x3,int x4,int x5,int x6{
return x1 + x2 + x3 + x4 + x5 + x6 + 10;
}
```
把它编译成ARM汇编代码如下
```
//序曲
push {r11, lr} //把r11和lr保存到栈中lr里面是返回地址
mov r11, sp //把栈顶地址保存到r11
//函数体
add r0, r0, r1 //把参数2加到参数1保存在r0
ldr lr, [r11, #8] //把栈里的参数5加载到lr这里是把lr当通用寄存器用
add r0, r0, r2 //把参数3加到r0
ldr r12, [r11, #12] //把栈里的参数6加载到r12
add r0, r0, r3 //把参数4加到r0
add r0, r0, lr //把参数5加到r0
add r0, r0, r12 //把参数6加到r0
add r0, r0, #10 //把立即数加到r0
//尾声
pop {r11, pc} //弹出栈里保存的值。注意原来lr的值直接赋给了pc也就是程序计数器所以就跳转到了返回地址
```
根据编译时使用的调用约定其中有4个参数是通过寄存器传递的r0~r3还有两个参数是在栈里传递的。
值得注意的是在把参数5和参数6用于加法操作之前它们就被提前执行加载ldr命令了。那为什么会这样呢这就涉及到CPU执行指令的一种内部机制**流水线Pipeline。**
原来CPU内部是分成多个功能单元的。对于一条指令每个功能单元处理完毕以后交给下一个功能单元然后它就可以接着再处理下一条指令。所以在同一时刻不同的功能单元实际上是在处理不同的指令。这样的话多条指令实质上是并行执行的从而减少了总的执行时间这种并行叫做**指令级并行。**
在下面的示意图中每个指令的执行被划分成了5个阶段每个阶段占用一个时钟周期如下图所示
![](https://static001.geekbang.org/resource/image/af/0c/af8fd31e7e2e4af759569882a0b0730c.jpg)
图1多个功能单元并行
因为每个时钟周期都可以开始执行一条新指令所以虽然一条指令需要5个时钟周期才能执行完但在同一个时刻却可以有5条指令并行执行。
**但是有的时候,指令之间会存在依赖关系,后一条指令必须等到前一条指令执行完毕才能运行**在上一讲我们曾经提到过依赖分析指令排序就会用到依赖分析的结果。比如前面的示例程序中在使用参数5的值做加法之前必须要等它加载到内存。这样的话指令就不能并行了执行时间就会大大延长。
![](https://static001.geekbang.org/resource/image/ae/e3/ae0a9bb26533c3e153753cc92d843ee3.jpg)
图2缺少充分的并行会导致总执行时间变长
讲到这里你就明白了为什么在示例程序中要把ldr指令提前执行目的就是为了更好地利用流水线技术实现指令级并行。
补充这里我把执行阶段分为5段只是给你举个例子。很多实际的CPU架构划分了更多的阶段。比如某类型的奔腾芯片支持21段那理论上也就意味着可以有21条指令并行执行但它的前提是必须做好指令排序的优化。
另外现代一些CISC的CPU在硬件层面支持乱序执行Out-of-Order。一批指令给到CPU后它也会在内部打乱顺序去优化执行。而RISC芯片一般不支持乱序执行所以像ARM这样的芯片做指令排序就更加重要。
另外,在上一讲,我提到过对循环做优化的一种技术,叫做**循环展开Loop Unroll**,它会把循环体中的代码重复多次,与之对应的是减少循环次数。这样一个基本块中就会有更多条指令,增加了通过指令排序做优化的机会。
指令排序的算法也有很多种比如基于数据依赖图的List Scheduling算法。在后面的课程中我会带你考察一下真实世界中的编译器都使用了什么算法。
OK了解完指令排序以后还有什么优化可以做呢
### 窥孔优化Peephole Optimization
基于LIR或目标代码代码还有被进一步优化的可能性。这就是代码优化的特点。比如你在前面做了常数折叠以后后面的处理步骤修改了代码或生成新的代码以后可能还会产生出新的常数折叠的机会。另外有些优化也只有在目标代码的基础上才方便做。
给你举个例子吧:假设相邻两条指令,一条指令从寄存器保存数据到栈里,下一条指令又从栈里原封不动地把数据加载到原来的寄存器,那么这条加载指令就是冗余的,可以去掉。
```
str r0, [sp, #4] //把r0的值保存到栈顶+4的位置
ldr r0, [sp, #4] //把栈顶+4位置的值加载到r0寄存器
```
基于目标代码的优化,最常用的方法是**窥孔优化Peephole Optimization**。窥孔优化的思路是提供一个固定大小的窗口比如能够容纳20条指令并检查窗口内的指令看看是否可以优化。然后再往下滑动窗口再次检查优化机会。
最后,还有一个因素会影响目标代码的生成,就是调用约定。
## 调用约定的影响
还记得前面示例的x86的汇编代码吗其中的%edi寄存器用来传递第一个参数%esi寄存器用来传递第二个参数这就是遵守了一种广泛用于Unix和Linux系统的调用约定“[System V AMD64 ABI](https://github.com/hjl-tools/x86-psABI/wiki/x86-64-psABI-1.0.pdf)”。这个调用约定规定对于整型参数前6个参数可以用寄存器传递6个之后的参数就要基于栈来传递。
```
#序曲
pushq %rbp
movq %rsp, %rbp #%rbp是栈底指针
#函数体
movl %edi, -4(%rbp) #把第1个参数写到栈里第一个位置偏移量为4
movl %esi, -8(%rbp) #把第2个参数写到栈里第二个位置偏移量为8
movl -4(%rbp), %eax #把第1个参数写到%eax寄存器
addl -8(%rbp), %eax #把第2个参数加到%eax
addl $10, %eax #把立即数10加到%eax%eax同时是放返回值的地方。
#尾声
popq %rbp
retq
```
知识扩展ABI是Application Binary Interface的缩写也就是应用程序的二进制接口。通常ABI里面除了规定调用约定外还要包括二进制文件的格式、进程初始化的方式等更多内容。
而在看ARM的汇编代码时我们会发现它超过了4个参数就要通过栈来传递。实际上它遵循的是一种不同ABI叫做EABI嵌入式应用程序二进制接口。在调用Clang做编译的时候-target参数“**armv7a-none-eabi**”的最后一部分就是指定了EABI。
```
//序曲
sub sp, sp, #8 //把栈扩展8个字节用于放两个参数sp是栈顶指针
//函数体
str r0, [sp, #4] //把第1个参数写到栈顶+4的位置
str r1, [sp] //把第2个参数写到栈顶位置
ldr r0, [sp, #4] //把第1个参数从栈里加载到r0寄存器
ldr r1, [sp] //把第2个参数从站立加载到r1寄存器
add r0, r0, r1 //把r1加到r0,结果保存在r0
add r0, r0, #10 //把常量10加载到r0结果保存在r0,r0也是放返回值的地方
//尾声
add sp, sp, #8 //缩减栈
bx lr //返回
```
在实现编译器的时候你可以发明自己的调用约定比如哪些寄存器用来放参数、哪些用来放返回值等等。但是如果你要使用别的语言编译好的目标文件或者你想让自己的编译器生成的目标文件被别人使用那你就要遵守某种特定的ABI标准。
## 后端处理的整体过程
好了,到这里,我已经介绍完了生成目标代码过程中所做的各种优化处理。**那么,我们怎么把它们串成一个整体呢?**
![](https://static001.geekbang.org/resource/image/e5/06/e500f1602aa03fd6893933517bf71a06.jpg)
图3典型的后端处理过程
在实际实现时,我们通常是先做指令选择,然后做一次指令排序。在分配完寄存器以后,还要再做一次指令排序,因为寄存器分配算法会产生新的指令排序优化的机会。比如,一些变量会溢出到栈里,从而增加了一些内存访问指令。
这个处理过程其实也是IR不断lower的过程。一开始是MIR在做了指令选择以后就变成了具体架构相关的LIR了。在没做寄存器分配之前我们在LIR中用到寄存器还是虚拟的数量是无限的做完分配以后就变成具体的物理寄存器的名称了。
与机器相关的优化如窥孔优化也会穿插在整个过程中。最后一个步骤是通过一个Emit目标代码的程序生成目标代码。因为IR已经被lower得很接近目标代码了所以这个翻译程序是比较简单的。
## 课程小结
今天这一讲,我带你认识了编译器在后端的主要工作,也就是生成目标代码时,所需要的各种优化和处理。你需要注意理解每一步处理的原理,比如到底为什么需要做指令选择,形成直观认识。
这一讲,我没有带你去深入算法的细节,而是希望先带你建立一个整体的认知。在我们考察真实的编译器时,你要注意研究它们的后端是如何实现的。
我把今天的课程内容,也整理成了思维导图,供你参考。
![](https://static001.geekbang.org/resource/image/b7/62/b71852806b0a7531c62c2ddc3fe51e62.jpg)
## 一课一思
用Clang或gcc来生成汇编代码对研究生成目标代码时的优化效果非常有帮助。你可以设计一个C语言的简单函数测试出编译器在指令选择、寄存器分配或指令排序的任意方面的优化效果吗
你可以比较下,带和不带“-O2”参数生成的汇编代码有什么不同。你还可以查看手册使用更多的选项比如对于[x](https://clang.llvm.org/docs/ClangCommandLineReference.html#x86)[86架构](https://clang.llvm.org/docs/ClangCommandLineReference.html#x86)你可以控制是否使用AVX指令集。这个练习会帮助你获得更多的直观理解。
在留言区,把你动手实验的成果分享出来吧,我们一起交流讨论。如果觉得有收获,也欢迎你把今天的内容分享给更多的朋友。
## 参考链接
1. 关于汇编代码、寄存器、调用约定等内容更详细的介绍,你可以参考《编译原理之美》的第[23](https://time.geekbang.org/column/article/150798)、[24](https://time.geekbang.org/column/article/151939)讲。
2. 关于指令选择的算法,你可以参考《编译原理之美》的[第29讲](https://time.geekbang.org/column/article/158315),我介绍了一个树覆盖算法。
3. 关于寄存器分配的算法,你也可以参考《编译原理之美》的[第29讲](https://time.geekbang.org/column/article/158315),我介绍了一个寄存器染色算法。
4. 关于指令排序的算法,你可以参考《编译原理之美》的[第30讲](https://time.geekbang.org/column/article/159552)深入去看一下基于数据依赖图的List Scheduling算法。