# 14|汇编代码学习(一):熟悉CPU架构和指令集 你好,我是宫文学。 经过了上一节课的学习,你已经对物理机的运行期机制有了一定的了解。其中最重要的知识点就是,为了让一个程序运行起来,硬件架构、操作系统和计算机语言分别起到了什么作用?对这些知识的深入理解,是让你进入高手行列的关键。 接下来,就让我们把程序编译成汇编代码,从而生成在物理机上运行的可执行程序吧! 慢着,不要太着急。为了让你打下更好的基础,我决定再拿出一节课来,带你了解一下CPU架构和指令集,特别是ARM和X86这两种使用最广泛的CPU架构,为你学习汇编语言打下良好的基础。 首先,我们讨论一下什么是CPU架构,以及它对学习汇编语言的作用。 ## 掌握汇编语言的关键,是了解CPU架构 提到汇编语言,很多同学都会觉得很高深、很难学。其实这是个误解,汇编语言并不难掌握。 为什么这么说呢?其实前面在实现虚拟机的时候,我们已经接触了栈机的字节码。你觉得它难吗?JVM的字节码理论上不会超过128条,而我们通过前面几节课已经了解了其中的好几十条指令,并且已经让他们顺利地运转起来了。 而且,汇编代码作为物理机的指令,也不可能有多么复杂。因为CPU的设计,就是要去快速地执行一条条简单的指令,所以这些指令不可能像高级语言那样充满复杂的语义。 我们可以把学习汇编语言跟学习高级语言做一下类比。如果你接触过多门计算机语言,很快就能找到这些计算机语言的相似性,比如都有基础数据类型、都支持加减乘除等各种运算、都支持各种表达式和语句等等。抓住这些基本规律以后,学习一门新语言的速度会很快。 汇编语言也是一样的。不同的CPU有不同的指令集,但它们的指令的格式有一些共性,比如都包含操作码的助记符和操作数,而操作数通常也都包含立即数、寄存器和内存地址这三个类别。它们也都包含数据处理、内存读写、跳转、子过程调用等几种大类的指令。所以,你也可以很快掌握这些规律或模式,做到触类旁通,游刃有余。 **说了那么多,那么学习汇编语言的关键是什么呢?** 由于汇编语言是跟具体的CPU打交道的,所以不同的CPU架构,它们的汇编语言就会有所差别。如果你能够深刻了解某款CPU的架构,自然也就会为它编写汇编代码了。 这里提到了一个词,**架构**。所谓架构,是指一个处理器的功能规范,定义了CPU在什么情况下会产生什么行为。你也可以把它理解成软件和硬件之间的一个桥梁,规定了硬件如何提供功能被软件所调用。所以,如果你要搞编译技术,就必须要了解目标CPU的架构。 我把CPU架构里的内容整合在这张表里,你可以保存起来: ![图片](https://static001.geekbang.org/resource/image/7f/87/7f506095932158702ed85eaef6ef8387.jpg?wh=1920x1080) 看上去,要深入了解一个CPU架构,涉及的知识还蛮多的。不过,**作为初学者,我们最重要的是关注两个方面就行了:指令集和寄存器集,因为它们跟汇编代码的关系最密切。** 那么如何了解一个CPU的架构呢?正如我在[第12节课](https://time.geekbang.org/column/article/414397)说的那样,其实最重要的方式,就是阅读CPU的手册。 那么这节课我们就分析两种主流的CPU架构,看看能获得哪些知识点。首先我们就来看一下ARM架构的CPU的特点,它是目前大多数智能手机所采用的CPU。 ## 了解ARM架构 ARM处理器是ARM公司推出的一系列处理器的名称。ARMv8是它比较新的架构,当前大多数高端智能手机都是采用这个架构。了解这个架构的方法呢,当然是下载[ARMv8的手册](https://developer.arm.com/documentation/ddi0487/latest)。 不过这本手册比较厚,有8000多页。为了加速你的理解,我挑其中最有用、跟编写汇编代码最相关的几个知识点跟你聊聊。 首先,ARMv8支持32位和64位运行模式,分别叫做AArch32和AArch64。在64位模式下,它的指令集叫做A64。 接着,我们看看ARMv8的寄存器。在AArch64架构下,它的寄存器有下面这几个(参见手册的B1.2.1部分)。 * R0-R30:是31个通用寄存器。当它们被用于64位计算或32位计算的时候,分别被叫做X0-X30(X表示64位),以及W0-W30(W是Word的意思,表示32位)。这31个处理器是我们用做数据处理的主力。 ![图片](https://static001.geekbang.org/resource/image/05/c5/05bbyy215e11822ca76947a6d86159c5.png?wh=1312x242) * SP寄存器:64位的栈指针寄存器,用于指向栈顶的地址。 * PC寄存器:64位的程序代码寄存器,PC是Program Code的意思。这个寄存器记录了内存中当前指令的地址,CPU会从这个地址读取指令并执行。当程序执行跳转指令、进入异常或退出异常的时候,这个寄存器的值会被自动修改。 * 另外,还有一组寄存器是用于处理浮点数运算和矢量计算的,你可以去官方手册看看。 这些就是我们的汇编代码中会涉及到的寄存器,还有一些寄存器是系统级的寄存器,我们平常的应用代码用不上,就先不管了。 谈到寄存器,我插个话题。我注意到,你如果在网上搜索某个CPU架构的文章,往往得到的是模棱两可的、甚至是错误的信息,你千万要注意不要被它们误导了。 比如,我看到有的文章说在某个架构的CPU中,哪些寄存器是用来放返回值的,哪些寄存器是用来传参数的,而哪些寄存器又分别是由调用者或被调用者保护的,等等,还配了图做说明。 但如果你对调用约定或ABI的概念有所了解的话马上就会知道,这些其实都是软件层面上的一些约定,不是CPU架构层面上的规定。如果你还想了解得更具体一些,可以参考涉及到ARM架构的一些[ABI规范文档](https://github.com/ARM-software/abi-aa/releases),特别是其中的“Procedure Call Standard for the Arm® 64-bit”,这篇文档就规定了如何使用这些通用寄存器等信息。但作为语言的作者,你其实可以设计自己的ABI,你拥有更大的自由度。 与寄存器相关的一个概念,叫做Process State,或者PSTATE,它是CPU在执行指令时形成的一些状态信息,这些状态信息在物理层面是保存在一些特殊目的寄存器里。 PSTATE有什么用呢?比如,它的用途之一是辅助跳转指令的运行。当我们执行一个条件跳转指令之前,会先执行一个比较指令,这个比较指令就会设置某个状态信息,而后续的跳转指令就可以基于这个状态信息进行正确的跳转了。 此外,PSTATE还可以用于判断算术运算是否溢出、是否需要进位等等。 最后,我们终于谈到CPU架构中的主角,**指令集**了。你先看一下A64指令集中的一些常见的指令: ![图片](https://static001.geekbang.org/resource/image/41/b7/411c8fde9d8948d4ac17cc9088f67bb7.jpg?wh=1594x1305) 你看这些指令,是不是跟前面学过的Java字节码的指令集有很多相似之处?我们来比较一下看,上面的指令大概可以分为四组。 **第一组指令,是加减乘除等算术运算的指令。** 回忆一下,在我们之前学栈机的时候,是不是也有这些运算指令?但栈机和寄存器机的指令有一些差别。栈机的运算指令,是不需要带操作数的,因为操作数已经在操作数栈里。这几个指令会从栈顶取出两个操作数,做完加减乘除运算后,再放回栈顶。这样,下一条指令就可以把这个值作为操作数,继续进行计算。 但寄存器机上没有操作数栈,典型的寄存器机,所有运算都发生在寄存器里。我们来看看下面这个示例程序: ```plain int foo(int a){ return a + 10; } ``` 你可以用下面这个命令生成ARM64指令集的汇编代码: ```plain clang -arch arm64 -S  foo.c -o foo_arm64.s -O2 ``` 汇编代码的主要部分是下面这几行: ```plain _foo: ; @foo add w0, w0, #10 ; =10 ret ``` 其中“add w0, w0, #10”的意思,是把w0寄存器的值加上10,结果仍然放到w0。 在CPU指令里,我们把常量一般叫做立即数(immediate)。在这条代码里,#10就是个立即数。根据当前的调用约定,当我们调用foo函数的时候,参数a是传入到w0寄存器的。然后,这个寄存器的值又加上了10,返回值也放在w0里就可以了,函数调用者会从w0里获取这个返回值。 **第二组指令,只有一个mov指令**,它能把数据从一个寄存器拷贝到另一个寄存器,也可以把一个立即数设置到目标寄存器。 **第三组指令,是内存读写的指令。** 在ARM指令集中,算术运算性的指令只能基于寄存器,但是原始数据通常来自于内存,计算结果最后也通常保存回内存,所以我们还需要一组指令把数据从内存加载到寄存器,以及从寄存器再写回内存,这就是load和store指令。 这两个指令我们也很熟悉,因为它们在栈机的指令里也出现过。在栈机里,我们是用load命令把本地变量和常量加载到操作数栈,用store命令操作数栈中的数据写回到本地变量。而在寄存器机里,操作数栈变成了寄存器。 比如,“str w0, \[sp, #12\]”的意思,是把w0的值保存到一个内存地址,这个内存地址是sp寄存器的值加12。sp是寄存器指向栈顶的指针,操作系统会根据这个寄存器的值自动为栈分配内存。 **第四组指令,是各种跳转指令。** 跳转指令的基本原理,是修改程序计数器的值,让CPU去执行另一个地方的代码。 高级语言中的if语句、for循环语句等,翻译成汇编代码后,就会生成跳转指令。在跳转之前,一般要做一个数值的比较,依据比较结果再做跳转,做比较的指令是CMP。比较完之后,就可以根据比较结果做跳转了,比如jeq表示两边相等就可以跳转了。 而函数调用、方法调用,我们都把它们统称为子过程调用,本质上也是做指令的跳转。只不过做子过程调用的时候,要建立新的栈帧并保证原来的栈帧不被破坏,一些寄存器的值也要保护起来,并且还要记下返回地址,所以我们通常要花费多条指令才能完成子过程调用的工作。 上面四组指令是各类不同CPU的指令集都具备的。当然,我当前给你选的都是一些常用的,也是一看就容易明白的指令。明白了这些之后,你可以进一步研究更多的指令了。 在初步研究了ARM架构以后,我们再接再厉,了解一下X86架构。因为我们的台式机和服务器,目前大多采用的还都是X86架构的CPU。对于64位的CPU,这个系列的架构也叫做X64架构,或者是AMD64架构。并且,你还可以把它跟ARM架构做对比,了解它们的相同点和不同点,对比着学习,你可以有更多的收获。 ## 了解X86架构 X86架构的CPU有着很长的历史,贯穿了整个PC的发展史。要了解X86架构,当然也是看手册就行了,手册名称叫做《[Intel® 64 and IA-32 Architectures Software Developer’s Manual](https://software.intel.com/content/www/us/en/develop/download/intel-64-and-ia-32-architectures-software-developers-manual-volume-1-basic-architecture.html)》。对于初学者,只需要看第一卷就行了,这一卷不是太厚,但已经足够你获得丰富的信息了。 **首先,我们仍然看看寄存器方面的信息**,X86的架构下的寄存器可以分为下面几种。 * 通用寄存器:随着X86架构在不断地演化,它的可用的寄存器的数量也在不断增加。在64位模式下,一共有16个通用寄存器可以使用,这些寄存器可以用8位、16位、32位和64位的模式访问,分别拥有不同的名称,但实际上对应的是同一个物理寄存器。 ![图片](https://static001.geekbang.org/resource/image/97/5b/97a4d4f82ffa3263ce4388f122b2585b.jpg?wh=1920x668) * 段寄存器:在32位模式下,CPU使用多个段寄存器,分别指向内存中不同段的起始地址,比如代码段、数据段和栈,来帮助计算代码、数据和栈操作的最后的地址,但在64位模式下,段寄存器就没有用了。 * 指令指针(EIP/RIP):在32位模式下,EIP寄存器保存着下一条要执行的指令在代码段中的偏移量。**换句话,代码段的段寄存器的地址加上EIP的地址,就是指令的逻辑地址。**当然,在64位模式下,段寄存器没有用,RIP里的地址就是下一条要执行的指令的地址,它就相当于ARM中的PC寄存器。 * EFLAGS寄存器:这个寄存器有点像ARM中的PSTATE,也是保存了指令执行过程中产生的状态信息,用于执行跳转指令等场景。 这里我补充一下,我前面费这么大的劲介绍段寄存器和指令指针,就是为了让你看出来,虽然不同的CPU架构都能够知道下一条指令的地址,但它的实现机制却是不同的。 **接着,我们再看看X86的指令集。** X86架构的CPU采用的是复杂指令集(CISC),而前面介绍的ARM和RISC-V指令集,都是精简指令集(RISC)。这两者的差别,体现在多个方面,但这些差别不是我们这节课的重点,我建议你自己去查阅一下资料,这里我们主要研究一下指令上的差别。 我在下面这张表里列出了X86指令集中的一些常见的指令,这些指令基本上从字面上也一看就懂。 ![](https://static001.geekbang.org/resource/image/01/81/01f26fe85868d99afecba5caf7213181.jpg?wh=1265x1688) 你要注意的是,这些指令存在8位、16位、32位和64位的模式,你在汇编指令中使用时要带上不同的后缀: ![图片](https://static001.geekbang.org/resource/image/b8/9b/b85f562e1680595c0692465bbd7b0a9b.jpg?wh=1900x774) 接下来,我们再分析一下X86指令的特点。 **首先,大多数指令的源和目标,都支持使用内存地址,而不像精简指令集那样,一般只用load和store指令来做内存的读写。**在计算机发展的早期,寄存器的数量是很少的,这样的指令使用起来更方便。但是现在的手机芯片,都支持比较多的通用寄存器(比如16个甚至更高),可以尽量减少内存读写操作,所以RISC指令的设计方式就更有优势了。 **第二,mov指令的不同。**在ARM的指令中,mov只支持对寄存器的操作。而X86的mov指令,由于支持内存地址作为操作数,所以实际上支持把数据从内存加载到寄存器,从寄存器保存到内存,实现了RISC指令集中的load和store指令的功能。 **第三,对于栈的维护和子过程的调用,X86也有一些特别的指令,方便我们编程。** 比如,通过push指令,我们可以把一个寄存器的值压到栈里,同时修改栈顶指针的值。所以,一条push %rbx指令,相当于下面两条指令,但花费的时间更少。 ```plain subq $8, %rsp        #把%rsp的值减8,也就是栈增长8个字节,从高地址向低地址增长 movq %rbp, (%rsp)    #把%rbp的值写到当前栈顶指示的内存位置 ``` pop指令则是push指令的反向操作。 类似的还有一对指令:call和ret。前者是先把返回地址压到栈里,然后跳转到被调用的子过程的地址。比如“callq \_foo”其实相当于下面两条指令: ```plain pushq %rip  # 保存下一条指令的地址,用于函数返回继续执行 jmp _foo   # 跳转到函数_fun1 ``` ret指令则是一个反向的操作。从栈里取出返回地址,并设置到rip中,让程序跳回来。 关于X86架构及其指令集,我们就先了解到这里。其实我们还有不少细节没有讲到,不过因为下一节课我们就要为X86架构的CPU生成汇编代码了,我们会继续介绍更多的知识点。 ## 课程小结 今天的内容就是这些了,我希望你在这一节课记住这些重要的知识点。 首先,汇编语言是针对具体的CPU架构的,而每种架构的CPU,都有不同的设计,所以它们的汇编语言也都是不同的。CPU架构相当于针对软件开发所提供的一个接口规范,包括了寄存器、指令集、异常处理、内存模式等内容。学习CPU架构相关的知识,最重要的就是学会下载和阅读手册。 我们这一节课初步研究了ARM架构和X86架构的CPU,你会发现它们有一些共性。比如,在寄存器方面,都提供了一些通用寄存器,也都有用于计算代码地址的寄存器,并都能够提供一种机制,用于保存指令执行过程中产生的一些标志信息(或状态信息),用于指令跳转等目的。在指令集方面,它们也都有用于数据处理、数据拷贝(mov)、跳转等类别的指令。 当然,它们也有一些差别,比如X86的数据处理类的指令也可以直接把内存地址作为操作数,等等。 我建议你可以再多看几个不同的指令集,对比着来分析。学习不同的指令集,能避免你的思维被限制在一种CPU设计模式里,这样也可以加深你对各种不同架构的理解。在这里,我特别建议你关注**RISC-V指令集**。由于它开源开放的特点,未来在我国会拥有巨大的发展潜力。运行你的程序的下一个设备,采用的可能就是RISC-V指令集。 好了,今天的要点就是这些。下一节课,我们将开始为X86架构生成汇编代码,继续在底层机制上深钻。 ## 思考题 我们今天学到了指令集的概念,其实你当前使用的CPU可能会同时支持多个指令集。那你知道怎么来查询你的电脑的CPU支持的指令集吗?你可以把查询方法和这些指令集分享出来,并且查一查这些指令集都有什么用途,欢迎分享在留言区。 感谢你和我一起学习,也欢迎你把这节课分享给更多对汇编代码感兴趣的朋友。我是宫文学,我们下节课见。 ## 资源链接 1.[Arm Architecture Reference Manual - Armv8, for A profile Architecture](https://developer.arm.com/documentation/ddi0487/latest)