gitbook/手把手带你写一门编程语言/docs/425353.md

# 25｜增强编译器前端功能第4步：综合运用多种语义分析技术

    你好，我是宫文学。

在上一节课，我们比较全面地分析了怎么用集合运算的算法思路实现类型计算。不过，在实际的语义分析过程中，我们往往需要综合运用多种技术。

不知道你还记不记得，我们上一节课举了一个例子，里面涉及了数据流分析和类型计算技术。不过这还不够，今天这节课，我们还要多举几个例子，来看看如何综合运用各种技术来达到语义分析的目的。在这个过程中，你还会加深对类型计算的理解、了解常量折叠和常量传播技术，以及实现更精准的类型推导。

好，我们首先接着上一节课的思路，看一看怎么把数据流分析与类型计算结合起来。

## 在类型计算中使用数据流分析技术

我们再用一下上节课的示例程序foo7。在这个程序中，age的类型是number|null，age1的类型是string|number。我们先让age=18，这时候把age赋给age1是合法的。之后又给age赋值为null，然后再把age赋给age1，这时编译器就会报错。

```plain
function foo7(age : number|null){
    let age1 : string|number;
    age = 18;     //age的值域现在变成了一个值类型：18
    age1 = age;   //OK
    age = null;   //age的值域现在变成了null
    age1 = age;   //错误！
    console.log(age1);
}

```

在这个过程中，age的值域是动态变化的。在这里，我用了“值域”这个词。它其实跟类型是同一个意思。我这里用值域这个词，是强调动态变化的特征。毕竟，如果说到类型，你通常会觉得变量的类型是不变的。如果你愿意，也可以直接把它叫做类型。

你马上就会想到，数据流分析技术很擅长处理这种情况。具体来说，就是在扫描程序代码的过程中，某个值会不断地变化。

提到数据流分析，那自然我们就要先来识别它的5大关键要素了。我们来分析一下。

**首先是分析方向。**这个场景中，分析方向显然是自上而下的。

**第二，是数据流分析针对的变量。**在这个场景中，我们需要分析的是变量的值域。所以，我用了一个varRanges变量，来保存每个变量的值域。varRanges是一个map，每个变量在里面有一个key。

```plain
varRanges:Map<VarSymbol, Type> = new Map();

```

**第三，我们要确定varRanges的初始值。**在这个例子中，每个变量的值域的初始值就是它原来的类型。比如age一开始的值域就是number|null。

**第四，我们要确定转换函数，也就是在什么情况下，变量的值域会发生变化。**在当前的例子中，我们只需要搞清楚变量赋值的情况就可以了。如果我们要在变量声明中进行初始化，那也可以看做是变量赋值。

在变量赋值时，如果=号右边的值是一个常量，那么变量的值域都会变成一个值对象，这种情况我们已经在前一节课分析过了。

那如果=号右边的值不是常量，而是另一个变量呢？比如下面一个例子foo10，x的类型是number|string，y的类型是string。然后把y赋给x。我相信你也看出来，现在x的值域就应该跟y的一样了，都是string。

```plain
function foo10(x : number|string, y : string){
   x = y;    //x的值域变成了string
   if (typeof x == 'string'){  //其实这个条件一定为true
       println("x is string");
   }
}

```

研究一下这个例子，你会发现通过赋值操作，我们把x的值域收窄了。在TypeScript的文档中，这被叫做"[Narrowing](https://www.typescriptlang.org/docs/handbook/2/narrowing.html)"。翻译成汉语的话，我们姑且称之为“窄化”吧。

不过，除了赋值语句，还有其他情况可以让变量的值域窄化，包括使用typeof运算符、真值判断、等值判断、instanceof运算符，以及使用类型断言等等。其中最后两种方法，涉及到对象，我们目前还没有支持对象特性，所以先不讨论了。我们就讨论一下typeof运算符、真值判断和等值判断这三种情况。

首先讨论一下**typeof运算符**。其实在前面的例子foo10中，我们就使用了typeof运算符。typeof是一个类型运算符，它能返回代表变量类型的字符串。不过它的结果只有少量几个值，包括number、string、boolean、object、undefined、symbol和bigint。

我们再举一个例子foo11，看看typeof是如何影响变量的值域的。

```plain
function foo11(x : number|string){
   let y: string;
   if (typeof x === 'string'){  //x的值域变为string
       y = x;                  //OK。
   }
}

```

你可以看到，在示例程序foo11中，x原来的类型是number|string。但在if条件中，我们用typeof进行了类型的检测，只有当x的类型是string的时候，才会进入if块。所以，在if块中，我们用x给string类型的变量y赋值是没有错的。

在使用typeof的表达式中，你可以用四个运算符：===、!==、==和!=。其中===和==的效果是一样的，只不过前者的性能更高。同样，!==和!=也是等价的。

接着，我们看看真值判断。什么是真值判断呢？我们还是举一个例子，这样理解起来更直观一些。

```plain
function foo12(x : string|null){
    let y: string;
    if (x){        //x的值域变为string & !""
        y = x;     //OK。
    }
}

```

在这个例子中，x的类型是string|null。但在if语句中，通过判断x是否为真，把x=null这个选项去掉了，这样就可以把x赋给string类型的y了。

这里，我还要给你补充点背景知识。在TypeScript/JavaScript中，我们其实可以把其他类型的值放入需要boolean值的地方，比如string、number、object等，它们会被自动转化成boolean值。不过，其中有一些值会被转化成false，它们是：0、NaN、“” (空字符串)、0n (bigint类型中的0)、null，以及undefined。

除此之外的值，转化为boolean值以后都是true。所以，在上面foo12示例程序的if条件中，x是true，那它就不可能是null值了，也不可能是空字符串。这样，最后的形成的值域就是string & !“”。

最后，我们再看看**等值判断**。其实我们在上一节就见过等值判断的例子，我们把那个例子程序再拿过来看一下。

```plain
function foo9(age : number|null){
    if (age == 18 || age == 81){  //age的值域现在是 18|81
        console.log("18 or 81");
    }
    else{                         //age的值域是 !18 & !81 & (number | null)
        console.log("age is empty!")
    }
}

```

在这个例子中有一个if语句，其中的条件表达式会生成一个值域，“18|81”。而对于else块，则需要先把“18|81”取补集，然后再跟age原来的值域求交集。

好了，现在我们就分析完了数据流分析中的第四个要素，也就是转换函数。**接下来我们看看最后一个要素，就是汇聚函数**。

什么时候需要用到汇聚函数呢？对于if语句来说，如果程序在if块和else块中都修改了某个变量的值域，那在if语句后面，变量的值域就需要做汇聚。我们还是通过一个例子来说明一下。

在下面的例子foo13中有一个if语句。在这个if语句中，if块和else块分别都有一个对y赋值的语句。在if块中赋值语句是y=x。在这里，x的值域是number，所以y的值域也是number。在else块中，赋值语句是y = 18，那y的值域就是18。

```plain
function foo13(x : number|null){
    let y:number|string;
    let z:number;
    if (x != null){ //x的值域是number
        y = x;      //y的值域是number
    }
    else{
        y = 18;     //y的值域是18
    }               //if语句之后，y的值域是number
    z = y;          //OK
    return z;
}

```

那么，在退出if语句的时候，y的值域应该是什么呢？你稍微分析一下就能看出来，这里应该取两个分支的并集，也就是number。所以把y赋给z是可以的。

你可以把这个例子稍微修改一下，把else块中的赋值语句改为y = “eighteen”。那当退出if语句以后，y的值域是number|“eighteen”。这样你再把y赋给z，编译器就会报错。

```plain
function foo14(x : number|null){
    let y:number|string;
    let z:number;
    if (x != null){ //x的值域是number
        y = x;      //y的值域是number
    }
    else{
        y = "eighteen"; //y的值域是18
    }               //if语句之后，y的值域是number|"eighteen"
    z = y;          //编译器报错！
    return z;
}

```

好了，到目前为止，我已经把数据流分析的5个要素都识别清楚了。思路清楚以后，你就可以去实现了。至于我的参考实现，你可以看一下[TypeChecker](https://gitee.com/richard-gong/craft-a-language/blob/master/25/semantic.ts#L506)。

在这里，我要再分享一点心得。你会发现，即使我们已经多次使用数据流分析技术了，每次我还要把5个要素都过一遍。这是因为，我们做研发的时候，有个思维框架很重要，它可以引导你的思路，避免一些思维盲区。

比如，我在类型计算中使用数据流分析的时候，一开始注意力被其他技术点吸引了，忘记了用整个分析框架检查一遍，结果就忘记了实现汇聚函数，这就会导致一些功能缺失。后来用框架一检查，马上就补上了这个功能。

好了，到这里，我们已经基本介绍清楚了如何使用数据流分析技术来做类型计算。不过，类型计算还可能受到其他技术的影响。接下来我就介绍一下常量折叠（Constant Folding）和常量传播（Constant Propagation）。常量折叠和常量传播的结果，会进一步影响到类型计算的结果。

## 常量折叠和常量传播

我们还是先看一个例子来理解一下这两个概念。这个例子中有x1，x2和x3三个变量。我们首先给x2赋予常量10。接着，我们把x2+8赋给x3。从这里你能计算出，其实x3的值也是一个常量，它的值是18。

```plain
function foo15(x1:number|null):number{
    let x2 = 10;       //x2是常量10
    let x3 = x2 + 8;   //x3是常量18
    if (x1 == x3 ){    //x1的值域是18
        return x1;     //OK!
    }
    return x2;
}

```

你看，执行到这里，我们其实在编译期就把x2+8的值计算出来。这样，在生成汇编代码的时候，我们就不需要进行相应的计算了，直接给x3赋值为18就行了。这个技术就叫做**常量折叠**。它能让一些常量的计算在编译期完成，这样就能提高程序在运行期的性能。

同时，在x3 = x2+8这行程序中，还有一个现象，叫做**常量传播**。什么意思呢？在这行中，x2的值已经是一个常量10了，它的常量值被传播到了x2+8这个表达式中，从而计算出了一个新的常量x3。

再接下来是一个if语句。这个时候，x3的值传播到了if条件中。这就影响到了x1的值域。现在x1的值域就变成18了。所以，当我们在if块中执行return x1的时候，代码是正确的，满足返回值必须是number的要求。

那常量传播具体怎么实现呢？

在PlayScript的实现中，我们给每个表达式都添加了一个constValue属性。通过遍历树的方式，就可以求出每个表达式的常量值，并记录到constValue属性。在生成目标代码的时候，就可以直接使用这个常量值，不需要在运行期做计算。

好了，现在我们已经了解了常量折叠和常量传播技术，也分析了它对类型计算的影响。

不过，到目前为止，对于类型计算的结果，我们都是用在类型检查的场景里。其实，类型计算的结果也能用于类型推导，能够提高类型推导的准确程度。而常量折叠和传播，也会在其中起到作用。

## 类型推导

在之前PlayScript版本中，我们也实现了基本的类型推导功能。但那个时候，类型推导都是基于变量声明时的类型，而不是基于数据流分析来获得变量动态的值域，再根据这个值域做类型推导。基于变量声明进行推导的结果肯定是不够精准的。

同样，我们举个例子看一下。在这个例子中，变量a的类型是number|string，我们再给a赋值为“hello”，现在a的值域是“hello”。再然后呢，我们声明了一个变量b，并把变量a作为它的初始化值。

```plain
function foo16(a:number|string){
    a = "hello";    //a的值域是"hello"
    let b = a;      //推导出b的类型是string
    console.log(typeof b);
}

```

那么问题来了，现在b应该是什么类型呢？我给你两个候选答案，让你选一下：

选项1：b的类型a原来的类型是一样的，都是number|string。

选项2：b的类型是string，因为采用常量传播技术，我们已经知道a的值是“hello”了。

我估计你应该会选出正确的答案，就是选项2。其实，上面的“let b = a”这个语句，就等价于“let b = “hello””，所以你应该能够推导出b的类型是string。

不过，这里要注意，我们不能因为a当前的值域是“hello”，就推导出变量b的类型也是值类型“hello”，这就把变量b限制得太死了。TypeScript会采用“hello”的基础类型string。

类型推导还有更复杂一点的场景。比如，在下面的例子中，我们仍然用a来初始化变量b。不过，现在a的值域是10|null。

```plain
function foo17(a:number|string|null){
    if(a == 10 || a == null){ //a的值域是10|null
        let b = a;            //推导出b的类型是number|null
        if (b == "hello"){    //编译器报错！
            console.log("whoops");
        }
    }
}

```

基于a的值域，编译器会把b的类型推导为number|null。所以，这个时候如果我们用b=="hello"让b跟字符串做比较，编译器就会报错，指出类型number|null和string之间没有重叠，所以不能进行==运算。

![图片](https://static001.geekbang.org/resource/image/fe/92/fe60768d8287005d5671b75233a1fd92.png?wh=1450x332)

好了，通过刚才的分析，相信你对类型计算的在类型推导中的作用，也有了一些直观的了解。

## 课程小结

今天的内容就是这些。在今天这节课，我希望你能在以下几个方面有所收获。

首先，我们采用数据流分析的框架，可以动态地计算变量在每行代码处的值域，或者叫做类型。通过变量赋值、typeof运算符、真值判断和等值判断等操作，变量的值域会不停地被窄化。不过，在多个条件分支汇聚的地方，又会通过求并集而把值域变宽。

第二，常量折叠技术能够在编译期提前计算出常量，这样我们就不需要在运行期再计算了，从而提高程序性能。而常数传播技术，能够把常数随着代码传播到其他地方，从而计算出更多的常量。这些传播出去的常量，还会让类型计算的结果更加准确。

第三，类型计算的结果不仅可以用于类型检查，还可以用于类型推导，让类型推导的结果更加准确。

今天这节课实现的功能，你仍然可以参考[TypeUtil](https://gitee.com/richard-gong/craft-a-language/blob/master/25/types.ts#L7)和[TypeChecker](https://gitee.com/richard-gong/craft-a-language/blob/master/25/semantic.ts#L506)的实现，并且运行[example\_type2.ts](https://gitee.com/richard-gong/craft-a-language/blob/master/25/semantic.ts#L506)示例程序。

为了更好地支持类型计算的功能，我还给编译器增加了对typeof语法的支持。增加的新语法规则叫做typeOfExp。

```plain
primary:  literal | functionCall | '(' expression ')' | typeOfExp ;
typeOfExp : 'typeof' primary;

```

另外，我还增加了对于===和!==的支持。现在你对于支持新的语法规则应该已经驾轻就熟了，所以我在这里就不多展开了。你可以去看看[示例程序的源代码](https://gitee.com/richard-gong/craft-a-language/blob/master/25/parser.ts#L948)。

那么，对TypeScript的类型系统和其他编译器前端功能的实现，我们到此就告一个段落了。这些功能将会给我们后面实现编译器后端特性提供很好的支撑！

## 思考题

今天的思考题是关于类型推导的。如果b的值域是0 | 1 | true | false，那么在“let a = b”这样一个变量声明语句中，编译器推导出的a的类型应该是什么呢？

欢迎你把这节课分享给更多对编译器前端感兴趣的朋友。我是宫文学，我们下节课见。

## 资源链接

1.这节课示例代码的[目录](https://gitee.com/richard-gong/craft-a-language/tree/master/25)；
2.这节课你仍然需要关注[TypeChecker](https://gitee.com/richard-gong/craft-a-language/blob/master/25/semantic.ts#L506)和[TypeUtil](https://gitee.com/richard-gong/craft-a-language/blob/master/25/types.ts#L7)的代码；
3.Parser中解析[TypeOfExp](https://gitee.com/richard-gong/craft-a-language/blob/master/25/parser.ts#L948)的代码，非常简单；
4.测试程序仍然是放在[example\_types.ts](https://gitee.com/richard-gong/craft-a-language/blob/master/25/example_type2.ts)中，不过例子更多了。你每次可以注释掉其他的例子，只运行其中的一个，测试编译器的行为。