# 17 | Benchmark测试（上）：如何做好微基准测试？

    你好，我是尉刚强。从这节课开始，我们就进入了课程的第三个模块：性能看护篇。接下来，我们会用5节课的时间，来学习和掌握性能测试的核心理论、测试工具的选择和使用，并理解如何才能更好地集成在流水线中监控软件产品性能的能力。

今天，我们先来了解下基准测试（Benchmark）的分类，并重点学习下在进行微基准测试时都会碰到哪些问题，以及高效实现微基准测试的方法步骤和手段。

现在，我想先问你一个问题：软件为什么要进行基准测试呢？

实际上，从软件生命周期的视角来看，由于新需求的不断引入，导致软件实现在持续不断地演进与变化，而在这个过程中，软件的熵会不断增大，同时软件的性能也很容易被不断地劣化。所以说，性能优化是一个持续改进的过程，如果没有好的措施来看护软件的性能基线，就很容易导致软件系统的性能长期处于不稳定的状态。

那么，**基准测试的目的，就是为软件系统获取一个已知的基线水平。**这样，当软件修改变化导致性能发生劣化的时候，我们就可以在第一时间发现问题。

但是，如何对软件系统做好基准测试，是一件非常有挑战的事情！我举个简单的例子，有些互联网SaaS服务在进行性能测试时，需要很大规模的用户接入，可是这在测试场景下是很难构造的。

另外，基准测试按照被测系统规模，可以分为微基准测试与宏基准测试。其中，**微基准测试**主要针对的是**软件编码实现层面**上的性能基线测试，而**宏基准测试**则是针对**产品系统级**所开展的性能基线测试。

所以今天这节课，我会先给你介绍下微基准测试中面临的一些核心挑战与难点，带你分析如何才能做好微基准测试。至于宏基准测试的相关知识点，我会在下节课给你讲解。

不过在开始之前，我还要说明一点，就是由于微基准测试与编程语言实现的相关性比较大，所以接下来，我主要是从程序员使用非常多的Java语言为出发点，来给你介绍微基准测试面临的问题。

OK，下面我们就从Java软件程序的微基准测试开始，来了解下即时编译对代码实现性能测试的影响吧。

## JIT对代码实现性能测试影响

事实上，对于Java软件程序来说，进行微基准测试其实存在很大的挑战，而这其中最大的挑战就来自于**JIT**（Just In Time），也就是JDK中的HotSpot虚拟机的即时编译技术。

JIT技术会在程序运行过程中，寻找到热点代码，并将这部分代码提前编译成机器码保存起来，这样在下次运行时就可以避免解释执行，而是可以直接运行机器码，以此提升系统性能。

**那么JIT又是如何影响微基准测试呢？**下面我就通过几个场景案例，来给你介绍说明下。

首先，在代码运行的过程中，JIT中会对一些比较小的函数方法实施**内联优化**，也就是将一个函数方法（对象方法）生成的指令直接插入到被调用函数的指令内，这样就可以通过减少函数调用开销来提升执行性能。

然后，针对程序中For循环频繁执行的代码块，JIT也会根据循环执行次数来决定是否启动编译优化，当满足一定的次数门限后，就会实施**栈上替换（OSR）**，也就是把循环体内生成的字节码替换为编译好的机器码来加速执行，从而导致For循环在不同遍历中的执行代码和运行时间不一致。

同时，JIT的代码优化是实时动态的行为，会受制于Code Cache的大小限制。所以，如果优化后的运行效果不理想，JIT还会触发**逆优化**，它的功能是把原来放到Code Cache中的机器码删除掉，这部分代码又回退为Java字节码执行。

所以综上所述，这些技术手段其实都会造成代码的执行时间发生变化，进一步就会影响微基准测试（但这只是JIT即时优化技术中很小的一部分，这里我们只需明白JIT技术会影响到代码的微基准测试结果即可）。

而除了各种技术手段的影响之外，还有一个原因，就是Java虚拟机在运行期存在两种模式：Client模式和Server模式。Client模式主要追求编译期的优化速度，而Server模式更关注运行期的性能，所以**针对这两种模式，JIT进行热点代码优化的默认策略并不一样**，这也会直接影响到微基准测试的结果。

那么根据以上的分析，我们怎样才能避免JIT对微基准性能测试带来如此大的干扰呢？

答案就是**使用充足的代码预热**。也就是说，你首先需要将Java的被测代码循环执行很多次，以确保代码已经被JIT优化过，然后再对该段代码进行微基准测试，来获取测量值（如何更方便地进行预热，我会在后面的JMH测试框架部分讲解）。

> 补充：在C/C++语言中，由于在编译期间，所有代码都被编译转换成了汇编指令，所以在对代码段进行性能测试时，并不需要这个单独的预热阶段。

所以简而言之，微基准测试就是对代码执行时间的一项测量活动，而既然是对时间的测量，肯定就会受到测量精度的影响。

那么，针对Java而言，测量时间的精度是否需要满足微基准测试的需求呢？下面我们就一起来探讨下这个问题。

## 测量时间的精度问题

在现实世界中，我们会使用手表来计算时间间隔，如果手表上的时间最小单位是秒，那么你可以大致认为测量出的时间间隔误差小于秒。而在计算机系统中，当测量时间使用更小的单位之后，那测量时间间隔的误差是否仍然小于最小的时间单位呢？

这个答案其实是否定的。因为**对于计算机系统来说，通常测量获取的时间不是准确的**。这要怎么理解呢？接下来我给你举个具体的例子。

在Java语言中，测试时间的方法通常会使用**System.currentTimeMillis()**，这是一个获取系统当前时刻距离1970年1月1日的毫秒偏移量值，因为返回值是一个long类型的数字，所以可以帮助我们更方便地计算时间间隔。

不过，虽然这个接口获取的时间偏移是基于ms（毫秒）单位的，但受制于底层实现的差异，每次获取时间的准确度并不确定，甚至有些场景下获取的时间偏差可能会超过10ms。

因此为了解决这个问题，Java语言中后来引入了一个**System.nanoTime()方法**，这是一个获取系统当前时刻与之前某一个时刻的偏移值，可以支持我们记录更精准的时间间隔。它可以获取更小的时间单位ns（纳秒），但同样的，这并不代表误差会小于ns。

> 补充：目前测量时间间隔的最精确方法是，通过指令获取代码运行期间，CPU中的时钟寄存器差值，再根据CPU的时钟周期频率来计算出时间间隔。这种方式在做C/C++实时系统的运行时间分析时，使用得比较多，但它也受制于CPU的指令级发射机制和编译乱序优化的影响，测试出来的时间间隔也会存在一定的误差。

实际上，针对较小的代码段运行时间测不准的问题，**微基准测试的一种可行方式**，就是迭代、累积运行多次后获取的测试时间间隔，然后再平均到每一次的运行时间上，这样就可以减少获取的时间间隔误差对测量结果的影响。

但这里仍然存在一个问题，就是**对代码段迭代很多次，又容易触发JIT中的栈上替换（OSR）优化**，可真实的业务代码在执行过程中并没有出现JIT，也没有触发OSR。所以这样就会导致基准测试值不能反映真实的业务性能水平问题，你也需要注意规避。

总而言之，针对Java语言，在进行微基准测试时，我们不能太依赖底层接口获取的测量时间精度，因为Java的底层无法保证测量精度是非常准确的。

不过，除了测量时间精度会对测量结果产生影响以外，由于软件代码本身的运行时间也是不确定的，所以针对这种情况，我们在做微基准测试的时候，还需要在基于波动的测量结果的前提下，来尽量准确地获取平均测量结果，以此支撑性能分析。

那么接下来，我们就具体来看看测量结果数据的波动现象。

## 测量结果数据波动现象

这里我们要先明确一点，就是我们不可能完全剥离掉测试时软硬件运行环境的影响，也不可能完全避免测试结果的计算误差，**我们必须客观接受获取的测量结果存在波动的这种现象**。

那么，由于测试性能获取的结果会是一直波动的，所以根据单次结果去判断性能是否退化，其实也会比较困难。

所以在这个基础上，我们可以基于统计学方法，先测量计算出性能测试结果的波动范围区间，也就是**置信区间**，然后根据测试结果是否落在置信区间，来判断性能基线是否发生变化。

可是这样问题就来了：如何计算出测试结果的波动范围区间呢？我们先来看一张示意图：

![](https://static001.geekbang.org/resource/image/68/f2/68fcee033b19f0b6d7a505982baf65f2.jpg?wh=2000x1052)

如上图所示，你可以获取大量的测试值并计算出平均值，假设你觉得95%左右的测量结果为可信数据，那么你就可以选择平均值周围95%的测量结果的最大值与最小值范围，作为置信区间。

实际上，判断微基准测试的性能是否发生变化，还有一个更有效的手段，就是**使用图表**协助分析测试结果的变化趋势。

![](https://static001.geekbang.org/resource/image/2e/5e/2ee43bf89615d64df27afyy35ae1d45e.jpg?wh=2000x1017)

如上图所示，绿色菱形为每一轮基准测量结果，其中你会比较容易看到一个性能拐点。这是因为图表携带了比置信区间更多的有效信息，更容易进行准确判断。另外，对于性能基线微基准测试而言，它的目标也并不在于追求单次测试结果的准确性，而是要测试出性能变化走势的准确性。

OK，在基于以上微基准测试所面临的问题分析之后，现在我们就知道该如何规避这些因素，以避免影响到微基准测试结果。而接下来我们要讨论的，就是如何更好地实施执行微基准测试的具体方法。

## 实施微基准测试的步骤方法

一般来说，在实施微基准测试的时候，你需要根据具体的被测试代码片段，手动编码很多代码逻辑来获取测量值。但这里存在一个问题，就是你会很容易忽略前面提到的一些实现因素，从而导致测量结果不能准确反映性能。

那么，有没有什么更快速、有效的测试步骤流程呢？这里我根据以往的实践经验，给你总结了一个微基准测试的基本步骤流程，可以帮助你更好地实现微基准测试。

这个步骤方法主要分为四步：

*   第一步，确定被测程序的软硬件运行环境、运行器配置等，都与真实的产品环境保持一致。
*   第二步，合理选择**被测方法**。针对Java而言，首先建议你针对包级别的对外接口方法进行测试，这种类型接口方法的性能更加稳定；其次，由于本身微基准测试有一定的成本，因此仅对性能影响比较大的关键方法进行测试才更划算；最后，由于执行时间越短的方法，测试准确的困难越大，建议选择被测方法的执行时间要超过一定的门限，比如10us等。
*   第三步，开发微基准测试用例，并验证**正确性**和**准确性**。正确性不仅需要确保被测方法被正常执行，已经完成预热阶段，还需要保证被测方法运行方式与产品上线时一致；准确性需要验证测试结果值是否在一个有效的区间范围内波动，才具有指导意义。
*   第四步，执行测试，并导出测试结果，并通过可视化手段分析变化趋势。

不过，如果是自己手动来规避微基准测试的各种问题的话，实施起来会比较复杂。好在每种编程语言都有现成的微基准测试框架可供选择，比如对于Java语言来说，JMH就是首选的微基准性能测试框架；而对C/C++语言而言，Google Benchmark则是首选的微基准测试框架。

所以接下来，我就主要来给你介绍下Java的JMH框架。

## JMH测试框架是如何帮助完成微基准测试的？

JMH（Java Macrobenchmark Harness）是一个测试Java或JVM上其他语言的微基准测试工具，它把支撑微基准测试的标准过程机制与手段都内置到了框架中，从而可以支持我们**通过注解的方式，来高效率开发微基准测试用例**。

我们来看一个例子。如以下代码段所示，我们可以**使用@Benchmark**来标记需要基准测试的方法，然后写一个**main方法**来启动基准测试：

```
@Warmup(iterations = 3, time = 1)
@Measurement(iterations = 2, time = 1)
@BenchmarkMode({Mode.Throughput})
public class Sample {

    @Benchmark   //这里标注的方法就是一个被测函数方法
    public void helloworld() {
        System.out.println("hello world")
    }
    // 
    public static void main(String[] args) throws RunnerException {
        Options opt = new OptionsBuilder()
                .include(Sample.class.getSimpleName())
                .forks(1)
                .build();

        new Runner(opt).run();  //启动基准测试
    }
}

```

另外，在JMH中，我们还可以**使用@Warmup注解来配置预热时间**。下面的代码示例中，就表示配置预热3轮，每轮1秒钟，这样就可以跳过预热阶段，来规避JIT编译优化对测试结果的影响。

```
@Warmup(iterations = 3, time = 1)

```

然后，我们还可以**使用@Measurement注解来配置基准测试运行时间**。下面代码中表示的是配置测试2轮，每轮1秒钟，在每轮执行期间还会不断地迭代执行。因此，我们会得到两轮执行之后的一个测试结果：

```
Benchmark            Mode  Cnt       Score       Error         Units
Sample.helloworld    thrpt  2   2703833258.555 ± 354675008.250  us/op

```

除此之外，JMH还支持以下几种测试模式：

*   **Throughput**，表示吞吐量，测试每秒可以执行操作的次数；
*   **Average Time**，表示平均耗时，测试单次操作的平均耗时；
*   **Sample Time**，表示采样耗时，测试单次操作的耗时，包括最大、最小耗时，以及百分位耗时等；
*   **Single Shot Time**，表示只计算一次的耗时，一般用来测试冷启动的性能（不设置JVM预热）；
*   **All**，表示测试以上的所有指标。

这样，我们就可以通过如下的方式来选择配置前面提到的测试模式：

```
@BenchmarkMode({Mode.Throughput})

```

最后，**JMH还支持多种格式的结果输出**，比如TEST、CSV、SCSV、JSON、LaTeX等。如下所示，这是一个打印出JSON格式的命令：

```
java -jar benchmark.jar -rf json

```

而且JMH的测试结果在导出后，还可以使用JMH Visual进行显示，但这个工具只显示单个测试导出结果。所以在通常情况下，为了更好地监控被测方法的性能变化趋势，我们还需要持续地导出并保存JMH结果，这样才能通过其他可视化手段去分析其变化趋势。

当然了，今天这节课，我主要目的是带你理解做好微基准测试的方法与步骤，所以并不会给你详细介绍JMH的构建配置过程，这里我给你推荐一个基于Gradle构建的[JMH的样例库](https://github.com/melix/jmh-gradle-example)，你可以直接下载下来，参考开发测试用例或配置构建工程。

## 小结

热力学之父开尔文男爵（Lord Kelvin）曾经说过一句对性能优化领域有哲学指导意义的话：If you cannot measure it, you cannot improve it. 这句话的大致意思是，你只能优化你能测量到的性能问题。不仅如此，你也只能看护你能测量到的软件性能。

而微基准测试，正是你支撑与看护高性能编码实现的重要手段。

今天这节课，我带你理解了微基准测试会碰到问题与挑战、高效开展微基准测试的方法步骤，以及借助微基准性能测试框架来更好地协助测试的方法。其中，你需要重点关注的是做好微基准测试的理论和方法，这样当具体的测量结果不准确时，你就可以做到有的放矢，找到应对方案。

另外，通过学习今天的课程，你还可以在深入理解基线性能面临的问题与挑战的基础上，来指导在核心高性能模块软件开发的过程中，准确高效地开发微基准测试，并能够及时发现测试中存在的问题。

## 思考题

在真实的软件产品中，你有没有发现过哪些被测方法代码，很难保持测试态与运行态的执行方式一致的呢?

欢迎在留言区分享你的看法。如果觉得有收获，也欢迎你把今天的内容分享给更多的朋友。