# 26 | 一个嵌入式实时系统都要从哪些方面做好性能优化？

    你好，我是尉刚强。从这节课开始，我们就进入课程的案例分享模块了。在这个模块中，我会通过之前参与的一些真实项目案例，来帮助你巩固前面课程中学习到的各种性能优化技术，并带你进一步深入了解实际项目中的技术落地细节。

今天，我要给你分享的是一个完整的性能优化案例，我会从启动这个性能优化任务开始，带你了解每一步的工作内容，包括如何启动性能分析、设计、实施性能优化工作，以及中间的思考过程，直到最后达成性能优化目标。

在这个具体剖析的过程中，你会发现做好性能优化并不是一锤子的买卖，而是一个系统化的软件工程活动。同时，案例中涵盖的高性能软件设计、高性能编码、性能测试与看护、性能调优等很多方面的具体技巧，你也可以直接拿来在自己参与的项目中使用。

这个性能优化攻关案例，我会按照案例背景、性能分析诊断、性能测试看护、设计与实现优化、优化成果对比的顺序进行介绍，这与我们性能优化工作的开展节奏也是基本一致的。另外为了方便理解，我在讲解案例的过程中，也会省略或简化掉很多跟领域相关的知识，主要聚焦在项目中所使用的性能优化技术。所以这节课，你需要重点关注的就是性能优化的完整实施过程。

那么下面，我们就先来了解下这个案例的背景吧。

### 案例背景

这是一个基于C/C++开发的嵌入式实时软件子系统，它的**核心业务逻辑**是采用一定排序算法，选择出一部分优先级比较高的用户，分配相应的传输带宽资源。其中有几个关键的约束分别是：带宽资源、用户优先级、用户的需求都在实时动态变化中；核心业务逻辑的处理时间不能超过1ms，否则就会导致系统业务出现错误。

然后，这个软件系统**最核心的性能指标**是1ms的调度用户数（完成排序选择和请求带宽资源分配的用户数目），同时还有一些隐含的性能要求，比如版本二级制大小不能增加、调度时延抖动情况不能增加、内存占用空间不能上升，等等。当然，与其他很多性能优化项目一样，这个团队也设定了**性能优化攻关目标：1ms内调度用户数性能提升一倍**（比如从8用户/s提升到16用户/s）。

那么面对这样的需求任务，接下来我们该从哪里开始呢？

### 性能分析诊断

实际上，我们首先应该进行系统化的性能分析诊断，这样才能找出系统中的所有性能瓶颈资源，从而识别出潜在的性能优化点。

那么，在对这个软件系统进行性能分析和诊断时，采用的就是[自顶向下的性能分析方法](https://time.geekbang.org/column/article/392108)，从高性能设计出发（如并发设计、通信设计等），再具体到编码实现技术（如性能模式、数据结构与算法等）。当然，在性能分析的过程中，我们需要同步获取相关的监控观测数据，来帮助验证这些性能分析结论是否是有效的。

在经过系统性的性能分析诊断后，我们最终识别出了一系列的性能优化点，比如并发任务拆分不均衡、消息交互过度互斥、排序算法效率不高、大量的重复计算逻辑，等等。不过这么多的性能优化点，用一节课的时间并不能完全分析清楚，所以这里我选择了其中两个比较有借鉴意义的优化点，来给你具体介绍下，这样你在真实的项目开发过程中，也能识别出这类引起性能劣化的软件设计问题。

**优化点1：类对象存储模型对Cache不友好**

为了方便理解，我把这个软件系统中几个比较关键的类的领域关系，进行了简化处理，然后使用了一个类图来表示，具体如下图所示：

![](https://static001.geekbang.org/resource/image/6f/10/6fc87fe9df1f1cfd60c72497eba7f610.jpg?wh=1891x954)

在这个软件系统中，存在多个Group的对象实例，其中每个Group对象都包含了一组User对象实例（规模一般在1000左右），而每个User对象（用户）又包含了多个特性实例，比如Feature1和Feature2的对象实例。

而这个软件系统的核心计算逻辑是：**按照不同User中的Feature对象实例进行遍历，然后进行排序。**

那么这个时候，你其实会发现这些Feature对象实例空间，在内存中完全是离散分布的，所以就导致了在数据遍历的过程中，数据局部性不友好。当然，这也是该软件系统在运行过程中，数据Cache Miss的概率比较高的主要原因之一。

实际上，这个优化点反映了一个比较重要的现象，也就是很多系统的对象存储模型，会影响到软件的执行性能表现。

**优化点2：业务代码未进行预裁剪，导致代码执行效率不高**

在走读和分析业务代码的过程中，我们发现有大量使用模式的分支选择逻辑（有几百次以上），如下所示：

```
if(mode == TDD1)
{    
 calcBandResTDD1(); 
} 
if(mode == TDD2)
{     
calcBandResTDD2(); 
} 

```

你要知道，**如果业务代码中存在大量的重复分支逻辑判断，就会潜在地影响到指令分支预判成功率，具体表现在指令Cache Miss概率比较高**。所以我们再进一步分析业务逻辑，发现这个软件系统一共有7种工作模式，它们核心的处理流程都是相似的，只是具体的处理细节中存在差异，这样就会导致系统中存在大量的分支选择判断。

但其实，这个软件系统的工作模式选择在运行之前就可以确定了，所以没必要像这个软件编码实现一样，把这种运行前的选择逻辑放到运行过程中去实现。也就是说，我们可以认为本质上所有的这些分支选择逻辑代码，都可以在运行前裁剪掉，从而减少运行时引入的开销。而且，这样也能避免因为在代码运行时加载了很多不需要的代码，而导致出现一些其他的性能问题，比如冗余的内存空间浪费、二进制文件变大等。

其实，这个软件设计与实现问题，也是一个比较典型的导致软件性能劣化的原因之一。就举个简单的例子，在ToB的企业应用开发中，给企业A提供的软件中会包含给企业C开发的一些定制功能，从而就导致企业A的软件运行效率不是最佳的；或者说，某一款电话手表开发的软件App，在运行中加载了很多其他型号电话手表中，定制化的业务代码和对象实例，从而就会引起执行性能不佳，导致App卡顿等问题。

另外不知你发现了没有，这里识别出的这个软件设计实现优化点，并不是通过工具链扫描发现的，而是通过主观地分析和走读业务代码发现的。而且，我们使用工具进一步获取的观测数据，只是为了验证性能分析结论的正确性，以及它对性能产生的具体影响大小。也就是说，**在性能优化过程中，你依赖的应该是自己的独立思考和分析能力，而不是一个具体的工具。**

好，那么当识别出了这么多性能优化点之后，我们是不是就可以直接去动手修改优化代码实现了呢？

实际上，我们并没有这么做，因为在代码设计与实现优化前，我们首先应该构筑性能测试看护网。

### 性能测试看护

因为原来这个软件系统的性能测试是基于真实设备上运行的，所以获取软件性能表现的反馈周期会比较长，而且也不方便获取，软件内部模块级细粒度执行开销的观测统计数据。那么在这种现状下，对软件设计与实现进行优化重构修改，其实会很难获取到及时的反馈信息，从而就会影响到性能调优的工作效率。

因此，我们首先就针对这个软件子系统，**开发了本地化的微基准性能测试用例**，希望可以支持快速获取软件优化重构后，其内部细粒度的观测数据和性能提升的效果反馈。

下面给出的是针对这个软件系统的观测数据伪代码，以及本地性能测试结果的打印效果图，具体如下：

![](https://static001.geekbang.org/resource/image/d5/36/d5c3f9c779cc4ff09ca76424090f2036.jpg?wh=1262x608)

在图中，左边是添加打点代码的示例，其中大括号中的代码会按照TIME\_RECORD\_ID，来统计执行花费的CPU的Cycle数目（指令周期）；右边则是根据性能测试场景，打印出的各个业务流程的具体执行开销。

这样一来，由于这个测试用例可以快速地本地化执行，所以我们就可以很方便地验证软件优化重构后的性能提升效果。接下来，我们就可以开始对软件进行设计与实现的优化了。

### 设计与实现优化

首先我们都知道，**软件设计与实现的优化工作是针对性能分析识别出的性能优化点，采用高性能设计与编码技巧，对软件代码设计与实现进行重构，然后逐步优化提升软件性能的过程。**

当然，每一种性能优化点对应的修改解决方法是不一样的，这里我们再回到前面提到的两个性能优化点，来分别看下怎么去对应解决。

**优化点1：类对象存储模型优化设计**

针对前面提到的那个类对象模型场景，核心的解决思路应该是将所有User对象间的Feature的对象实例内存空间放到一起，比如把系统中所有的Feature1对象实例放在一起，所有的Feature2对象实例放在一起。这样就可以在遍历过程中，实现数据访问有更好的局部性。

具体的设计与实现有很多种方式，这里我就不进行深入介绍了。不过在游戏开发领域，有一个典型的ECS架构模式，其特点之一也是解决了对象存储模型与计算模型解耦的问题，从而提升了软件的Cache友好性，具体你可以参考[ECS架构简介](https://johnyoung404.github.io/2019/06/27/ECS%E6%9E%B6%E6%9E%84%E7%AE%80%E4%BB%8B/)。

**优化点2：裁剪掉未使用的业务代码逻辑**

我们再回到之前介绍的那个存在大量重复分支判断的场景，现在我们已经知道，为了提升运行时的性能，本质上就需要在软件运行过程中裁剪不需要的功能与代码。那么这一步具体要如何实现呢?

对于C/C++语言来说，其实有很多种手段来解决这个问题，下面我就来给你具体介绍一下。

一般情况下，你可以通过**预编译宏**或者构建时的**静态多态技术**，来为不同的工作模式生成不同的二级制交付版本。但这种方式有些局限性，引入过多的编译宏会导致代码的可阅读性变差，同时也会给版本管理增加复杂度。

当然，你还可以使用**运行时多态**，通过为不同的模式创建对应的子类，来减少这种类型的分支判断处理。但这种方式也存在局限性，那就是虚指针调用本质上也是运行时判断的，所以也会影响运行时开销。

最后，我们在优化实现的过程中，可以采用**组合式模式**，比如使用泛型技术，去组合通用计算逻辑和各种工作模式下的差异计算逻辑，从而生成在特定工作模式下的代码，来规避虚指针引入的额外性能开销，以及过多编译宏导致代码可读性差的问题。

> 补充：对于Java来说，在采用多态的方式来解决这种问题的时候，可以充分利用JVM在运行的过程中，只会加载需要的class文件的机制，来避免一些不必要的执行开销；而像Ruby这样的动态语言，你还可以在软件执行期间，通过动态删除或修改函数方法实现来优化性能。所以说，不同语言的解决方法有很多差异，当碰到具体的代码实现优化问题时，你还需要结合特定语言的机制，来重构和优化代码。

总之，在性能优化攻关期间，我们需要持续重构优化后的代码并合入到主线中，同时为了保证性能优化结果可以长期有效，我们需要将微基准性能测试集成到CI流水线中，来帮助我们在软件性能劣化时，可以第一时间发现问题。

最后，这个嵌入式性能优化攻关项目，在经过系统性的性能分析与诊断，以及持续地重构与优化之后，在一年半的时间内，其软件关键性能指标就取得了近一倍的提升。同时还实现了在性能优化的过程中，软件设计更加清晰，代码更加简洁。

### 小结

对于性能优化领域来说，凡是工具可以直接定位和解决的问题，很有可能都不是系统最核心的软件性能问题。所以在对一个复杂软件系统进行性能优化时，需要你具备很强的软件设计和编码能力，同时还需要深入到业务设计与实现中，去识别和发现各种性能优化点，并且还需要逐步修改和重构代码来优化性能，这样才有可能设计和开发出高性能的软件系统。

那么今天这节课，我给你讲解了一个嵌入式实时系统的性能优化攻关项目案例。你应该重点关注的是这个性能优化案例的实施过程，包括其中每一个步骤的核心关注点和解决的问题都是什么，以及这样做的好处是什么。在掌握了实际项目中落地实施性能优化技术的细节之后，你就可以在具体的性能优化项目中，去借鉴和采用这些方法，从而可以在更大程度上去帮助改进软件产品的性能表现。

### 思考题

在你参与的性能优化项目中，关键的性能优化点是通过深入分析业务系统的设计与实现发现的，还是通过监控分析工具来发现的呢？

欢迎在留言区分享出你的答案和分析诊断思路。如果觉得有收获，也欢迎你把今天的内容分享给更多的朋友。