You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

124 lines
14 KiB
Markdown

2 years ago
# 04 | DAG与流水线到底啥叫“内存计算”
你好,我是吴磊。
在日常的开发工作中,我发现有两种现象很普遍。
第一种是缓存的滥用。无论是RDD还是DataFrame凡是能产生数据集的地方开发同学一律用cache进行缓存结果就是应用的执行性能奇差无比。开发同学也很委屈“Spark不是内存计算的吗为什么把数据缓存到内存里去性能反而更差了
第二种现象是关于Shuffle的。我们都知道Shuffle是Spark中的性能杀手在开发应用时要尽可能地避免Shuffle操作。不过据我观察很多初学者都没有足够的动力去重构代码来避免Shuffle这些同学的想法往往是“能把业务功能实现就不错了费了半天劲去重写代码就算真的消除了Shuffle能有多大的性能收益啊。”
以上这两种现象可能大多数人并不在意但往往这些细节才决定了应用执行性能的优劣。在我看来造成这两种现象的根本原因就在于开发者对Spark内存计算的理解还不够透彻。所以今天我们就来说说Spark的内存计算都有哪些含义
## 第一层含义:分布式数据缓存
一提起Spark的“内存计算”的含义你的第一反应很可能是Spark允许开发者将分布式数据集缓存到计算节点的内存中从而对其进行高效的数据访问。没错这就是内存计算的**第一层含义:众所周知的分布式数据缓存。**
RDD cache确实是Spark分布式计算引擎的一大亮点也是对业务应用进行性能调优的诸多利器之一很多技术博客甚至是Spark官网都在不厌其烦地强调RDD cache对于应用执行性能的重要性。
正因为考虑到这些因素很多开发者才会在代码中不假思索地滥用cache机制也就是我们刚刚提到的第一个现象。但是这些同学都忽略了一个重要的细节只有需要频繁访问的数据集才有必要cache对于一次性访问的数据集cache不但不能提升执行效率反而会产生额外的性能开销让结果适得其反。
之所以会忽略这么重要的细节背后深层次的原因在于开发者对内存计算的理解仅仅停留在缓存这个层面。因此当业务应用的执行性能出现问题时只好死马当活马医拼命地抓住cache这根救命稻草结果反而越陷越深。
接下来,我们就重点说说内存计算的第二层含义:**Stage内部的流水线式计算模式。**
**在Spark中内存计算有两层含义第一层含义就是众所周知的分布式数据缓存第二层含义是Stage内的流水线式计算模式**。关于RDD缓存的工作原理我会在后续的课程中为你详细介绍今天咱们重点关注内存计算的第二层含义就可以了。
## 第二层含义Stage内的流水线式计算模式
很显然要弄清楚内存计算的第二层含义咱们得从DAG的Stages划分说起。在这之前我们先来说说什么是DAG。
### 什么是DAG
DAG全称Direct Acyclic Graph中文叫有向无环图。顾名思义DAG 是一种“图”。我们知道任何一种图都包含两种基本元素顶点Vertex和边Edge顶点通常用于表示实体而边则代表实体间的关系。**在Spark的DAG中顶点是一个个RDD边则是RDD之间通过dependencies属性构成的父子关系。**
从理论切入去讲解DAG未免枯燥乏味所以我打算借助上一讲土豆工坊的例子来帮助你直观地认识DAG。上一讲土豆工坊成功地实现了同时生产 3 种不同尺寸的桶装“原味”薯片。但是,在将“原味”薯片推向市场一段时间以后,工坊老板发现季度销量直线下滑,不由得火往上撞、心急如焚。此时,工坊的工头儿向他建议:“老板,咱们何不把流水线稍加改造,推出不同风味的薯片,去迎合市场大众的多样化选择?”然后,工头儿把改装后的效果图交给老板,老板看后甚是满意。
![](https://static001.geekbang.org/resource/image/3a/86/3a7f115eaa6c2c307f80e3616e7e9c86.jpg "土豆工坊流水线效果图")
不过改造流水线可是个大工程为了让改装工人能够高效协作工头儿得把上面的改造设想抽象成一张施工流程图。有了这张蓝图工头儿才能给负责改装的工人们分工大伙儿才能拧成一股绳、劲儿往一处使。在上一讲中我们把食材形态类比成RDD把相邻食材形态的关系看作是RDD间的依赖那么显然流水线的施工流程图就是DAG。
![](https://static001.geekbang.org/resource/image/25/75/25a9c00533032886c00c23a351ac9a75.jpg "DAG土豆工坊流水线的设计流程图")
因为DAG中的每一个顶点都由RDD构成对应到上图中就是带泥的土豆potatosRDD清洗过的土豆cleanedPotatosRDD以及调料粉flavoursRDD等等。DAG的边则标记了不同RDD之间的依赖与转换关系。很明显上图中DAG的每一条边都有指向性而且整张图不存在环结构。
那DAG是怎么生成的呢
我们都知道在Spark的开发模型下应用开发实际上就是灵活运用算子实现业务逻辑的过程。开发者在分布式数据集如RDD、 DataFrame或Dataset之上调用算子、封装计算逻辑这个过程会衍生新的子RDD。与此同时子RDD会把dependencies属性赋值到父RDD把compute属性赋值到算子封装的计算逻辑。以此类推在子RDD之上开发者还会继续调用其他算子衍生出新的RDD如此往复便有了DAG。
因此,**从开发者的视角出发DAG的构建是通过在分布式数据集上不停地调用算子来完成的**。
### Stages的划分
现在我们知道了什么是DAG以及DAG是如何构建的。不过DAG毕竟只是一张流程图Spark需要把这张流程图转化成分布式任务才能充分利用分布式集群并行计算的优势。这就好比土豆工坊的施工流程图毕竟还只是蓝图是工头儿给老板画的一张“饼”工头儿得想方设法把它转化成实实在在的土豆加工流水线让流水线能够源源不断地生产不同风味的薯片才能解决老板的燃眉之急。
简单地说从开发者构建DAG到DAG转化的分布式任务在分布式环境中执行其间会经历如下4个阶段
* 回溯DAG并划分Stages
* 在Stages中创建分布式任务
* 分布式任务的分发
* 分布式任务的执行
刚才我们说了内存计算的第二层含义在stages内部因此这一讲我们只要搞清楚DAG是怎么划分Stages就够了。至于后面的3个阶段更偏向调度系统的范畴所以我会在下一讲给你讲清楚其中的来龙去脉。
如果用一句话来概括从DAG到Stages的转化过程那应该是**以Actions算子为起点从后向前回溯DAG以Shuffle操作为边界去划分Stages**。
接下来我们还是以土豆工坊为例来详细说说这个过程。既然DAG是以Shuffle为边界去划分Stages我们不妨先从上帝视角出发看看在土豆工坊设计流程图的DAG中都有哪些地方需要执行数据分发的操作。当然在土豆工坊数据就是各种形态的土豆和土豆片儿。
![](https://static001.geekbang.org/resource/image/3f/5f/3fcb3e400db91198a7499c016ccfb45f.jpg "DAG以Shuffle为边界划分出3个Stages")
仔细观察上面的设计流程图我们不难发现有两个地方需要分发数据。第一个地方是薯片经过烘焙烤熟之后把即食薯片按尺寸大小分发到下游的流水线上这些流水线会专门处理固定型号的薯片也就是图中从bakedChipsRDD到flavouredBakedChipsRDD的那条线。同理不同的调料粉也需要按照风味的不同分发到下游的流水线上用于和固定型号的即食薯片混合也就是图中从flavoursRDD到flavouredBakedChipsRDD那条分支。
同时我们也能发现土豆工坊的DAG应该划分3个Stages出来如图中所示。其中Stage 0包含四个RDD从带泥土豆potatosRDD到即食薯片bakedChipsRDD。Stage 1比较简单它只有一个RDD就是封装调味粉的flavoursRDD。Stage 2包含两个RDD一个是加了不同风味的即食薯片flavouredBakedChipsRDD另一个表示组装成桶已经准备售卖的桶装薯片bucketChipsRDD。
你可能会问“费了半天劲把DAG变成Stages有啥用呢”还真有用内存计算的第二层含义就隐匿于从DAG划分出的一个又一个Stages之中。不过要弄清楚Stage内的流水线式计算模式我们还是得从Hadoop MapReduce的计算模型说起。
### Stage中的内存计算
基于内存的计算模型并不是凭空产生的而是根据前人的教训和后人的反思精心设计出来的。这个前人就是Hadoop MapReduce后人自然就是Spark。
![](https://static001.geekbang.org/resource/image/fb/d7/fbb396536260f43c8764a8e6452a4fd7.jpg "Hadoop MapReduce的计算模型")
MapReduce提供两类计算抽象分别是Map和ReduceMap抽象允许开发者通过实现map 接口来定义数据处理逻辑Reduce抽象则用于封装数据聚合逻辑。MapReduce计算模型最大的问题在于所有操作之间的数据交换都以磁盘为媒介。例如两个Map操作之间的计算以及Map与Reduce操作之间的计算都是利用本地磁盘来交换数据的。不难想象这种频繁的磁盘I/O必定会拖累用户应用端到端的执行性能。
那么这和Stage内的流水线式计算模式有啥关系呢我们再回到土豆工坊的例子中把目光集中在即食薯片分发之前也就是刚刚划分出来的Stage 0。这一阶段包含3个处理操作即清洗、切片和烘焙。按常理来说流水线式的作业方式非常高效带泥土豆被清洗过后会沿着流水线被传送到切片机切完的生薯片会继续沿着流水线再传送到烘焙烤箱整个过程一气呵成。如果把流水线看作是计算节点内存的话那么清洗、切片和烘焙这3个操作都是在内存中完成计算的。
![](https://static001.geekbang.org/resource/image/6e/3b/6e9863b69aca6072b81e6d8e6826903b.jpg "Stage 0包含清洗、切片、烘焙3个操作")
你可能会说“内存计算也不过如此跟MapReduce相比不就是把数据和计算都挪到内存里去了吗”事情可能并没有你想象的那么简单。
在土豆工坊的例子里Stage 0中的每个加工环节都会生产出中间食材如清洗过的土豆、土豆片、即食薯片。我们刚刚把流水线比作内存这意味着每一个算子计算得到的中间结果都会在内存中缓存一份以备下一个算子运算这个过程与开发者在应用代码中滥用RDD cache简直如出一辙。如果你曾经也是逢RDD便cache应该不难想象采用这种计算模式Spark的执行性能不见得比MapReduce强多少尤其是在Stages中的算子数量较多的时候。
既然不是简单地把数据和计算挪到内存那Stage内的流水线式计算模式到底长啥样呢在Spark中**流水线计算模式指的是在同一Stage内部所有算子融合为一个函数Stage的输出结果由这个函数一次性作用在输入数据集而产生**。这也正是内存计算的第二层含义。下面,我们用一张图来直观地解释这一计算模式。
![](https://static001.geekbang.org/resource/image/03/03/03052d8fc98dcf1740ec4a7c29234403.jpg "内存计算的第二层含义")
如图所示在上面的计算流程中如果你把流水线看作是内存每一步操作过后都会生成临时数据如图中的clean和slice这些临时数据都会缓存在内存里。但在下面的内存计算中所有操作步骤如clean、slice、bake都会被捏合在一起构成一个函数。这个函数一次性地作用在“带泥土豆”上直接生成“即食薯片”在内存中不产生任何中间数据形态。
**因此你看,所谓内存计算,不仅仅是指数据可以缓存在内存中,更重要的是让我们明白了,通过计算的融合来大幅提升数据在内存中的转换效率,进而从整体上提升应用的执行性能。**
这个时候我们就可以回答开头提出的第二个问题了费劲去重写代码、消除Shuffle能有多大的性能收益
由于计算的融合只发生在Stages内部而Shuffle是切割Stages的边界因此一旦发生Shuffle内存计算的代码融合就会中断。但是当我们对内存计算有了多方位理解以后就不会一股脑地只想到用cache去提升应用的执行性能而是会更主动地想办法尽量避免Shuffle让应用代码中尽可能多的部分融合为一个函数从而提升计算效率。
## 小结
这一讲我们以两个常见的现象为例探讨了Spark内存计算的含义。
在Spark中内存计算有两层含义第一层含义就是众所周知的分布式数据缓存第二层含义是Stage内的流水线式计算模式。
对于第二层含义我们需要先搞清楚DAG和Stages划分从开发者的视角出发DAG的构建是通过在分布式数据集上不停地调用算子来完成的DAG以Actions算子为起点从后向前回溯以Shuffle操作为边界划分出不同的Stages。
最后我们归纳出内存计算更完整的第二层含义同一Stage内所有算子融合为一个函数Stage的输出结果由这个函数一次性作用在输入数据集而产生。
## 每日一练
今天的内容重在理解,我希望你能结合下面两道思考题来巩固一下。
1. 我们今天说了DAG以Shuffle为边界划分Stages那你知道Spark是根据什么来判断一个操作是否会引入Shuffle的呢
2. 在Spark中同一Stage内的所有算子会融合为一个函数。你知道这一步是怎么做到的吗
期待在留言区看到你的思考和答案,如果对内存计算还有很多困惑,也欢迎你写在留言区,我们下一讲见!