You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

115 lines
15 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 32 | FPGA和ASIC计算机体系结构的黄金时代
过去很长一段时间里大家在讲到高科技、互联网、信息技术的时候谈的其实都是“软件”。从1995年微软发布Windows 95开始高科技似乎就等同于软件业和互联网。著名的风险投资基金Andreessen Horowitz的合伙人Marc Andreessen在2011年发表了[一篇博客](https://a16z.com/2011/08/20/why-software-is-eating-the-world/)声称“Software is Eating the World”。Marc Andreessen不仅是投资人更是Netscape的创始人之一。他当时的搭档就是我们在前两讲提过的SGI创始人Jim Clark。
的确过去20年计算机工业界的中心都在软件上。似乎硬件对大家来说慢慢变成了一个黑盒子。虽然必要但却显得有点无关紧要。
不过在上世纪7080年代计算机的世界可不是这样的。那个时候计算机工业届最激动人心的是层出不穷的硬件。无论是Intel的8086还是摩托罗拉的68000这样用于个人电脑的CPU还是直到今天大家还会提起的Macintosh还有史上最畅销的计算机Commodore 64都是在那个时代被创造出来的。
![](https://static001.geekbang.org/resource/image/32/3e/325bfc1e0daa59c3451a6e5361dece3e.png)
电视剧Halt and Catch Fire灵感应该就是来自第一台笔记本电脑Compaq Portable的诞生
不过,随着计算机主频提升越来越困难。这几年,计算机硬件又进入了一个新的、快速发展的时期。
从树莓派基金会这样的非盈利组织开发35美元的单片机到Google这样的巨头为了深度学习专门开发出来的TPU新的硬件层出不穷也无怪乎David Patterson老爷爷去年在拿图灵奖之后专门发表[讲话](https://eecs.berkeley.edu/turing-colloquium/schedule/patterson)说计算机体系结构又进入了一个黄金时代。那今天我就带你一起来看看FPGA和ASIC这两个最近比较时髦的硬件发展。
## FPGA
之前我们讲解CPU的硬件实现的时候说过其实CPU其实就是一些简单的门电路像搭积木一样搭出来的。从最简单的门电路搭建成半加器、全加器然后再搭建成完整功能的ALU。这些电路里呢有完成各种实际计算功能的组合逻辑电路也有用来控制数据访问创建出寄存器和内存的时序逻辑电路。如果你对这块儿内容印象不深可以回顾一下第12讲到第14讲的内容以及第17讲的内容。
好了那现在我问你一个问题在我们现代CPU里面有多少个晶体管这样的电路开关呢这个答案说出来有点儿吓人。一个四核i7的Intel CPU上面的晶体管数量差不多有20亿个。那接着问题就来了我们要想设计一个CPU就要想办法连接这20亿个晶体管。
这已经够难了后面还有更难的。就像我们写程序一样连接晶体管不是一次就能完事儿了的。设计更简单一点儿的专用于特定功能的芯片少不了要几个月。而设计一个CPU往往要以“年”来计。在这个过程中硬件工程师们要设计、验证各种各样的技术方案可能会遇到各种各样的Bug。如果我们每次验证一个方案都要单独设计生产一块芯片那这个代价也太高了。
我们有没有什么办法,不用单独制造一块专门的芯片来验证硬件设计呢?能不能设计一个硬件,通过不同的程序代码,来操作这个硬件之前的电路连线,通过“编程”让这个硬件变成我们设计的电路连线的芯片呢?
![](https://static001.geekbang.org/resource/image/88/7a/88becfbd1d82daad6d2bfebc92809f7a.png)
[图片来源](https://commons.wikimedia.org/wiki/File:Fpga_xilinx_spartan.jpg)
XILINX的FPGA芯片
这个就是我们接下来要说的FPGA也就是**现场可编程门阵列**Field-Programmable Gate Array。看到这个名字你可能要说了这里面每个单词单独我都认识放到一起就不知道是什么意思了。
没关系我们就从FPGA里面的每一个字符一个一个来看看它到底是什么意思。
* P代表Programmable这个很容易理解。也就是说这是一个可以通过编程来控制的硬件。
* G代表Gate也很容易理解它就代表芯片里面的门电路。我们能够去进行编程组合的就是这样一个一个门电路。
* A代表的Array叫作阵列说的是在一块FPGA上密密麻麻列了大量Gate这样的门电路。
* 最后一个F不太容易理解。它其实是说一块FPGA这样的板子可以在“现场”多次进行编程。它不像PALProgrammable Array Logic可编程阵列逻辑这样更古老的硬件设备只能“编程”一次把预先写好的程序一次性烧录到硬件里面之后就不能再修改了。
这么看来其实“FPGA”这样的组合基本上解决了我们前面说的想要设计硬件的问题。我们可以像软件一样对硬件编程可以反复烧录还有海量的门电路可以组合实现复杂的芯片功能。
不过相信你和我一样好奇我们究竟怎么对硬件进行编程呢我们之前说过CPU其实就是通过晶体管来实现各种组合逻辑或者时序逻辑。那么我们怎么去“编程”连接这些线路呢
FPGA的解决方案很精巧我把它总结为这样三个步骤。
**第一,用存储换功能实现组合逻辑。**在实现CPU的功能的时候我们需要完成各种各样的电路逻辑。在FPGA里这些基本的电路逻辑不是采用布线连接的方式进行的而是预先根据我们在软件里面设计的逻辑电路算出对应的真值表然后直接存到一个叫作LUTLook-Up Table查找表的电路里面。这个LUT呢其实就是一块存储空间里面存储了“特定的输入信号下对应输出0还是1”。
![](https://static001.geekbang.org/resource/image/da/1e/da9a35820e7c1038c30ad54390888a1e.jpeg)
如果还没理解你可以想一下这个问题。假如现在我们要实现一个函数这个函数需要返回斐波那契数列的第N项并且限制这个N不会超过100。该怎么解决这个问题呢
斐波那契数列的通项公式是 f(N) = f(N-1) + f(N-2) 。所以我们的第一种办法自然是写一个程序从第1项开始算。但其实还有一种办法就是我们预先用程序算好斐波那契数量前100项然后把它预先放到一个数组里面。这个数组就像 \[1, 1, 2, 3, 5…\] 这样。当要计算第N项的时候呢我们并不是去计算得到结果而是直接查找这个数组里面的第N项。
这里面的关键就在于这个查表的办法不只能够提供斐波那契数列。如果我们要有一个获得N的5次方的函数一样可以先计算好放在表里面进行查询。这个“查表”的方法其实就是FPGA通过LUT来实现各种组合逻辑的办法。
**第二对于需要实现的时序逻辑电路我们可以在FPGA里面直接放上D触发器作为寄存器。**这个和CPU里的触发器没有什么本质不同。不过我们会把很多个LUT的电路和寄存器组合在一起变成一个叫作逻辑簇Logic Cluster的东西。在FPGA里这样组合了多个LUT和寄存器的设备也被叫做CLBConfigurable Logic Block可配置逻辑块
我们通过配置CLB实现的功能有点儿像我们前面讲过的全加器。它已经在最基础的门电路上做了组合能够提供更复杂一点的功能。更复杂的芯片功能我们不用再从门电路搭起可以通过CLB组合搭建出来。
![](https://static001.geekbang.org/resource/image/32/00/325f24043bf68651063dd5b907ab3300.jpeg)
**第三FPGA是通过可编程逻辑布线来连接各个不同的CLB最终实现我们想要实现的芯片功能。**这个可编程逻辑布线你可以把它当成我们的铁路网。整个铁路系统已经铺好了但是整个铁路网里面设计了很多个道岔。我们可以通过控制道岔来确定不同的列车线路。在可编程逻辑布线里面“编程”在做的就是拨动像道岔一样的各个电路开关最终实现不同CLB之间的连接完成我们想要的芯片功能。
于是通过LUT和寄存器我们能够组合出很多CLB而通过连接不同的CLB最终有了我们想要的芯片功能。最关键的是这个组合过程是可以“编程”控制的。而且这个编程出来的软件还可以后续改写重新写入到硬件里。让同一个硬件实现不同的芯片功能。从这个角度来说FPGA也是“软件吞噬世界”的一个很好的例子。
## ASIC
除了CPU、GPU以及刚刚的FPGA我们其实还需要用到很多其他芯片。比如现在手机里就有专门用在摄像头里的芯片录音笔里会有专门处理音频的芯片。尽管一个CPU能够处理好手机拍照的功能也能处理好录音的功能但是我们直接在手机或者录音笔里塞上一个Intel CPU显然比较浪费。
于是,我们就考虑为这些有专门用途的场景,单独设计一个芯片。这些专门设计的芯片呢,我们称之为**ASIC**Application-Specific Integrated Circuit也就是**专用集成电路**。事实上过去几年ASIC发展得特别快。因为ASIC是针对专门用途设计的所以它的电路更精简单片的制造成本也比CPU更低。而且因为电路精简所以通常能耗要比用来做通用计算的CPU更低。而我们上一讲所说的早期的图形加速卡其实就可以看作是一种ASIC。
因为ASIC的生产制造成本以及能耗上的优势过去几年里有不少公司设计和开发ASIC用来“挖矿”。这个“挖矿”说的其实就是设计专门的数值计算芯片用来“挖”比特币、ETH这样的数字货币。
那么我们能不能用刚才说的FPGA来做ASIC的事情呢当然是可以的。我们对FPGA进行“编程”其实就是把FPGA的电路变成了一个ASIC。这样的芯片往往在成本和功耗上优于需要做通用计算的CPU和GPU。
那你可能又要问了那为什么我们干脆不要用ASIC了全都用FPGA不就好了么你要知道其实FPGA一样有缺点那就是它的硬件上有点儿“浪费”。这个很容易理解我一说你就明白了。
每一个LUT电路其实都是一个小小的“浪费”。一个LUT电路设计出来之后既可以实现与门又可以实现或门自然用到的晶体管数量比单纯连死的与门或者或门的要多得多。同时因为用的晶体管多它的能耗也比单纯连死的电路要大单片FPGA的生产制造的成本也比ASIC要高不少。
当然有缺点就有优点FPGA的优点在于它没有硬件研发成本。ASIC的电路设计需要仿真、验证还需要经过流片Tape out变成一个印刷的电路版最终变成芯片。这整个从研发到上市的过程最低花费也要几万美元高的话会在几千万乃至数亿美元。更何况整个设计还有失败的可能。所以如果我们设计的专用芯片只是要制造几千片那买几千片现成的FPGA可能远比花上几百万美元来设计、制造ASIC要经济得多。
实际上到底使用ASIC这样的专用芯片还是采用FPGA这样可编程的通用硬件核心的决策因素还是成本。不过这个成本不只是单个芯片的生产制造成本还要考虑**总体拥有成本**Total Cost of Ownership也就是说除了生产成本之外我们要把研发成本也算进去。如果我们只制造了一片芯片那么成本就是“这枚芯片的成本+为了这枚芯片建的生产线的成本+芯片的研发成本”,而不只是“芯片的原材料沙子的成本+生产的电费”。
单个ASIC的生产制造成本比FPGA低ASIC的能耗也比能实现同样功能的FPGA要低。能耗低意味着长时间运行这些芯片所用的电力成本也更低。
但是ASIC有一笔很高的NRENon-Recuring Engineering Cost一次性工程费用成本。这个成本就是ASIC实际“研发”的成本。只有需要大量生产ASIC芯片的时候我们才能摊薄这份研发成本。
![](https://static001.geekbang.org/resource/image/4c/34/4cbada39aeedefd718eca8c329797834.jpeg)
其实,在我们的日常软件开发过程中,也需要做同样的决策。很多我们需要的功能,可能在市面上已经有开源的软件可以实现。我们可以在开源的软件之上做配置或者开发插件,也可以选择自己从头开始写代码。
在开源软件或者是买来的商业软件上启动往往能很快让产品上线。如果从头开始写代码往往会有一笔不地的NRE成本也就是研发成本。但是通常我们自己写的代码能够100%贴近我们的业务需求后续随着业务需求的改造成本会更低。如果要大规模部署很多服务器的话服务器的成本会更低。学会从TCO和NRE的成本去衡量做决策也是每一个架构师的必修课。
## 总结延伸
好了这一讲里我为你介绍了FPGA和ASIC这两种近年来非常时髦的芯片。
FPGA本质上是一个可以通过编程来控制硬件电路的芯片。我们通过用LUT这样的存储设备来代替需要的硬连线的电路有了可编程的逻辑门然后把很多LUT和寄存器放在一起变成一个更复杂的逻辑电路也就是CLB然后通过控制可编程布线中的很多开关最终设计出属于我们自己的芯片功能。FPGA常常被我们用来进行芯片的设计和验证工作也可以直接拿来当成专用的芯片替换掉CPU或者GPU以节约成本。
相比FPGAASIC在“专用”上更进一步。它是针对特定的使用场景设计出来的芯片比如摄像头、音频、“挖矿”或者深度学习。虽然ASIC的研发成本高昂但是生产制造成本和能耗都很低。所以对于有大量需求的专用芯片用ASIC是很划得来的。而在FPGA和ASIC之间进行取舍就要看两者的整体拥有成本哪一个更低了。
专用芯片的故事我们还没有讲完下一讲我们来看看Google开发的TPU这个近两年最知名的ASIC芯片的故事。
## 推荐阅读
既然用了David Patterson老爷爷的“黄金时代”作为这一讲的标题那么他的这篇讲话不可不读。我在文稿里留下了对应的[文章链接](https://cacm.acm.org/magazines/2019/2/234352-a-new-golden-age-for-computer-architecture/fulltext),你也可以在网络上看对应的[讲话视频和PPT。](https://eecs.berkeley.edu/turing-colloquium/schedule/patterson)
## 课后思考
最后给你留一道思考题。除了我今天讲到的FPGA、ASIC之外你最近关注到什么新的、有意思的硬件呢
欢迎在留言区分享出来。让我们不只了解计算机“软件”,也能够看到更广阔的“硬件”世界。同时,如果你觉得今天的内容很有收获,你也可以把这篇文章分享给你的朋友。