# 加餐｜阶段答疑：这些代码里的小知识点你都知道吗？

    你好，我是轩脉刃。

上节课国庆特别放送，我们围绕业务架构和基础架构，聊了聊这两种方向在工作上以及在后续发展上的区别，也讲了做系统架构设计的一些术。今天就回归课程，特别整理了关于课程的五个共性问题来解答一下。

## Q1、GitHub分支代码跑不起来怎么办？

GitHub 中的每个分支代码都是可以跑起来的，我本人亲测过了。出现这个问题，可能是因为有的同学只使用go run main.go。

go run main.go 只会运行编译运行的指定文件，而一旦当前目录下有其他文件，就不会运行到了，所以比如在geekbang/02 或者 geekbang/03 分支中，根目录下有其他文件，就不能运行了。**你需要使用 go build 先编译，然后使用./coredemo来运行**。

另外因为最近Go版本更新了，有同学问到这个问题：go mod 能指定 1.xx.x 版本么？比如想要把 go.mod 中指定 go 版本的go 1.17 修改为go 1.17.1，希望我的项目最低要求 1.17.1。但是 Goland 老是把版本号修改回 go 1.17，是不是我哪里设置有问题？

这是一个小知识点，不过估计不是每个人都知道。其实这里不是设置有问题，而是 go.mod 要求就是如此。

指定 go 版本的地方叫 go directive 。它的格式是：

```go
GoDirective = "go" GoVersion newline .
GoVersion = string | ident .  /* valid release version; see above */
The version must be a valid Go release version: a positive integer followed by a dot and a non-negative integer (for example, 1.9, 1.14).

```

其中所谓的 valid release version 为必须是像 1.17 这样，前面是一个点，前面是正整数（其实现在也只能是 1），后面是非负整数。  
go 的版本形如 1.2.3-pre。

一般最多由两个点组成，其中 1 叫做 major version，主版本，非常大的改动的时候才会升级这个版本。而 2 叫做 minor version，表示有一些接口级别的增加，但是会保证向后兼容，才会升级这个版本。而 3 叫做 patch version，顾名思义，一些不影响接口，但是打了一些补丁和修复的版本。

而最后的 pre 叫做 pre-release suffix。可以理解是和 beta 版本一样的概念，在 release 版本出现之前，预先投放在市场的试用版本。

所以 **go mod 中的格式只能允许 major version 和 minor version**。它认为，使用者关注这两个版本号就行，这样能保证使用者在使用 golang 标准库的时候，源码接口并没有增加和修改，不管你使用什么 patch version，你的业务代码都能跑起来。

## Q2、思维导图怎么画？

从第一节课讲Go标准库的源码开始，我们就频繁用到思维导图的方法。这个方法非常好用，特别是复杂的逻辑跳转，画完图之后也就对逻辑基本了解了。当时建议课后你也自己做一下，留言区有同学画了自己的思维导图非常棒，逻辑是正确的。

但是在画图的过程中，我们会出现新的问题，尤其是基础不那么扎实的同学，在不能一眼看出来每行代码都是干什么的，比如可能过多关注分支细节，不知道才能更好地剥离出主逻辑代码。

那怎么才能快速分辨什么是主线、什么是细节呢？

我提供一个思路，在使用思维导图的时候，对于比较复杂的逻辑，我们要**在头脑中模拟一下，要实现这个逻辑，哪些是关键步骤，然后用寻找这些关键步骤的方法来去源码中阅读**。

比如FileServer，是用来实现静态文件服务器的，首先我们先在头脑中有个模拟，我要先对接上ServerHTTP方法，然后要把判断请求路径，要是请求的是文件，那么我就把文件内容拷贝到请求输出中不就行了么。

那么是不是这样的呢，我们带着这种模拟查看代码就能找到代码的关键点有两个。

一是fileHandler，我们能和ListenAndServe 连接起来，它提供了ServeHTTP的方法， 这个是请求处理的入口函数：

```go
// 返回了fileHandler方法
func FileServer(root FileSystem) Handler {
   return &fileHandler{root}
}

func (f *fileHandler) ServeHTTP(w ResponseWriter, r *Request) {
   // 请求的入口
   serveFile(w, r, f.root, path.Clean(upath), true)
}

```

二是 FileServer 最本质的函数，封装了io.CopyN，基本逻辑是：如果是读取文件夹，就遍历文件夹内所有文件，把文件名直接输出返回值；如果是读取文件，就设置文件的阅读指针，使用io.CopyN读取文件内容输出返回值。这里如果需要多次读取文件，创建Goroutine，并为每个Goroutine创建阅读指针。

```go
func serveFile(w ResponseWriter, r *Request, fs FileSystem, name string, redirect bool) {
   ...
   serveContent(w, r, d.Name(), d.ModTime(), sizeFunc, f)
}

func serveContent(w ResponseWriter, r *Request, name string, modtime time.Time, sizeFunc func() (int64, error), content io.ReadSeeker) {
   ...
   if size >= 0 {
   ranges, err := parseRange(rangeReq, size)
   ...
      switch {
      case len(ranges) == 1:
          ...
         ra := ranges[0]
         if _, err := content.Seek(ra.start, io.SeekStart); err != nil {
            Error(w, err.Error(), StatusRequestedRangeNotSatisfiable)
            return
         }
         sendSize = ra.length
         code = StatusPartialContent
         w.Header().Set("Content-Range", ra.contentRange(size))
      case len(ranges) > 1:
         ...
         go func() {
            for _, ra := range ranges {
               part, err := mw.CreatePart(ra.mimeHeader(ctype, size))
               ...
               if _, err := content.Seek(ra.start, io.SeekStart); err != nil {
                  pw.CloseWithError(err)
                  return
               }
               if _, err := io.CopyN(part, content, ra.length); err != nil {
                  pw.CloseWithError(err)
                  return
               }
            }
            mw.Close()
            pw.Close()
         }()
      }
      ...
   }
   w.WriteHeader(code)
   if r.Method != "HEAD" {
      io.CopyN(w, sendContent, sendSize)
   }
}

```

按照这种先模拟步骤再去对比源码寻找的方式，很好用，即使你的模拟步骤出了问题，也会引导你思考，为什么出了问题？哪里出了问题，促使你更仔细地查看源码。不妨试试。

## Q3、http.Server源码为什么是两层循环？

第一节课用思维导图分析了一下http.Server的源码，有同学问了这么一个问题：go c.serve(connCtx) 里面为什么还有一个循环？c指的是一个connection，我理解不是每个连接处理一次就好了吗，为啥还有一个for循环呢？

这里其实有一个扩展知识， HTTP 的keep-alive机制。

**HTTP层有个keep-alive，它主要是用于客户端告诉服务端，这个连接我还会继续使用，在使用完之后不要关闭**。这个设置会影响Web服务的哪几个方面呢？

*   性能

这个设置首先会在性能上对客户端和服务器端性能上有一定的提升。很好理解的是，少了TCP的三次握手和四次挥手，第二次传递数据就可以通过前一个连接，直接进行数据交互了。当然会提升服务性能了。

*   服务器TIME\_WAIT的时间

由于HTTP服务的发起方一般都是浏览器，即客户端，但是先执行完逻辑，传输完数据的一定是服务端。那么一旦没有keep-alive机制，服务端在传送完数据之后，会率先发起连接断开的操作。

由于TCP的四次挥手机制，先发起连接断开的一方，会在连接断开之后进入到TIME\_WAIT的状态，达到2MSL之久。

设想，如果没有开启HTTP的keep-alive，那么这个TIME\_WAIT就会留在服务端，由于服务端资源是非常有限的，**我们当然倾向于服务端不会同一时间hold住过多的连接，这种TIME\_WAIT的状态应该尽量在客户端保持**。那么这个HTTP的keep-alive机制就起到非常重要的作用了。

所以基于这两个原因，现在的浏览器发起Web请求的时候，都会带上connection:keep-alive的头了。

而我们的Go服务器，使用net/http 在启动服务的时候，则会按照当前主流浏览器的设置，默认开启keep-alive机制。服务端的意思就是，只要浏览器端发送的请求头里，要求我开启keep-alive，我就可以支持。

所以在源码这段服务一个连接的conn.server中，会看到有一个for循环，在这个循环中循环读取请求。

```go
// 服务一个连接
func (c *conn) serve(ctx context.Context) {
    c.remoteAddr = c.rwc.RemoteAddr().String()
    ctx = context.WithValue(ctx, LocalAddrContextKey, c.rwc.LocalAddr())

    ...
    // 循环读取，每次读取一次请求
    for {
        w, err := c.readRequest(ctx)
        ...
        // 判断开启keep-alive
        if !w.conn.server.doKeepAlives() {
           return
        }
        ...
    }
}

```

那要关闭keep-alive怎么办呢？你也可以在for循环中的w.conn.server.doKeepAlives 看到，

它判断如果服务端的 disableKeepAlives 不是0，则设置了关闭keep-alive，就不进行for循环了。

```go
// 判断是否开启keep-alive
func (s *Server) doKeepAlives() bool {
    // 如果没开keep-alive，或者在shutdown过程中，就返回false
   return atomic.LoadInt32(&s.disableKeepAlives) == 0 && !s.shuttingDown()
}

```

## Q5、为什么context 作为函数的第一个参数？

context 作为第一个参数在实际工作中是非常有用的一个实践。不管是设计一个函数，还是设计一个结构体的方法或者服务，我们一旦养成了将第一个参数作为 context 的习惯，那么这个 context 在相互调用的时候，就会传递下去。这里会带来两大好处：

1.  链路通用内容传递。

在context 中，是可以通过 WithValue 方法，将某些字段封装在 context 里面，并且传递的。最常见的字段是 traceId、spanId。而在日志中带上这些 ID，再将日志收集起来，我们就能进行分析了。这也是现在比较流行的全链路分析的原理。

2.  链路统一设置超时。

我们在定义一个服务的时候，将第一个参数固定设置为 context，就可以通过这个 context 进行超时设置，而这个超时设置，是由上游调用方来设置的，这样就形成了一个统一的超时设置机制。比如 A 设置了 5s 超时，自己使用了 1s，传递到下游 B 服务的时候，设置 B 的 context 超时时长为 4s。这样全链路超时传递下去，就能保持统一设置了。

## Q5、服务雪崩 case 有哪些？

在第二节课中我们完成了添加 Context 为请求设置超时时间，提到超时很有可能造成雪崩，有同学问到相关问题，引发了我对服务雪崩场景的思考，这里我也简单总结一下。

雪崩的顾名思义，一个服务中断导致其他服务也中断，进而导致大片服务都中断。这里我们最常见的雪崩原因有下列几个：

*   超时设置不合理

服务雪崩最常见的就是**下游服务没设置超时**，导致上游服务不可用，也是我们设置 Context 的原因。![](https://static001.geekbang.org/resource/image/04/db/049079366831da0c849c65b4672744db.jpg?wh=1920x1080)

比如像上图的，A->B->C， C 的超时不合理，导致 B 请求不中止，而进而堆积，B 服务逐渐不可用，同理导致 A 服务也不可用。而在微服务盛行的链式结构中这种影响面会更大。![](https://static001.geekbang.org/resource/image/66/78/664ef442085a4b46f64c193b37649878.jpg?wh=1920x1080)

按照前面的分析，除了 G 之外，其他的节点都会收到波及。

*   重试加大流量

我们在下游调用的时候，经常会使用重试机制来防止网络抖动问题，但是**重试机制一旦使用不合理**，也有可能导致下游服务的不可用。

理论上，越下层的服务可承受的 QPS 应该越高。在微服务链路中，有某个下游服务的 QPS，比如上图中 C 的QPS没有预估正确，当正常请求量上来，C 先扛不住，而扛不住返回的错误码又会让上游服务不断增加重试机制，进一步加剧了下游服务的不可用，进而整个系统雪崩。

*   缓存雪崩

缓存雪崩顾名思义就是，**原本应该打在缓存中的请求全部绕开缓存，打到了 DB**，从而导致 DB 不可用，而 DB 作为一个下游服务节点，不可用会导致上游都出现雪崩效应（这里的 DB 也有可能是各种数据或者业务服务）。![](https://static001.geekbang.org/resource/image/b2/f8/b25dec592b78c1c0ef01bc90223fdcf8.jpg?wh=1920x1080)

为什么会出现缓存雪崩呢，我列了一下工作中经常遇到的缓存导致雪崩的原因，有如下三种：

1.被攻击

在平时写代码中我们日常使用这样的逻辑：“根据请求中的某个值建立 key 去缓存中获取，获取不到就去数据库中获取”。但是这种逻辑其实很容易被攻击者利用，攻击者**只需要建立大量非合理的 key**，就可以打穿缓存进入数据库进行请求。请求量只要足够大，就可以导致绕过缓存，让数据库不可用。

2.缓存瞬时失效

“通过第一个请求建立缓存，建立之后一段时间后失效”。这也是一个经常出现瞬时缓存雪崩的原因。因为有可能在第一次批量建立了缓存后，进行业务逻辑，而**后续并没有更新缓存时长**，那就可能导致批量在统一时间内缓存失效。缓存失效后大批量的请求会涌入后端数据库，导致数据库不可用。

3.缓存热 key

还有一种情况是缓存中的**某个 key 突然有大批量的请求涌**入，而缓存的分布式一般是按照 key 进行节点分布的。这样会导致某个缓存服务节点流量过于集中，不可用。而缓存节点不可用又会导致大批量的请求穿透缓存进入数据库，导致数据库不可用。

关于留言问题的回答，今天就暂时到这里了，之后也会收集做统一答疑。所以欢迎你继续留言给我。下节课见～