You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

224 lines
16 KiB
Markdown

2 years ago
# 04 | 导航流程从输入URL到页面展示这中间发生了什么
“在浏览器里从输入URL到页面展示这中间发生了什么 ”这是一道经典的面试题能比较全面地考察应聘者知识的掌握程度其中涉及到了网络、操作系统、Web等一系列的知识。所以我在面试应聘者时也必问这道题但遗憾的是大多数人只能回答其中部分零散的知识点并不能将这些知识点串联成线无法系统而又全面地回答这个问题。
那么今天我们就一起来探索下这个流程下图是我梳理出的“从输入URL到页面展示完整流程示意图”
![](https://static001.geekbang.org/resource/image/92/5d/92d73c75308e50d5c06ad44612bcb45d.png)
从输入URL到页面展示完整流程示意图
从图中可以看出,**整个过程需要各个进程之间的配合**,所以在开始正式流程之前,我们还是先来快速回顾下浏览器进程、渲染进程和网络进程的主要职责。
* 浏览器进程主要负责用户交互、子进程管理和文件储存等功能。
* 网络进程是面向渲染进程和浏览器进程等提供网络下载功能。
* 渲染进程的主要职责是把从网络下载的HTML、JavaScript、CSS、图片等资源解析为可以显示和交互的页面。因为渲染进程所有的内容都是通过网络获取的会存在一些恶意代码利用浏览器漏洞对系统进行攻击所以运行在渲染进程里面的代码是不被信任的。这也是为什么Chrome会让渲染进程运行在安全沙箱里就是为了保证系统的安全。
当然,你也可以先回顾下前面的[《01 | Chrome架构仅仅打开了1个页面为什么有4个进程》](https://time.geekbang.org/column/article/113513)这篇文章,来全面了解浏览器多进程架构。
回顾了浏览器的进程架构后,我们再结合上图来看下这个完整的流程,可以看出,整个流程包含了许多步骤,我把其中几个核心的节点用蓝色背景标记出来了。这个过程可以大致描述为如下。
* 首先浏览器进程接收到用户输入的URL请求浏览器进程便将该URL转发给网络进程。
* 然后在网络进程中发起真正的URL请求。
* 接着网络进程接收到了响应头数据,便解析响应头数据,并将数据转发给浏览器进程。
* 浏览器进程接收到网络进程的响应头数据之后,发送“提交导航(CommitNavigation)”消息到渲染进程;
* 渲染进程接收到“提交导航”的消息之后便开始准备接收HTML数据接收数据的方式是直接和网络进程建立数据管道
* 最后渲染进程会向浏览器进程“确认提交”,这是告诉浏览器进程:“已经准备好接受和解析页面数据了”。
* 浏览器进程接收到渲染进程“提交文档”的消息之后,便开始移除之前旧的文档,然后更新浏览器进程中的页面状态。
这其中,**用户发出URL请求到页面开始解析的这个过程就叫做导航**。
## 从输入URL到页面展示
现在我们知道了浏览器几个主要进程的职责,还有在导航过程中需要经历的几个主要的阶段,下面我们就来详细分析下这些阶段,同时也就解答了开头所说的那道经典的面试题。
### 1\. 用户输入
当用户在地址栏中输入一个查询关键字时,地址栏会判断输入的关键字是**搜索内容**,还是**请求的URL**。
* 如果是搜索内容地址栏会使用浏览器默认的搜索引擎来合成新的带搜索关键字的URL。
* 如果判断输入内容符合URL规则比如输入的是 time.geekbang.org那么地址栏会根据规则把这段内容加上协议合成为完整的URL如 [https://time.geekbang.org](https://time.geekbang.org)。
当用户输入关键字并键入回车之后这意味着当前页面即将要被替换成新的页面不过在这个流程继续之前浏览器还给了当前页面一次执行beforeunload事件的机会beforeunload事件允许页面在退出之前执行一些数据清理操作还可以询问用户是否要离开当前页面比如当前页面可能有未提交完成的表单等情况因此用户可以通过beforeunload事件来取消导航让浏览器不再执行任何后续工作。
当前页面没有监听beforeunload事件或者同意了继续后续流程那么浏览器便进入下图的状态
![](https://static001.geekbang.org/resource/image/fa/30/fad33fc7c5f2bdf4e20cac7691484130.png)
开始加载URL浏览器状态
从图中可以看出,当浏览器刚开始加载一个地址之后,标签页上的图标便进入了加载状态。但此时图中页面显示的依然是之前打开的页面内容,并没立即替换为极客时间的页面。因为需要等待提交文档阶段,页面内容才会被替换。
### 2\. URL请求过程
接下来便进入了页面资源请求过程。这时浏览器进程会通过进程间通信IPC把URL请求发送至网络进程网络进程接收到URL请求后会在这里发起真正的URL请求流程。那具体流程是怎样的呢
首先网络进程会查找本地缓存是否缓存了该资源。如果有缓存资源那么直接返回资源给浏览器进程如果在缓存中没有查找到资源那么直接进入网络请求流程。这请求前的第一步是要进行DNS解析以获取请求域名的服务器IP地址。如果请求协议是HTTPS那么还需要建立TLS连接。
接下来就是利用IP地址和服务器建立TCP连接。连接建立之后浏览器端会构建请求行、请求头等信息并把和该域名相关的Cookie等数据附加到请求头中然后向服务器发送构建的请求信息。
服务器接收到请求信息后,会根据请求信息生成响应数据(包括响应行、响应头和响应体等信息),并发给网络进程。等网络进程接收了响应行和响应头之后,就开始解析响应头的内容了。(为了方便讲述,下面我将服务器返回的响应头和响应行统称为响应头。)
**1重定向**
在接收到服务器返回的响应头后网络进程开始解析响应头如果发现返回的状态码是301或者302那么说明服务器需要浏览器重定向到其他URL。这时网络进程会从响应头的Location字段里面读取重定向的地址然后再发起新的HTTP或者HTTPS请求一切又重头开始了。
比如,我们在终端里输入以下命令:
```
curl -I http://time.geekbang.org/
```
`curl -I + URL`的命令是接收服务器返回的响应头的信息。执行命令后,我们看到服务器返回的响应头信息如下:
![](https://static001.geekbang.org/resource/image/65/7e/655cbf32dd4bb6f9decc5c7f9a535a7e.png)
响应行返回状态码301
从图中可以看出极客时间服务器会通过重定向的方式把所有HTTP请求转换为HTTPS请求。也就是说你使用HTTP向极客时间服务器请求时服务器会返回一个包含有301或者302状态码响应头并把响应头的Location字段中填上HTTPS的地址这就是告诉了浏览器要重新导航到新的地址上。
下面我们再使用HTTPS协议对极客时间发起请求看看服务器的响应头信息是什么样子的。
```
curl -I https://time.geekbang.org/
```
我们看到服务器返回如下信息:
![](https://static001.geekbang.org/resource/image/0c/43/0c4987fe5d05646fa8245d8cc50d1a43.png)
响应行返回状态码200
从图中可以看出服务器返回的响应头的状态码是200这是告诉浏览器一切正常可以继续往下处理该请求了。
好了,以上是重定向内容的介绍。现在你应该理解了,**在导航过程中如果服务器响应行的状态码包含了301、302一类的跳转信息浏览器会跳转到新的地址继续导航如果响应行是200那么表示浏览器可以继续处理该请求**。
**2响应数据类型处理**
在处理了跳转信息之后我们继续导航流程的分析。URL请求的数据类型有时候是一个下载类型有时候是正常的HTML页面那么浏览器是如何区分它们呢
答案是Content-Type。**Content-Type是HTTP头中一个非常重要的字段 它告诉浏览器服务器返回的响应体数据是什么类型**然后浏览器会根据Content-Type的值来决定如何显示响应体的内容。
这里我们还是以极客时间为例看看极客时间官网返回的Content-Type值是什么。在终端输入以下命令
```
curl -I https://time.geekbang.org/
```
返回信息如下图:
![](https://static001.geekbang.org/resource/image/89/1c/8951e161b5f44a73e52c16b631a63e1c.png)
含有HTML格式的Content-Type
从图中可以看到响应头中的Content-type字段的值是text/html这就是告诉浏览器服务器返回的数据是**HTML格式**。
接下来我们再来利用curl来请求极客时间安装包的地址如下所示
```
curl -I https://res001.geekbang.org/apps/geektime/android/2.3.1/official/geektime_2.3.1_20190527-2136_offical.apk
```
请求后返回的响应头信息如下:
![](https://static001.geekbang.org/resource/image/59/3b/595902748d7d4c2f9c1d4783962ae43b.png)
含有stream格式的Content-Type
从返回的响应头信息来看其Content-Type的值是application/octet-stream显示数据是**字节流类型**的,通常情况下,浏览器会按照**下载类型**来处理该请求。
需要注意的是如果服务器配置Content-Type不正确比如将text/html类型配置成application/octet-stream类型那么浏览器可能会曲解文件内容比如会将一个本来是用来展示的页面变成了一个下载文件。
所以不同Content-Type的后续处理流程也截然不同。如果Content-Type字段的值被浏览器判断为**下载类型那么该请求会被提交给浏览器的下载管理器同时该URL请求的导航流程就此结束**。但如果是**HTML那么浏览器则会继续进行导航流程**。由于Chrome的页面渲染是运行在渲染进程中的所以接下来就需要准备渲染进程了。
### 3\. 准备渲染进程
默认情况下Chrome会为每个页面分配一个渲染进程也就是说每打开一个新页面就会配套创建一个新的渲染进程。但是也有一些例外在某些情况下浏览器会让多个页面直接运行在同一个渲染进程中。
比如我从极客时间的首页里面打开了另外一个页面——算法训练营我们看下图的Chrome的任务管理器截图
![](https://static001.geekbang.org/resource/image/d8/28/d8fe2afbd8ea2d4a8d8cc4bb14c50f28.png)
多个页面运行在一个渲染进程中
从图中可以看出打开的这三个页面都是运行在同一个渲染进程中进程ID是23601。
**那什么情况下多个页面会同时运行在一个渲染进程中呢?**
要解决这个问题我们就需要先了解下什么是同一站点same-site。具体地讲我们将“**同一站点**”定义为**根域名**例如geekbang.org加上**协议**例如https:// 或者http://),还包含了该根域名下的所有子域名和不同的端口,比如下面这三个:
```
https://time.geekbang.org
https://www.geekbang.org
https://www.geekbang.org:8080
```
它们都是属于**同一站点**因为它们的协议都是HTTPS而且根域名也都是geekbang.org。
Chrome的默认策略是每个标签对应一个渲染进程。但**如果从一个页面打开了另一个新页面,而新页面和当前页面属于同一站点的话,那么新页面会复用父页面的渲染进程**。官方把这个默认策略叫process-per-site-instance。
那若新页面和当前页面不属于同一站点情况又会发生什么样的变化呢比如我通过极客邦页面里的链接打开InfoQ的官网[https://www.infoq.cn/](https://www.infoq.cn/) 因为infoq.cn和geekbang.org不属于同一站点所以infoq.cn会使用一个新的渲染进程你可以参考下图
![](https://static001.geekbang.org/resource/image/fb/74/fba1dd05f0aeba93a5cb25f305971274.png)
非同一站点使用不同的渲染进程
从图中任务管理器可以看出:由于极客邦和极客时间的标签页拥有**相同的协议和根域名**,所以它们属于**同一站点**并运行在同一个渲染进程中而infoq.cn的根域名不同于geekbang.org也就是说InfoQ和极客邦不属于同一站点因此它们会运行在两个不同的渲染进程之中。
总结来说,打开一个新页面采用的**渲染进程策略**就是:
* 通常情况下,打开新的页面都会使用单独的渲染进程;
* 如果从A页面打开B页面且A和B都属于**同一站点**的话那么B页面复用A页面的渲染进程如果是其他情况浏览器进程则会为B创建一个新的渲染进程。
渲染进程准备好之后,还不能立即进入文档解析状态,因为此时的文档数据还在网络进程中,并没有提交给渲染进程,所以下一步就进入了提交文档阶段。
### 4\. 提交文档
所谓提交文档就是指浏览器进程将网络进程接收到的HTML数据提交给渲染进程具体流程是这样的
* 首先当浏览器进程接收到网络进程的响应头数据之后,便向渲染进程发起“提交文档”的消息;
* 渲染进程接收到“提交文档”的消息后,会和网络进程建立传输数据的“管道”;
* 等文档数据传输完成之后,渲染进程会返回“确认提交”的消息给浏览器进程;
* 浏览器进程在收到“确认提交”的消息后会更新浏览器界面状态包括了安全状态、地址栏的URL、前进后退的历史状态并更新Web页面。
其中,当渲染进程**确认提交**之后,更新内容如下图所示:
![](https://static001.geekbang.org/resource/image/d3/b8/d3c5a6188b09b5b57af439005ae7dfb8.png)
导航完成状态
这也就解释了为什么在浏览器的地址栏里面输入了一个地址后,之前的页面没有立马消失,而是要加载一会儿才会更新页面。
到这里,一个完整的导航流程就“走”完了,这之后就要进入渲染阶段了。
### 5\. 渲染阶段
一旦文档被提交,渲染进程便开始页面解析和子资源加载了,关于这个阶段的完整过程,我会在下一篇文章中来专门介绍。这里你只需要先了解一旦页面生成完成,渲染进程会发送一个消息给浏览器进程,浏览器接收到消息后,会停止标签图标上的加载动画。如下所示:
![](https://static001.geekbang.org/resource/image/be/58/bef45eb5b01c34e328486004feedd658.png)
渲染结束
至此一个完整的页面就生成了。那文章开头的“从输入URL到页面展示这中间发生了什么”这个过程及其“串联”的问题也就解决了。
## 总结
好了,今天就到这里,下面我来简单总结下这篇文章的要点:
* 服务器可以根据响应头来控制浏览器的行为,如跳转、网络数据类型判断。
* Chrome默认采用每个标签对应一个渲染进程但是如果两个页面属于同一站点那这两个标签会使用同一个渲染进程。
* 浏览器的导航过程涵盖了从用户发起请求到提交文档给渲染进程的中间所有阶段。
导航流程很重要,它是网络加载流程和渲染流程之间的一座桥梁,如果你理解了导航流程,那么你就能完整串起来整个页面显示流程,这对于你理解浏览器的工作原理起到了点睛的作用。
## 思考时间
最后还是留给你个小作业在上一篇文章中我们介绍了HTTP请求过程在本文我们又介绍了导航流程那么如果再有面试官问你“从输入URL到页面展示这中间发生了什么”这个问题你知道怎么回答了吗可以用你自己的语言组织下就当为你的面试做准备。
欢迎在留言区与我分享你的想法,也欢迎你在留言区记录你的思考过程。感谢阅读,如果你觉得这篇文章对你有帮助的话,也欢迎把它分享给更多的朋友。