gitbook/反爬虫兵法演绎20讲/docs/488513.md

# 11｜反爬虫概述（三）：前端反爬虫是怎么做信息收集的？

    你好，我是DS Hunter。

上一讲，我们已经了解了前端反爬虫中最主要的动作，key的加密，但是除了这件事，前端还可以完成更多的细节来辅助整个反爬虫动作。

例如信息收集，它们虽然不会直接完成“拦截”的动作，看起来也没有什么贡献，但是对于工程师的生存以及“拦截”动作本身的指导和优化来说，却有着不小的辅助功能。最后，我们会把key的加密、信息收集这一切都聚集到规则引擎中统一收口。

这一讲，我们就把目光聚集在信息收集以及规则引擎这两大辅助部分，完成前端反爬虫的主要工作。

## 信息收集

我在[01讲](http://time.geekbang.org/column/article/480101)中，就强调过信息一直是战争的核心，而信息收集是反爬虫的重中之重。公司有爬虫的需求，是希望在信息战中取得胜利，进而赢得商业的战争。而反爬虫方“收集信息”需求的产生，是由于工程师们想在反爬虫这场战争中打赢。

那么，到底要收集什么信息、怎么收集信息呢？后续我们又要怎么利用这些信息呢？我们按照反爬虫的动作顺序，先从信息预收集的部分开始说起。

### 信息预收集

在信息预收集模块，我们需要收集用户特征用于分析，而收集这些信息的方法，都可以认为是收集模块。当然，因为用户特征信息会被送到服务端进行分析检测，所以这里我们收集了哪些数据，应该是一个秘密，尽可能让爬虫方不知道才好。这和后面我们提到的“埋点统计分析”中的普通埋点是不同的。普通埋点，不怕爬虫方知道。

我们在[《05｜通用且基本的检测规则》](http://time.geekbang.org/column/article/483022)里面说到的浏览器特征以及业务特征，其实都是前端的用户特征检测点。这里，我们主要聚焦在技术方面的浏览器特征分析。

浏览器特征，核心其实就是DOM指纹。我们都知道，DOM是一棵树，所以每个节点都可以通过XPath来访问到。同时，还有一部分对象放在了BOM上面，也就是通过window来直接访问。那么具体的访问方式是什么呢？我来帮你回顾一下。这里我们先规定一下，虽然浏览器BOM和浏览器DOM是两个东西，但是访问方式都差不多，在下面同时出现的时候，我们统称DOM了。虽然这样在学术上不正确，但是其实并不影响我们交流。

window是我们整个DOM对象的根节点，我们从这里出发，理论上可以到达DOM对象的任何一个节点。理论上说，我们也可以用Xpath来访问任意一个DOM节点。部分BOM对象即使不可达，我们也可以仿照XPath给BOM做一个类似的定位符，来标记访问信息。这样，我们从window出发，就可以遍历所有的对象了。

但是要注意的是，整个树是存在循环引用的，我们为了避免递归调用死循环，必须进行重复节点检测。这个具体做法就不demo了，检测重复节点可以说是经典面试题了，属于基操。

当然，我们不但可以通过上述的过程拉取整个window对象的信息，还可以进一步进行特征提取，例如取window对象的MD5——当然记得加盐，直接取MD5很容易被猜出来。

我们还可以指定部分的XPath，然后让这部分节点聚合在一起成为一个对象，在浏览器端进行特征提取。这样我们就可以拿到一个用户指纹了。这个指纹可能防冲突并不好，但是伪造难度也并不低。

我们之所以这么费事，非要提取一个指纹出来，而不是直接把信息上报，有以下几个原因：

1.  **被破解几率低：**直接上报很容易被抓，而且因为是明文的，对方一旦知道了逻辑，伪造难度就下降了。

2.  **保密程度高：**指纹是加盐的，因此相同的信息，其实上报的key是不一样的。但是服务端知道原始key是什么，虽然MD5不可逆，但是可以通过已有的key进行再运算。至于盐的上报，可以夹杂在MD5结果里。不一定是insert，也可以是replace，因为少验证几位没什么大事。

3.  **速度快、压力小**：获取指纹之后，传输数据量会大大降低。这样一方面能提升速度，一方面能降低服务器压力。


### 误伤统计收集

误伤统计收集则与普通信息不同。如果说信息预收集，信息来源是用户产生的，后面的埋点信息是反爬系统产生的，那么误伤统计则是一个中间地带。因此，信息预收集需要强加密，埋点统计需要弱加密，而误伤统计则落于两者之间，可以随意选一个加密强度。**当然了，这里的所有强、中、弱都是相对而言的，每一个部分的信息都至关重要。**

我们在[09讲](http://time.geekbang.org/column/article/486912)提到的误伤统计理论中讲过一个“打点法”，也就是客户端每次访问写入一个Cookie，然后在订单之类的页面进行拦截。这一讲的误伤统计收集，同样使用这个方法。不过这一讲我们会就它的加密强度来讨论。由于拦截的过程中是直接读取Cookie的，那么加密主要就是放在写Cookie的地方了。

低级别的加密，是在Cookie里加入用户信息。再升级就可以增加不可逆加密，以服务端有办法鉴别有效性为标准。注意，我们提到不可逆加密的时候，有的朋友经常认为，不可逆加密就是不可逆的，所以客户端肯定不能用，但其实这是错误的想法。

如果在服务端验证时，我们的需求是解密出来的，那不可逆加密当然很难使用。如果我们只是鉴定它是否有效，或者已知入参是有限的，那么就可以使用不可逆加密了。

误伤统计收集与埋点不同，这个不会有高并发——如果有高并发岂不是你的误伤已经血流成河了。因此不用担心高并发无法处理的事情。

不过，如果出于谨慎考虑，也可以做一个熔断：当系统承接不了网络流量时，直接断掉误伤统计，同时熔断掉反爬需求即可。此外，还可以做成更谨慎的：反爬虫默认是断掉的，误伤统计系统定期给爬虫系统充值时间，这样一旦误伤统计系统跪了，反爬虫系统会自动回到默认值，也就是关闭状态。

### 埋点统计分析

如前面所说，埋点信息是非关键信息，因此可以不用特别强的加密。可能你会问：埋点统计是弱加密，那么，无加密不行吗？

答案是，埋点统计可能也会被抓取，也就是爬虫可能爬取埋点，来影响你的统计和决策。不过，由于要得到这个效果的过程是很漫长的，所以大部分爬虫也不会死磕埋点。URL本身不可能被加密，所以加密的就只有报文了。当然，弱加密只是相对而言，如果你的对手真的死磕你的埋点，你也可以提升加密等级，这个不能认死理。

那我们就来看看，埋点信息埋什么呢？这里主要分这么几类：

第一类，常规用户访问数据；
第二类，爬虫访问数据，包括爬虫类型，来源，数量，等等；
第三类，部分测试策略的线上效果收集。这个在13讲会详细说明；

**有了这些数据之后，我们以后做效果检测，或者说，制作ROI报表就容易了很多。**严格来说，埋点统计算是BI的一部分，虽然只是出了几个报表。

实际上，这类报表的汇报意义远远大于实际意义。我在前面说过，我们的系统做了实时的熔断、实时的监控，因此埋点通常只是一些统计数据，用来衡量业务指标的。

但是要注意，汇报也是工作的一部分。在进阶篇的时候我们会提到相关技巧。

例如，所有项目都要汇报ROI，反爬也不例外。没有ROI支撑的项目，光靠理想是活不下去的。而ROI的来源，就是这些埋点数据。

*   **埋点统计的痛点**

排除掉加密信息这个点之后，**埋点信息有几个最大的痛点：并发压力，数据存储压力以及读取速度。**

因为通常来说，这三样同时实现，几乎是不现实的。因此如果必须舍弃一样的话，我们会**选择舍弃读取速度。**因为如果能砍掉产品经理提出的“实时查看爬虫状态”这种无意义的需求的话，我们就可以完成这一切了。为什么说这个需求是无意义的呢？因为实时爬虫状态对于做出决策没有任何价值。有爬虫，系统拦截即可；无爬虫，系统运行即可。看得到，看不到，对公司没有任何影响。

这个主要的影响反倒是在技术侧，技术如果发现误伤较高，系统又没有自动熔断，那么需要手动熔断。当然，这个在误伤统计收集里面就做掉了。而误伤统计本身又没有高并发问题，相当于砍掉了并发压力，来实现需求。

最后，怎么砍掉这个需求呢？砍，也是有技巧的，你凭空砍掉产品经理一个需求，严重影响他的KPI，这是他难以接受的，也必然会与你发生争议。而你给他换个需求，就像上面一样，把埋点监控换成误伤统计监控，他能给老板交差了，也就自然不会和你死磕。

*   **埋点统计的实现方式**

因此我们的实现方式就很好理解了：前端使用大量Server换取网络链接数，同时聚合数据，避免冲击后端收集模块。后端使用常规的高写入速度、低读取速度的存储方式来承接即可。大公司通常有成熟的系统，但是小公司往往没有这个模块，需要自己来实现。

读取数据的时候，因为是高写入速度、低读取速度，我们的读取速度用来换高并发和写入速度了，那就意味着不可能实时查看。而上面我们已经和产品砍掉了实时查看的需求，那么我们的查看方式就只有每日报表这一种了。**实际上，每日一次的报表足够使用了，如果真的有比较实时的要求，撑死也就是一个小时，再高就没有实际意义了。**

低读取速度的存储，应对一小时一次的读取，也是没有任何压力的。这个完全不用担心。

## 规则引擎

综合上一讲说到的key的加密以及这一讲的信息收集、埋点统计分析，你可能意识到了一个问题：我们线上需要大量的变更，而变更就要发布，发布就有流程。但是爬虫不等人，等你变更发布完可能一天过去了，爬虫都走人了。所以，**我们需要一个能够实时变更生产规则的系统。这个系统，我们就称为它规则引擎。**

那么在反爬虫这个case里，**规则引擎有三个主要构成部分，分别是信息收集模块、规则判断模块以及规则执行模块。**其中，规则判断一般是在服务端或者BFF实现的，而信息收集和规则执行都会在前端执行。因此我们主要来看这两点。

首先看信息收集模块的设计。

严格来说，**信息收集模块是流程的起点，因此对于状态机而言它没有前置状态。**

如前面所说，客户端收集的信息，会在客户端进行加密，然后传输过来，那么就可能是可逆加密与不可逆加密两种情况。因此，这里可能会有解密，也就是说会使用到对称加密架构，但也可能没有解密却有验证模块，这就会使用到不可逆加密了，不过这样做的缺点就是可能会丢失细节。

此外，**规则执行模块，这里依然取决于你面临的状况。**

有的系统，针对反爬虫，是无脑拦截的，那么前端无需做什么事情，针对服务的拦截响应做一个友好的兼容处理即可。但是有的系统设计，比较重前端，会进行很多操作，比如前面提到的Cookie等等。这个时候，规则引擎不再是状态机，这里是纯粹的rule。客户端只要写rule的解释逻辑即可。

这里需要注意的是，服务端如果增加了rule，可能导致客户端不兼容，需要考虑热更新的情况。例如，服务端增加了rule，CDN也发布了，但是客户已经几天没刷过页面了，用的还是三天前的js代码。这时候需要考虑做客户端版本容差，单独拉取rule规则执行。

最后，针对规则引擎部分，我们可以做个总结。其实面对“不等人”的爬虫，规则引擎存在的主要作用有四点：

第一，降低发布时间，提升响应速度。
第二，降低研发成本，避免每次都写代码变更。
第三，提升灵活性，更敏捷的对爬虫做出反应。
最后，基于规则而不是基于代码片段特性，可以降低出错的概率。

那么到这里，前端，这个反爬虫的主战场，能够做的事情就已经介绍完了。

## 小结

最后，我来给你做个总结吧。这一讲，我们讲解了前端的辅助工作，信息收集以及规则引擎。

信息预收集本质上相当于游戏里面的插眼，帮助你有更好的视野来进行决策。但是我们都知道，不能把眼镜插在太明显的地方，否则很容易被人排掉，这就是加密的意义所在。而完成预收集之后，就是我们在上一讲一直讨论的key加解密以及混淆的过程了。

接着，在反爬虫动作完成后，不论是出于对效果的检测还是对自己的保护，我们都会进行误伤统计以及埋点统计的分析.。由于这个数据会用于复盘，对自己的决策十分重要，因此如果被爬虫知道了，他们一定会爬这个埋点统计接口来干扰你。所以，这个加密程度也可以根据情况适当调高一些。

最后，规则引擎帮助我们快速响应变化，避免贻误战机。

以上，前端反爬虫的所有动作，就算完成了。在文字的下方，我也为你准备了一张前端反爬虫的完成动作图，希望帮助你理解这两讲的关系。

![](https://static001.geekbang.org/resource/image/96/67/9615fc9103acc1f387689yyfa4736c67.jpg?wh=9000x4633)

## 思考题

好了，又到了愉快的思考题时间。还是三选一的老规矩，你可以任选一个问题在留言区和我一起讨论。

1.  规则引擎本质上跳了生产发布，而制定生产发布流程是为了降低线上变更风险。那么，如果测试质疑你在引入风险越过测试权限，如何回应呢？
2.  理论上说信息收集是越多越好的，但是过多了又会对系统造成较大的压力。那么如何评估需要收集哪些数据呢？
3.  收集的数据里不能包含用户隐私数据， 否则可能有法务风险，尤其是跨国项目。 那么， 如何保证自己收集的数据不会不小心包含用户隐私呢？

期待你在评论区的分享，我会及时回复你。今天诗句的下方，也有关于规则引擎的实现方式——状态机的探讨，如果你有精力，也可以和我一起在评论区讨论。反爬无定式，我们一起探索。

![](https://static001.geekbang.org/resource/image/ca/e3/ca394872a645a4b54fd19fd9baa039e3.jpg?wh=1500x1615)

## 规则引擎的实现方式：状态机

有些课程可能会用状态机这个词，其实规则引擎和状态机基本是一个意思。确切来说，大部分规则引擎是用状态机实现的。没做过的人可能觉得状态机这个词有点高大上，但是说穿了，状态机也不是什么神秘的东西。

现在正好是年初，也许你正在刷题准备面试，那么你一定会做到DP相关的题目，所有题解都会和你说：DP的核心是找到状态转移方程。注意这个词：状态转移。这个词虽然是讲解DP的，但却非常清晰地描述了**状态机的核心：状态，以及转移。**状态，state，名词；转移，也就是action。你的系统能支持这两个事情基本足够了。

简单地说，你的系统存在各种节点（state），在每个state下，根据不同的条件，可以进入另一个状态。也就是action。

有了状态机，就可以实现任意的流程图。这是规则引擎的重要作用。实际上，我们写的很多代码，本质上只是在写流程，例如流量进来，进行规则判定，根据判定结果，进行不同的处理。看起来是代码逻辑，但是抽象一下，这就是流程。看起来是流程，但是再抽象一下，就是状态机。因此有了状态机，就可以任意实现流程变更，而不需要发布了。因此，能大大节约时间，提升灵活性，降低出错概率。

状态机可能在服务端执行，也可能在BFF执行，这取决于公司的架构。当然，要尽量适应公司架构，而不是去改变架构，因为反爬并非一个高ROI项目，不具备这样的实力。如果公司没有BFF，那就老老实实在服务端做就可以了。