You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

122 lines
13 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 特别加餐 | 倒排检索加速(二):如何对联合查询进行加速?
你好,我是陈东。欢迎来到检索专栏的第二次加餐时间。
在上一篇加餐中,我们讲了工业界中,倒排索引是怎么利用基础的数据结构来加速“求交集”过程的。现在,相信你已经对跳表、哈希表和位图的实际使用,有了更深刻的理解和认识了。然而,在日常的检索中,我们往往会面临更复杂的联合查询需求。这个时候,又该如何加速呢?
我们先来看一个例子在一个系统的倒排索引中有4个不同的key分别记录着“北京”“上海”“安卓”“学生”这些标签分别对应着4种人群列表。如果想分析用户的特点我们需要根据不同的标签来选择不同的人群。这个时候我们可能会有以下的联合查询方式
1. 在“北京”或在“上海”,并且使用“安卓”的用户集合。抽象成联合查询表达式就是,(“北京”∪“上海”)∩“安卓”;
2. 在“北京”使用“安卓”,并且是“学生”的用户集合。抽象成联合查询表达式就是,“北京”∩“安卓”∩“学生”。
这只是2个比较有代表性的联合查询方式实际上联合查询的组合表达可以更长、更复杂。对于联合查询在工业界中有许多加速检索的研究和方法比如调整次序法、快速多路归并法、预先组合法和缓存法。今天我们就来聊一聊这四种加速方法。
## 方法一:调整次序法
首先,我们来看调整次序法。那什么是调整次序法呢?接下来,我们就以三个集合的联合查询为例,来一起分析一下。这里我再多说一句,虽然这次讲的是三个集合,但是对于多个集合,我们也是采用同样的处理方法。
假设这里有A、B、C三个集合集合中的元素个数分别为2、20、40而且A包含在B内B包含在C内。这里我先补充一点如果两个集合分别有m个元素和n个元素那使用普通的遍历归并合并它们的时间代价为O(m+n)。接着如果我们要对A、B、C求交集这个时候会有几种不同的求交集次序比如A∩B∩CA∩B∩C等。那我们该如何选择求交集的次序呢下面我们就以这两种求交集次序为例来分析一下不同的求交集次序对检索效率的影响。
当求交集次序是A∩B∩C我们要先对B和C求交集时间代价就是20+40 = 60得到的结果集是B然后B再和A求交集时间代价是2 + 20 = 22。因此最终一共的时间代价就是60 + 22 = 82。
那当求交集次序是A∩B∩C时我们要先对A和B求交集时间代价是2 + 20 = 22得到的结果集是A然后A再和C求交集时间代价是2 + 40 = 42。因此最终的时间代价就是22 + 42 = 64。这比之前的代价要小得多。
![](https://static001.geekbang.org/resource/image/c0/4d/c04b2ecadc46759012e2022c66c3c54d.jpeg)
求A∩B∩CA∩B∩C的过程
除了对A、B、C这三个集合同时取交集以外还有一种常见的联合查询方式就是对其中两个集合取并集之后再和第三个集合取交集比如A ∩BC你可以看我开头举的第一个例子。在这种情况下如果我们不做任何优化查询代价是怎么样的呢让我们一起来看一下。
首先是执行BC的操作时间代价是20 + 40 = 60结果是C。然后再和A求交集时间代价是2+40 = 42。一共是102。
这样的时间代价非常大,那针对这个查询过程我们还可以怎么优化呢?这种情况下,我们可以尝试使用数学公式,对先求并集再求交集的次序进行改造,我们先来复习一个集合分配律公式:
A∩BC=A∩BA∩C
然后,我们就可以把先求并集再求交集的操作,转为先求交集再求并集的操作了。那这个时候,查询的时间代价是多少呢?我们一起来看一下。
首先我们要执行A∩B操作时间代价是2+20 = 22结果是A。然后我们执行A∩C操作时间代价是2+40=42结果也是A。最后我们对两个A求并集时间代价是2+2=4。因此最终总的时间代价是22 + 42 + 4 = 68。这比没有优化前的102要低得多。
![](https://static001.geekbang.org/resource/image/f5/ef/f5509f56323fcd8ff63b3a1f185563ef.jpeg)
求A∩BCA∩BA∩C的过程
这里有一点需要特别注意如果求并集的元素很多比如说BCDEF那我们用分配律改写的时候A就需要分别和B到F求5次交集再将5个结果求并集。这样一来操作的次数会多很多性能就有可能下降。因此我们需要先检查B到F每个集合的大小比如说如果集合中元素个数都明显大于A我们预测它们分别和A求交集能有提速的效果那我们就可以使用集合分配律公式来加速检索。
不知道你有没有注意到在一开始讲这两个例子的时候我们假设了A、有相互包含的关系这是为了方便你更好地理解调整操作次序带来的效率差异。那在真实情况中集合中的关系不会这么理想但是我们分析得到的结论依然是有效的。
## 方法二:快速多路归并法
**但是,**调整次序法有一个前提就是集合的大小要有一定的差异这样的调整效果才会更明显。那如果我们要对多个posting list求交集但是它们的长度差异并不大这又该如何优化呢这个时候我们可以使用跳表法来优化。
在对多个posting list求交集的过程中我们可以**利用跳表的性质,快速跳过多个元素,加快多路归并的效率。**这种方法,我叫它"**快速多路归并法**"。在一些搜索引擎和广告引擎中包括在Elastic Search这类框架里就都使用了这样的技术。那具体是怎么做的呢我们一起来看一下。
其实快速多路归并法的思路和实现都非常简单就是将n个链表的当前元素看作一个**有序循环数组**list\[n\]。并且,对有序循环数组从小到大依次处理,当有序循环数组中的最小值等于最大值,也就是所有元素都相等时,就说明我们找到了公共元素。
这么说可能比较抽象下面我们就以4个链表A、B、C、D求交集为例来讲一讲具体的实现步骤。
第1步将4个链表的当前第一个元素取出让它们按照由小到大的顺序进行排序。然后将链表也按照由小到大有序排列
第2步用一个变量max记录当前4个链表头中最大的一个元素的值
第3步从第一个链表开始判断当前位置的值是否和max相等。如果等于max则说明此时所有链表的当前元素都相等该元素为公共元素那我们就将该元素取出然后回到第一步如果当前位置的值小于max则用**跳表法**快速调整到该链表中**第一个大于等于max的元素位置**如果新位置元素的值大于max则更新max的值。
第4步对下一个链表重复第3步就这样依次处理每个链表处理完第四个链表后循环回到第一个链表用循环数组实现直到链表全部遍历完。
为了帮助你加深理解,我在下面的过程图中加了一个具体的例子,你可以对照前面的文字描述一起消化吸收。
![](https://static001.geekbang.org/resource/image/3b/0c/3ba6d7717f18ff7de99b5a617b894d0c.jpg)
上图的例子中我们通过以上4个步骤找到了公共元素6。接下来你可以试着继续用这个方法去找下一个公共元素11。这里我就不再继续举例了。
## 方法三:预先组合法
接下来我们来说一说第三种方法预先组合法。其实预先组合法的核心原理和我们熟悉的一个系统实现理念一样就是能提前计算好的就不要临时计算。换一句话说对于常见的联合查询我们可以提前将结果算好并将该联合查询定义一个key。那具体该怎么操作呢
假设key1、key2和key3分别的查询结果是A、B、C三个集合。如果我们经常会计算A∩B∩C那我们就可以将key1+key2+key3这个查询定义为一个新的组合key然后对应的posting list就是提前计算好的结果。之后当我们要计算A∩B∩C时直接去查询这个组合key取出对应的posting list就可以了。
![](https://static001.geekbang.org/resource/image/8d/a9/8d989adeb03da29a5f07bf1036bddaa9.jpg)
直接提前组合计算
## 方法四:缓存法加速联合查询
预先组合的方法非常实用,但是在搜索引擎以及一些具有热搜功能的平台中,经常会出现一些最新的查询组合。这些查询组合请求量也很大,但是由于之前没有出现过,因此我们无法使用预先组合的方案来优化。这个时候,我们会使用**缓存技术**来优化。
那什么是缓存技术呢缓存技术就是指将之前的联合查询结果保存下来。这样再出现同样的查询时我们就不需要重复计算了而是直接取出之前缓存的结果即可。这里我们可以借助预先组合法的优化思路为每一个联合查询定义一个新的key将结果作为这个key的posting list保存下来。
但是,我们还要考虑一个问题:内存空间是有限的,不可能无限缓存所有出现过的查询组合。因此,对于缓存,我们需要进行内容替换管理。一种常用的缓存管理技术是**LRU**Least Recently Used也叫作**最近最少使用替换机制**。所谓最近最少使用替换机制,就是如果一个对象长期未被访问,那当缓存满时,它将会被替换。
对于最近最少使用替换机制,一个合适的实现方案是使用双向链表:当一个元素被访问时,将它提到链表头。这个简单的机制能起到的效果是:如果一个元素经常被访问,它就会经常被往前提;如果一个元素长时间未被访问,它渐渐就会被排到链表尾。这样一来,当缓存满时,我们直接删除链表尾的元素即可。
不过我们希望能快速查询缓存那链表的访问速度就不满足我们的需求了。因此我们可以使用O(1)查询代价的哈希表来优化。我们向链表中插入元素时同时向哈希表中插入该元素的key然后这个key对应的value则是链表中这个节点的地址。这样我们在查询这个key的时候就可以通过查询哈希表快速找到链表中的对应节点了。因此使用“**双向链表+哈希表**”是一种常见的实现LRU机制的方案。
![](https://static001.geekbang.org/resource/image/82/85/8243a7be13f1c78330e0109f10fd1a85.jpg)
使用双向链表+哈希表实现LRU机制
通过使用LRU缓存机制我们就可以将临时的查询组合缓存起来快速查询出结果而不需要重复计算了。一旦这个查询组合不是热点了那它就会被LRU机制替换出缓存区让位给新的热点查询组合。
缓存法在许多高并发的查询场景中会起到相当大的作用。比如说在搜索引擎中对于一些特定时段的热门查询缓存命中率能达到60%以上甚至更高,会大大加速系统的检索效率。
## 重点回顾
好了今天的内容就讲到这里。今天我们学习了联合查询的4种优化方法我们一起来回顾一下。
第1种方法是调整次序法它是通过从小到大求交集以及使用集合分配律改写查询使得检索效率得到提升。
第2种方法是快速多路归并法它是利用跳表快速跳过多个元素的能力结合优化的多路归并方案提升多个posting list归并性能的。
第3种方法是预先组合法也就是将热门的查询组合提前处理好作为一个单独的key保存提前计算好的posting list。
第4种则是使用缓存法将临时的热点查询组合进行结果缓存处理避免重复查询每次都要重复计算。
你会看到这4种方法分别从数学、算法、线下工程和线上工程这四种不同的方向对联合查询进行了优化。同时使用它们能让我们从多个维度对联合查询进行加速。
通过上一篇加餐,我相信你也体会到了,如果我们能合理组合和灵活应用简单的数据结构和算法,就能构建出复杂的架构,让它们在工业界的大规模系统中发挥重要的作用。那通过这一篇加餐,你还可以体会到,基础知识的全面性能帮助你从不同的维度去思考,教你用更多的手段去优化系统。
因此,在学习的金字塔中,扎实和稳健的基础知识永远是最重要。多花点时间,打好基础,我相信你一定会有巨大的收获!
## 课堂讨论
最后,我们还是来看一道讨论题。
对于今天介绍的四种方案,你觉得哪一种给你的印象最深刻?你会尝试在怎么样的场景中使用它?为什么?
欢迎在留言区畅所欲言,说出你的思考过程和答案。如果有收获,也欢迎把这篇文章分享给你的朋友。