You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

104 lines
14 KiB
Markdown

This file contains invisible Unicode characters!

This file contains invisible Unicode characters that may be processed differently from what appears below. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to reveal hidden characters.

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 10 | 发号器如何保证分库分表后ID的全局唯一性
你好,我是唐扬。
在前面两节课程中,我带你了解了分布式存储两个核心问题:数据冗余和数据分片,以及在传统关系型数据库中是如何解决的。当我们面临高并发的查询数据请求时,可以使用主从读写分离的方式,部署多个从库分摊读压力;当存储的数据量达到瓶颈时,我们可以将数据分片存储在多个节点上,降低单个存储节点的存储压力,此时我们的架构变成了下面这个样子:
![](https://static001.geekbang.org/resource/image/14/f5/14dc3467723db359347551c24819c3f5.jpg)
你可以看到我们通过分库分表和主从读写分离的方式解决了数据库的扩展性问题但是在09讲我也提到过数据库在分库分表之后我们在使用数据库时存在的许多限制比方说查询的时候必须带着分区键一些聚合类的查询像是count())性能较差,需要考虑使用计数器等其它的解决方案,其实分库分表还有一个问题我在[09讲](https://time.geekbang.org/column/article/145480)中没有提到,就是主键的全局唯一性的问题。本节课,我将带你一起来了解,在分库分表后如何生成全局唯一的数据库主键。
不过,在探究这个问题之前,你需要对“使用什么字段作为主键”这个问题有所了解,这样才能为我们后续探究如何生成全局唯一的主键做好铺垫。
## 数据库的主键要如何选择?
数据库中的每一条记录都需要有一个唯一的标识,依据数据库的第二范式,数据库中每一个表中都需要有一个唯一的主键,其他数据元素和主键一一对应。
**那么关于主键的选择就成为一个关键点了,**一般来讲,你有两种选择方式:
1.使用业务字段作为主键比如说对于用户表来说可以使用手机号email或者身份证号作为主键。
2.使用生成的唯一ID作为主键。
不过对于大部分场景来说第一种选择并不适用比如像评论表你就很难找到一个业务字段作为主键因为在评论表中你很难找到一个字段唯一标识一条评论。而对于用户表来说我们需要考虑的是作为主键的业务字段是否能够唯一标识一个人一个人可以有多个email和手机号一旦出现变更email或者手机号的情况就需要变更所有引用的外键信息所以使用email或者手机作为主键是不合适的。
身份证号码确实是用户的唯一标识但是由于它的隐私属性并不是一个用户系统的必须属性你想想你的系统如果没有要求做实名认证那么肯定不会要求用户填写身份证号码的。并且已有的身份证号码是会变更的比如在1999年时身份证号码就从15位变更为18位但是主键一旦变更以这个主键为外键的表也都要随之变更这个工作量是巨大的。
**因此我更倾向于使用生成的ID作为数据库的主键。**不单单是因为它的唯一性,更是因为一旦生成就不会变更,可以随意引用。
在单库单表的场景下我们可以使用数据库的自增字段作为ID因为这样最简单对于开发人员来说也是透明的。但是当数据库分库分表后使用自增字段就无法保证ID的全局唯一性了。
想象一下当我们分库分表之后同一个逻辑表的数据被分布到多个库中这时如果使用数据库自增字段作为主键那么只能保证在这个库中是唯一的无法保证全局的唯一性。那么假如你来设计用户系统的时候使用自增ID作为用户ID就可能出现两个用户有两个相同的ID这是不可接受的那么你要怎么做呢我建议你搭建发号器服务来生成全局唯一的ID。
## 基于Snowflake算法搭建发号器
从我历年所经历的项目中我主要使用的是变种的Snowflake算法来生成业务需要的ID的本讲的重点也是运用它去解决ID全局唯一性的问题。搞懂这个算法知道它是怎么实现的就足够你应用它来设计一套分布式发号器了不过你可能会说了“那你提全局唯一性怎么不提UUID呢
没错UUIDUniversally Unique Identifier通用唯一标识码不依赖于任何第三方系统所以在性能和可用性上都比较好我一般会使用它生成Request ID来标记单次请求但是如果用它来作为数据库主键它会存在以下几点问题。
首先生成的ID最好具有单调递增性也就是有序的而UUID不具备这个特点。为什么ID要是有序的呢**因为在系统设计时ID有可能成为排序的字段。**我给你举个例子。
比如你要实现一套评论的系统时你一般会设计两个表一张评论表存储评论的详细信息其中有ID字段有评论的内容还有评论人ID被评论内容的ID等等以ID字段作为分区键另一个是评论列表存储着内容ID和评论ID的对应关系以内容ID为分区键。
我们在获取内容的评论列表时需要按照时间倒序排列因为ID是时间上有序的所以我们就可以按照评论ID的倒序排列。而如果评论ID不是在时间上有序的话我们就需要在评论列表中再存储一个多余的创建时间的列用作排序假设内容ID、评论ID和时间都是使用8字节存储我们就要多出50%的存储空间存储时间字段,造成了存储空间上的浪费。
**另一个原因在于ID有序也会提升数据的写入性能。**
我们知道MySQL InnoDB存储引擎使用B+树存储索引数据而主键也是一种索引。索引数据在B+树中是有序排列的就像下面这张图一样图中21026都是记录的ID也是索引数据。
![](https://static001.geekbang.org/resource/image/83/71/83e43a3868c076fccdc633f5ec2b0171.jpg)
这时当插入的下一条记录的ID是递增的时候比如插入30时数据库只需要把它追加到后面就好了。但是如果插入的数据是无序的比如ID是13那么数据库就要查找13应该插入的位置再挪动13后面的数据这就造成了多余的数据移动的开销。
![](https://static001.geekbang.org/resource/image/34/2a/34b2a05a6fc70730748eaaed12bc9b2a.jpg)
我们知道机械磁盘在完成随机的写时,需要先做“寻道”找到要写入的位置,也就是让磁头找到对应的磁道,这个过程是非常耗时的。而顺序写就不需要寻道,会大大提升索引的写入性能。
**UUID不能作为ID的另一个原因是它不具备业务含义**其实现实世界中使用的ID中都包含有一些有意义的数据这些数据会出现在ID的固定的位置上。比如说我们使用的身份证的前六位是地区编号714位是身份证持有人的生日不同城市电话号码的区号是不同的你从手机号码的前三位就可以看出这个手机号隶属于哪一个运营商。而如果生成的ID可以被反解那么从反解出来的信息中我们可以对ID来做验证我们可以从中知道这个ID的生成时间从哪个机房的发号器中生成的为哪个业务服务的对于问题的排查有一定的帮助。
最后UUID是由32个16进制数字组成的字符串如果作为数据库主键使用比较耗费空间。
你能看到UUID方案有很大的局限性也是我不建议你用它的原因而twitter提出的Snowflake算法完全可以弥补UUID存在的不足因为它不仅算法简单易实现也满足ID所需要的全局唯一性单调递增性还包含一定的业务上的意义。
Snowflake的核心思想是将64bit的二进制数字分成若干部分每一部分都存储有特定含义的数据比如说时间戳、机器ID、序列号等等最终生成全局唯一的有序ID。它的标准算法是这样的
![](https://static001.geekbang.org/resource/image/2d/8d/2dee7e8e227a339f8f3cb6e7b47c0c8d.jpg)
从上面这张图中我们可以看到41位的时间戳大概可以支撑pow(2,41)/1000/60/60/24/365年约等于69年对于一个系统是足够了。
如果你的系统部署在多个机房那么10位的机器ID可以继续划分为23位的IDC标示可以支撑4个或者8个IDC机房和78位的机器ID支持128-256台机器12位的序列号代表着每个节点每毫秒最多可以生成4096的ID。
不同公司也会依据自身业务的特点对Snowflake算法做一些改造比如说减少序列号的位数增加机器ID的位数以支持单IDC更多的机器也可以在其中加入业务ID字段来区分不同的业务。**比方说我现在使用的发号器的组成规则就是:**1位兼容位恒为0 + 41位时间信息 + 6位IDC信息支持64个IDC+ 6位业务信息支持64个业务+ 10位自增信息每毫秒支持1024个号
我选择这个组成规则主要是因为我在单机房只部署一个发号器的节点并且使用KeepAlive保证可用性。业务信息指的是项目中哪个业务模块使用比如用户模块生成的ID内容模块生成的ID把它加入进来一是希望不同业务发出来的ID可以不同二是因为在出现问题时可以反解ID知道是哪一个业务发出来的ID。
那么了解了Snowflake算法的原理之后我们如何把它工程化来为业务生成全局唯一的ID呢**一般来说我们会有两种算法的实现方式:**
**一种是嵌入到业务代码里,也就是分布在业务服务器中。**这种方案的好处是业务代码在使用的时候不需要跨网络调用性能上会好一些但是就需要更多的机器ID位数来支持更多的业务服务器。另外由于业务服务器的数量很多我们很难保证机器ID的唯一性所以就需要引入ZooKeeper等分布式一致性组件来保证每次机器重启时都能获得唯一的机器ID。
**另外一个部署方式是作为独立的服务部署,这也就是我们常说的发号器服务。**业务在使用发号器的时候就需要多一次的网络调用但是内网的调用对于性能的损耗有限却可以减少机器ID的位数如果发号器以主备方式部署同时运行的只有一个发号器那么机器ID可以省略这样可以留更多的位数给最后的自增信息位。即使需要机器ID因为发号器部署实例数有限那么就可以把机器ID写在发号器的配置文件里这样可以保证机器ID唯一性也无需引入第三方组件了。**微博和美图都是使用独立服务的方式来部署发号器的性能上单实例单CPU可以达到两万每秒。**
Snowflake算法设计得非常简单且巧妙性能上也足够高效同时也能够生成具有全局唯一性、单调递增性和有业务含义的ID但是它也有一些缺点其中最大的缺点就是它依赖于系统的时间戳一旦系统时间不准就有可能生成重复的ID。所以如果我们发现系统时钟不准就可以让发号器暂时拒绝发号直到时钟准确为止。
另外如果请求发号器的QPS不高比如说发号器每毫秒只发一个ID就会造成生成ID的末位永远是1那么在分库分表时如果使用ID作为分区键就会造成库表分配的不均匀。**这一点,也是我在实际项目中踩过的坑,而解决办法主要有两个:**
1.时间戳不记录毫秒而是记录秒,这样在一个时间区间里可以多发出几个号,避免出现分库分表时数据分配不均。
2.生成的序列号的起始号可以做一下随机这一秒是21下一秒是30这样就会尽量地均衡了。
我在开头提到自己的实际项目中采用的是变种的Snowflake算法也就是说对Snowflake算法进行了一定的改造从上面的内容中你可以看出这些改造一是要让算法中的ID生成规则符合自己业务的特点二是为了解决诸如时间回拨等问题。
其实大厂除了采取Snowflake算法之外还会选用一些其他的方案比如滴滴和美团都有提出基于数据库生成ID的方案。这些方法根植于公司的业务同样能解决分布式环境下ID全局唯一性的问题。对你而言可以多角度了解不同的方法这样能够寻找到更适合自己业务目前场景的解决方案不过我想说的是**方案不在多,而在精,方案没有最好,只有最适合,真正弄懂方法背后的原理,并将它落地,才是你最佳的选择。**
## 课程小结
本节课我结合自己的项目经历带你了解了如何使用Snowflake算法解决分库分表后数据库ID的全局唯一的问题在这个问题中又延伸性地带你了解了生成的ID需要满足单调递增性以及要具有一定业务含义的特性。当然我们重点的内容是讲解如何将Snowflake算法落地以及在落地过程中遇到了哪些坑带你去解决它。
Snowflake的算法并不复杂你在使用的时候可以b不考虑独立部署的问题先想清楚按照自身的业务场景需要如何设计Snowflake算法中的每一部分占的二进制位数。比如你的业务会部署几个IDC应用服务器要部署多少台机器每秒钟发号个数的要求是多少等等然后在业务代码中实现一个简单的版本先使用等到应用服务器数量达到一定规模再考虑独立部署的问题就可以了。这样可以避免多维护一套发号器服务减少了运维上的复杂度。
## 一课一思
今天的课程中我们了解了分布式发号器的实现原理和生成ID的特性那么在你的系统中你的ID是如何生成的呢欢迎在留言区与我分享你的经验。
最后,感谢你的阅读,如果这篇文章让你有所收获,也欢迎你将它分享给更多的朋友。