You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

153 lines
16 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 15 | 高性能数据库集群:分库分表
上期我讲了“读写分离”,读写分离分散了数据库读写操作的压力,但没有分散存储压力,当数据量达到千万甚至上亿条的时候,单台数据库服务器的存储能力会成为系统的瓶颈,主要体现在这几个方面:
* 数据量太大,读写的性能会下降,即使有索引,索引也会变得很大,性能同样会下降。
* 数据文件会变得很大,数据库备份和恢复需要耗费很长时间。
* 数据文件越大,极端情况下丢失数据的风险越高(例如,机房火灾导致数据库主备机都发生故障)。
基于上述原因,单个数据库服务器存储的数据量不能太大,需要控制在一定的范围内。为了满足业务数据存储的需求,就需要将存储分散到多台数据库服务器上。
今天我来介绍常见的分散存储的方法“分库分表”,其中包括“分库”和“分表”两大类。
## 业务分库
**业务分库指的是按照业务模块将数据分散到不同的数据库服务器。**例如,一个简单的电商网站,包括用户、商品、订单三个业务模块,我们可以将用户数据、商品数据、订单数据分开放到三台不同的数据库服务器上,而不是将所有数据都放在一台数据库服务器上。
![](https://static001.geekbang.org/resource/image/71/c9/71f41d46cc5c0405f4d4dc944b4350c9.jpg)
虽然业务分库能够分散存储和访问压力,但同时也带来了新的问题,接下来我进行详细分析。
1.join操作问题
业务分库后原本在同一个数据库中的表分散到不同数据库中导致无法使用SQL的join查询。
例如“查询购买了化妆品的用户中女性用户的列表”这个功能虽然订单数据中有用户的ID信息但是用户的性别数据在用户数据库中如果在同一个库中简单的join查询就能完成但现在数据分散在两个不同的数据库中无法做join查询只能采取先从订单数据库中查询购买了化妆品的用户ID列表然后再到用户数据库中查询这批用户ID中的女性用户列表这样实现就比简单的join查询要复杂一些。
2.事务问题
原本在同一个数据库中不同的表可以在同一个事务中修改业务分库后表分散到不同的数据库中无法通过事务统一修改。虽然数据库厂商提供了一些分布式事务的解决方案例如MySQL的XA但性能实在太低与高性能存储的目标是相违背的。
例如,用户下订单的时候需要扣商品库存,如果订单数据和商品数据在同一个数据库中,我们可以使用事务来保证扣减商品库存和生成订单的操作要么都成功要么都失败,但分库后就无法使用数据库事务了,需要业务程序自己来模拟实现事务的功能。例如,先扣商品库存,扣成功后生成订单,如果因为订单数据库异常导致生成订单失败,业务程序又需要将商品库存加上;而如果因为业务程序自己异常导致生成订单失败,则商品库存就无法恢复了,需要人工通过日志等方式来手工修复库存异常。
3.成本问题
业务分库同时也带来了成本的代价本来1台服务器搞定的事情现在要3台如果考虑备份那就是2台变成了6台。
基于上述原因,对于小公司初创业务,并不建议一开始就这样拆分,主要有几个原因:
* 初创业务存在很大的不确定性,业务不一定能发展起来,业务开始的时候并没有真正的存储和访问压力,业务分库并不能为业务带来价值。
* 业务分库后表之间的join查询、数据库事务无法简单实现了。
* 业务分库后,因为不同的数据要读写不同的数据库,代码中需要增加根据数据类型映射到不同数据库的逻辑,增加了工作量。而业务初创期间最重要的是快速实现、快速验证,业务分库会拖慢业务节奏。
有的架构师可能会想:如果业务真的发展很快,岂不是很快就又要进行业务分库了?那为何不一开始就设计好呢?
其实这个问题很好回答,按照我前面提到的“架构设计三原则”,简单分析一下。
首先这里的“如果”事实上发生的概率比较低做10个业务有1个业务能活下去就很不错了更何况快速发展和中彩票的概率差不多。如果我们每个业务上来就按照淘宝、微信的规模去做架构设计不但会累死自己还会害死业务。
其次,如果业务真的发展很快,后面进行业务分库也不迟。因为业务发展好,相应的资源投入就会加大,可以投入更多的人和更多的钱,那业务分库带来的代码和业务复杂的问题就可以通过增加人来解决,成本问题也可以通过增加资金来解决。
第三单台数据库服务器的性能其实也没有想象的那么弱一般来说单台数据库服务器能够支撑10万用户量量级的业务初创业务从0发展到10万级用户并不是想象得那么快。
而对于业界成熟的大公司来说,由于已经有了业务分库的成熟解决方案,并且即使是尝试性的新业务,用户规模也是海量的,**这与前面提到的初创业务的小公司有本质区别**,因此最好在业务开始设计时就考虑业务分库。例如,在淘宝上做一个新的业务,由于已经有成熟的数据库解决方案,用户量也很大,需要在一开始就设计业务分库甚至接下来介绍的分表方案。
## 分表
将不同业务数据分散存储到不同的数据库服务器,能够支撑百万甚至千万用户规模的业务,但如果业务继续发展,同一业务的单表数据也会达到单台数据库服务器的处理瓶颈。例如,淘宝的几亿用户数据,如果全部存放在一台数据库服务器的一张表中,肯定是无法满足性能要求的,此时就需要对单表数据进行拆分。
单表数据拆分有两种方式:**垂直分表**和**水平分表**。示意图如下:
![](https://static001.geekbang.org/resource/image/13/40/136bc2f01919edcb8271df6f7e71af40.jpg)
为了形象地理解垂直拆分和水平拆分的区别,可以想象你手里拿着一把刀,面对一个蛋糕切一刀:
* 从上往下切就是垂直切分因为刀的运行轨迹与蛋糕是垂直的这样可以把蛋糕切成高度相等面积可以相等也可以不相等的两部分对应到表的切分就是表记录数相同但包含不同的列。例如示意图中的垂直切分会把表切分为两个表一个表包含ID、name、age、sex列另外一个表包含ID、nickname、description列。
* 从左往右切就是水平切分因为刀的运行轨迹与蛋糕是平行的这样可以把蛋糕切成面积相等高度可以相等也可以不相等的两部分对应到表的切分就是表的列相同但包含不同的行数据。例如示意图中的水平切分会把表分为两个表两个表都包含ID、name、age、sex、nickname、description列但是一个表包含的是ID从1到999999的行数据另一个表包含的是ID从1000000到9999999的行数据。
上面这个示例比较简单,只考虑了一次切分的情况,实际架构设计过程中并不局限切分的次数,可以切两次,也可以切很多次,就像切蛋糕一样,可以切很多刀。
单表进行切分后,是否要将切分后的多个表分散在不同的数据库服务器中,可以根据实际的切分效果来确定,并不强制要求单表切分为多表后一定要分散到不同数据库中。原因在于单表切分为多表后,新的表即使在同一个数据库服务器中,也可能带来可观的性能提升,如果性能能够满足业务要求,是可以不拆分到多台数据库服务器的,毕竟我们在上面业务分库的内容看到业务分库也会引入很多复杂性的问题;如果单表拆分为多表后,单台服务器依然无法满足性能要求,那就不得不再次进行业务分库的设计了。
分表能够有效地分散存储压力和带来性能提升,但和分库一样,也会引入各种复杂性。
1.垂直分表
垂直分表适合将表中某些不常用且占了大量空间的列拆分出去。例如前面示意图中的nickname和description字段假设我们是一个婚恋网站用户在筛选其他用户的时候主要是用age和sex两个字段进行查询而nickname和description两个字段主要用于展示一般不会在业务查询中用到。description本身又比较长因此我们可以将这两个字段独立到另外一张表中这样在查询age和sex时就能带来一定的性能提升。
垂直分表引入的复杂性主要体现在表操作的数量要增加。例如原来只要一次查询就可以获取name、age、sex、nickname、description现在需要两次查询一次查询获取name、age、sex另外一次查询获取nickname、description。
不过相比接下来要讲的水平分表,这个复杂性就是小巫见大巫了。
2.水平分表
水平分表适合表行数特别大的表有的公司要求单表行数超过5000万就必须进行分表这个数字可以作为参考但并不是绝对标准关键还是要看表的访问性能。对于一些比较复杂的表可能超过1000万就要分表了而对于一些简单的表即使存储数据超过1亿行也可以不分表。但不管怎样当看到表的数据量达到千万级别时作为架构师就要警觉起来因为这很可能是架构的性能瓶颈或者隐患。
水平分表相比垂直分表,会引入更多的复杂性,主要表现在下面几个方面:
* 路由
水平分表后,某条数据具体属于哪个切分后的子表,需要增加路由算法进行计算,这个算法会引入一定的复杂性。
常见的路由算法有:
**范围路由:**选取有序的数据列例如整形、时间戳等作为路由的条件不同分段分散到不同的数据库表中。以最常见的用户ID为例路由算法可以按照1000000的范围大小进行分段1 ~ 999999放到数据库1的表中1000000 ~ 1999999放到数据库2的表中以此类推。
范围路由设计的复杂点主要体现在分段大小的选取上分段太小会导致切分后子表数量过多增加维护复杂度分段太大可能会导致单表依然存在性能问题一般建议分段大小在100万至2000万之间具体需要根据业务选取合适的分段大小。
范围路由的优点是可以随着数据的增加平滑地扩充新的表。例如现在的用户是100万如果增加到1000万只需要增加新的表就可以了原有的数据不需要动。
范围路由的一个比较隐含的缺点是分布不均匀假如按照1000万来进行分表有可能某个分段实际存储的数据量只有1000条而另外一个分段实际存储的数据量有900万条。
**Hash路由**选取某个列或者某几个列组合也可以的值进行Hash运算然后根据Hash结果分散到不同的数据库表中。同样以用户ID为例假如我们一开始就规划了10个数据库表路由算法可以简单地用user\_id % 10的值来表示数据所属的数据库表编号ID为985的用户放到编号为5的子表中ID为10086的用户放到编号为6的字表中。
Hash路由设计的复杂点主要体现在初始表数量的选取上表数量太多维护比较麻烦表数量太少又可能导致单表性能存在问题。而用了Hash路由后增加子表数量是非常麻烦的所有数据都要重分布。
Hash路由的优缺点和范围路由基本相反Hash路由的优点是表分布比较均匀缺点是扩充新的表很麻烦所有数据都要重分布。
**配置路由:**配置路由就是路由表用一张独立的表来记录路由信息。同样以用户ID为例我们新增一张user\_router表这个表包含user\_id和table\_id两列根据user\_id就可以查询对应的table\_id。
配置路由设计简单,使用起来非常灵活,尤其是在扩充表的时候,只需要迁移指定的数据,然后修改路由表就可以了。
配置路由的缺点就是必须多查询一次,会影响整体性能;而且路由表本身如果太大(例如,几亿条数据),性能同样可能成为瓶颈,如果我们再次将路由表分库分表,则又面临一个死循环式的路由算法选择问题。
* join操作
水平分表后数据分散在多个表中如果需要与其他表进行join查询需要在业务代码或者数据库中间件中进行多次join查询然后将结果合并。
* count()操作
水平分表后虽然物理上数据分散到多个表中但某些业务逻辑上还是会将这些表当作一个表来处理。例如获取记录总数用于分页或者展示水平分表前用一个count()就能完成的操作,在分表后就没那么简单了。常见的处理方式有下面两种:
**count()相加:**具体做法是在业务代码或者数据库中间件中对每个表进行count()操作然后将结果相加。这种方式实现简单缺点就是性能比较低。例如水平分表后切分为20张表则要进行20次count(\*)操作,如果串行的话,可能需要几秒钟才能得到结果。
**记录数表:**具体做法是新建一张表假如表名为“记录数表”包含table\_name、row\_count两个字段每次插入或者删除子表数据成功后都更新“记录数表”。
这种方式获取表记录数的性能要大大优于count()相加的方式,因为只需要一次简单查询就可以获取数据。缺点是复杂度增加不少,对子表的操作要同步操作“记录数表”,如果有一个业务逻辑遗漏了,数据就会不一致;且针对“记录数表”的操作和针对子表的操作无法放在同一事务中进行处理,异常的情况下会出现操作子表成功了而操作记录数表失败,同样会导致数据不一致。
此外记录数表的方式也增加了数据库的写压力因为每次针对子表的insert和delete操作都要update记录数表所以对于一些不要求记录数实时保持精确的业务也可以通过后台定时更新记录数表。定时更新实际上就是“count()相加”和“记录数表”的结合即定时通过count()相加计算表的记录数,然后更新记录数表中的数据。
* order by操作
水平分表后,数据分散到多个子表中,排序操作无法在数据库中完成,只能由业务代码或者数据库中间件分别查询每个子表中的数据,然后汇总进行排序。
## 实现方法
和数据库读写分离类似分库分表具体的实现方式也是“程序代码封装”和“中间件封装”但实现会更复杂。读写分离实现时只要识别SQL操作是读操作还是写操作通过简单的判断SELECT、UPDATE、INSERT、DELETE几个关键字就可以做到而分库分表的实现除了要判断操作类型外还要判断SQL中具体需要操作的表、操作函数例如count函数)、order by、group by操作等然后再根据不同的操作进行不同的处理。例如order by操作需要先从多个库查询到各个库的数据然后再重新order by才能得到最终的结果。
## 小结
今天我为你讲了高性能数据库集群的分库分表架构,包括业务分库产生的问题和分表的两种方式及其带来的复杂度,希望对你有所帮助。
这就是今天的全部内容,留一道思考题给你吧,你认为什么时候引入分库分表是合适的?是数据库性能不够的时候就开始分库分表么?
欢迎你把答案写到留言区,和我一起讨论。相信经过深度思考的回答,也会让你对知识的理解更加深刻。(编辑乱入:精彩的留言有机会获得丰厚福利哦!)