gitbook/Java性能调优实战/docs/117247.md
2022-09-03 22:05:03 +08:00

9.1 KiB
Raw Blame History

36 | 记一次线上SQL死锁事故如何避免死锁

你好,我是刘超。今天我们来聊聊死锁,开始之前,先分享个小故事,相信你可能遇到过,或能从中获得一点启发。

之前我参与过一个项目在项目初期我们是没有将读写表分离的而是基于一个主库完成读写操作。在业务量逐渐增大的时候我们偶尔会收到系统的异常报警信息DBA通知我们数据库出现了死锁异常。

按理说业务开始是比较简单的就是新增订单、修改订单、查询订单等操作那为什么会出现死锁呢经过日志分析我们发现是作为幂等性校验的一张表经常出现死锁异常。我们和DBA讨论之后初步怀疑是索引导致的死锁问题。后来我们在开发环境中模拟了相关操作果然重现了该死锁异常。

接下来我们就通过实战来重现下该业务死锁异常。首先,创建一张订单记录表,该表主要用于校验订单重复创建:

CREATE TABLE `order_record`  (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `order_no` int(11) DEFAULT NULL,
  `status` int(4) DEFAULT NULL,
  `create_date` datetime(0) DEFAULT NULL,
  PRIMARY KEY (`id`) USING BTREE,
  INDEX `idx_order_status`(`order_no`,`status`) USING BTREE
) ENGINE = InnoDB

为了能重现该问题我们先将事务设置为手动提交。这里要注意一下MySQL数据库和Oracle提交事务不太一样MySQL数据库默认情况下是自动提交事务我们可以通过以下命令行查看自动提交事务是否开启

mysql> show variables like 'autocommit';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| autocommit    | ON    |
+---------------+-------+
1 row in set (0.01 sec)

下面就操作吧先将MySQL数据库的事务提交设置为手动提交通过以下命令行可以关闭自动提交事务

mysql> set autocommit = 0;
Query OK, 0 rows affected (0.00 sec)

订单在做幂等性校验时先是通过订单号检查订单是否存在如果不存在则新增订单记录。知道具体的逻辑之后我们再来模拟创建产生死锁的运行SQL语句。首先我们模拟新建两个订单并按照以下顺序执行幂等性校验SQL语句垂直方向代表执行的时间顺序

此时我们会发现两个事务已经进入死锁状态。我们可以在information_schema数据库中查询到具体的死锁情况如下图所示

看到这你可能会想为什么SELECT要加for update排他锁而不是使用共享锁呢试想下如果是两个订单号一样的请求同时进来就有可能出现幻读。也就是说一开始事务A中的查询没有该订单号后来事务B新增了一个该订单号的记录此时事务A再新增一条该订单号记录就会创建重复的订单记录。面对这种情况我们可以使用锁间隙算法来防止幻读。

死锁是如何产生的?

上面我们说到了锁间隙,在第33讲中,我已经讲过了并发事务中的锁机制以及行锁的具体实现算法,不妨回顾一下。

行锁的具体实现算法有三种record lock、gap lock以及next-key lock。record lock是专门对索引项加锁gap lock是对索引项之间的间隙加锁next-key lock则是前面两种的组合对索引项以其之间的间隙加锁。

只在可重复读或以上隔离级别下的特定操作才会取得gap lock或next-key lock在Select、Update和Delete时除了基于唯一索引的查询之外其它索引查询时都会获取gap lock或next-key lock即锁住其扫描的范围。主键索引也属于唯一索引所以主键索引是不会使用gap lock或next-key lock。

在MySQL中gap lock默认是开启的即innodb_locks_unsafe_for_binlog参数值是disable的且MySQL中默认的是RR事务隔离级别。

当我们执行以下查询SQL时由于order_no列为非唯一索引此时又是RR事务隔离级别所以SELECT的加锁类型为gap lock这里的gap范围是(4,+∞)。

SELECT id FROM demo.order_record where order_no = 4 for update;

执行查询SQL语句获取的gap lock并不会导致阻塞而当我们执行以下插入SQL时会在插入间隙上再次获取插入意向锁。插入意向锁其实也是一种gap锁它与gap lock是冲突的所以当其它事务持有该间隙的gap lock时需要等待其它事务释放gap lock之后才能获取到插入意向锁。

以上事务A和事务B都持有间隙(4,+∞的gap锁而接下来的插入操作为了获取到插入意向锁都在等待对方事务的gap锁释放于是就造成了循环等待导致死锁。

INSERT INTO demo.order_record(order_no, status, create_date) VALUES (5, 1, 2019-07-13 10:57:03);

我们可以通过以下锁的兼容矩阵图,来查看锁的兼容性:

避免死锁的措施

知道了死锁问题源自哪儿,就可以找到合适的方法来避免它了。

避免死锁最直观的方法就是在两个事务相互等待时当一个事务的等待时间超过设置的某一阈值就对这个事务进行回滚另一个事务就可以继续执行了。这种方法简单有效在InnoDB中参数innodb_lock_wait_timeout是用来设置超时时间的。

另外我们还可以将order_no列设置为唯一索引列。虽然不能防止幻读但我们可以利用它的唯一性来保证订单记录不重复创建这种方式唯一的缺点就是当遇到重复创建订单时会抛出异常。

我们还可以使用其它的方式来代替数据库实现幂等性校验。例如使用Redis以及ZooKeeper来实现运行效率比数据库更佳。

其它常见的SQL死锁问题

这里再补充一些常见的SQL死锁问题以便你遇到时也能知道其原因从而顺利解决。

我们知道死锁的四个必要条件:互斥、占有且等待、不可强占用、循环等待。只要系统发生死锁,这些条件必然成立。所以在一些经常需要使用互斥共用一些资源,且有可能循环等待的业务场景中,要特别注意死锁问题。

接下来,我们再来了解一个出现死锁的场景。

我们讲过InnoDB存储引擎的主键索引为聚簇索引其它索引为辅助索引。如果我们之前使用辅助索引来更新数据库就需要修改为使用聚簇索引来更新数据库。如果两个更新事务使用了不同的辅助索引或一个使用了辅助索引一个使用了聚簇索引就都有可能导致锁资源的循环等待。由于本身两个事务是互斥也就构成了以上死锁的四个必要条件了。

我们还是以上面的这个订单记录表来重现下聚簇索引和辅助索引更新时,循环等待锁资源导致的死锁问题:

出现死锁的步骤:

综上可知,在更新操作时,我们应该尽量使用主键来更新表字段,这样可以有效避免一些不必要的死锁发生。

总结

数据库发生死锁的概率并不是很大一旦遇到了就一定要彻查具体原因尽快找出解决方案老实说过程不简单。我们只有先对MySQL的InnoDB存储引擎有足够的了解才能剖析出造成死锁的具体原因。

例如,以上我例举的两种发生死锁的场景,一个考验的是我们对锁算法的了解,另外一个考验则是我们对聚簇索引和辅助索引的熟悉程度。

解决死锁的最佳方式当然就是预防死锁的发生了,我们平时编程中,可以通过以下一些常规手段来预防死锁的发生:

1.在编程中尽量按照固定的顺序来处理数据库记录,假设有两个更新操作,分别更新两条相同的记录,但更新顺序不一样,有可能导致死锁;

2.在允许幻读和不可重复读的情况下尽量使用RC事务隔离级别可以避免gap lock导致的死锁问题

3.更新表时,尽量使用主键更新;

4.避免长事务,尽量将长事务拆解,可以降低与其它事务发生冲突的概率;

5.设置锁等待超时参数我们可以通过innodb_lock_wait_timeout设置合理的等待超时阈值特别是在一些高并发的业务中我们可以尽量将该值设置得小一些避免大量事务等待占用系统资源造成严重的性能开销。

思考题

除了设置 innodb_lock_wait_timeout 参数来避免已经产生死锁的SQL长时间等待你还知道其它方法来解决类似问题吗

期待在留言区看到你的见解。也欢迎你点击“请朋友读”,把今天的内容分享给身边的朋友,邀请他一起讨论。