You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

198 lines
12 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 03 | 互斥锁(上):解决原子性问题
在[第一篇文章](https://time.geekbang.org/column/article/83682)中我们提到一个或者多个操作在CPU执行的过程中不被中断的特性称为“原子性”。理解这个特性有助于你分析并发编程Bug出现的原因例如利用它可以分析出long型变量在32位机器上读写可能出现的诡异Bug明明已经把变量成功写入内存重新读出来却不是自己写入的。
**那原子性问题到底该如何解决呢?**
你已经知道,原子性问题的源头是**线程切换**如果能够禁用线程切换那不就能解决这个问题了吗而操作系统做线程切换是依赖CPU中断的所以禁止CPU发生中断就能够禁止线程切换。
在早期单核CPU时代这个方案的确是可行的而且也有很多应用案例但是并不适合多核场景。这里我们以32位CPU上执行long型变量的写操作为例来说明这个问题long型变量是64位在32位CPU上执行写操作会被拆分成两次写操作写高32位和写低32位如下图所示
![](https://static001.geekbang.org/resource/image/38/28/381b657801c48b3399f19d946bad9e28.png)
在单核CPU场景下同一时刻只有一个线程执行禁止CPU中断意味着操作系统不会重新调度线程也就是禁止了线程切换获得CPU使用权的线程就可以不间断地执行所以两次写操作一定是要么都被执行要么都没有被执行具有原子性。
但是在多核场景下同一时刻有可能有两个线程同时在执行一个线程执行在CPU-1上一个线程执行在CPU-2上此时禁止CPU中断只能保证CPU上的线程连续执行并不能保证同一时刻只有一个线程执行如果这两个线程同时写long型变量高32位的话那就有可能出现我们开头提及的诡异Bug了。
“**同一时刻只有一个线程执行**”这个条件非常重要,我们称之为**互斥**。如果我们能够保证对共享变量的修改是互斥的那么无论是单核CPU还是多核CPU就都能保证原子性了。
## 简易锁模型
当谈到互斥,相信聪明的你一定想到了那个杀手级解决方案:锁。同时大脑中还会出现以下模型:
![](https://static001.geekbang.org/resource/image/3d/a2/3df991e7de14a788b220468836cd48a2.png)
简易锁模型
我们把一段需要互斥执行的代码称为**临界区**。线程在进入临界区之前首先尝试加锁lock()如果成功则进入临界区此时我们称这个线程持有锁否则呢就等待直到持有锁的线程解锁持有锁的线程执行完临界区的代码后执行解锁unlock()。
这个过程非常像办公室里高峰期抢占坑位,每个人都是进坑锁门(加锁),出坑开门(解锁),如厕这个事就是临界区。很长时间里,我也是这么理解的。这样理解本身没有问题,但却很容易让我们忽视两个非常非常重要的点:我们锁的是什么?我们保护的又是什么?
## 改进后的锁模型
我们知道在现实世界里,锁和锁要保护的资源是有对应关系的,比如你用你家的锁保护你家的东西,我用我家的锁保护我家的东西。在并发编程世界里,锁和资源也应该有这个关系,但这个关系在我们上面的模型中是没有体现的,所以我们需要完善一下我们的模型。
![](https://static001.geekbang.org/resource/image/28/2f/287008c8137a43fa032e68a0c23c172f.png)
改进后的锁模型
首先我们要把临界区要保护的资源标注出来如图中临界区里增加了一个元素受保护的资源R其次我们要保护资源R就得为它创建一把锁LR最后针对这把锁LR我们还需在进出临界区时添上加锁操作和解锁操作。另外在锁LR和受保护资源之间我特地用一条线做了关联这个关联关系非常重要。很多并发Bug的出现都是因为把它忽略了然后就出现了类似锁自家门来保护他家资产的事情这样的Bug非常不好诊断因为潜意识里我们认为已经正确加锁了。
## Java语言提供的锁技术synchronized
锁是一种通用的技术方案Java语言提供的synchronized关键字就是锁的一种实现。synchronized关键字可以用来修饰方法也可以用来修饰代码块它的使用示例基本上都是下面这个样子
```
class X {
// 修饰非静态方法
synchronized void foo() {
// 临界区
}
// 修饰静态方法
synchronized static void bar() {
// 临界区
}
// 修饰代码块
Object obj = new Object()
void baz() {
synchronized(obj) {
// 临界区
}
}
}
```
看完之后你可能会觉得有点奇怪这个和我们上面提到的模型有点对不上号啊加锁lock()和解锁unlock()在哪里呢其实这两个操作都是有的只是这两个操作是被Java默默加上的Java编译器会在synchronized修饰的方法或代码块前后自动加上加锁lock()和解锁unlock()这样做的好处就是加锁lock()和解锁unlock()一定是成对出现的毕竟忘记解锁unlock()可是个致命的Bug意味着其他线程只能死等下去了
那synchronized里的加锁lock()和解锁unlock()锁定的对象在哪里呢上面的代码我们看到只有修饰代码块的时候锁定了一个obj对象那修饰方法的时候锁定的是什么呢这个也是Java的一条隐式规则
> 当修饰静态方法的时候锁定的是当前类的Class对象在上面的例子中就是Class X
> 当修饰非静态方法的时候锁定的是当前实例对象this。
对于上面的例子synchronized修饰静态方法相当于:
```
class X {
// 修饰静态方法
synchronized(X.class) static void bar() {
// 临界区
}
}
```
修饰非静态方法,相当于:
```
class X {
// 修饰非静态方法
synchronized(this) void foo() {
// 临界区
}
}
```
## 用synchronized解决count+=1问题
相信你一定记得我们前面文章中提到过的count+=1存在的并发问题现在我们可以尝试用synchronized来小试牛刀一把代码如下所示。SafeCalc这个类有两个方法一个是get()方法用来获得value的值另一个是addOne()方法用来给value加1并且addOne()方法我们用synchronized修饰。那么我们使用的这两个方法有没有并发问题呢
```
class SafeCalc {
long value = 0L;
long get() {
return value;
}
synchronized void addOne() {
value += 1;
}
}
```
我们先来看看addOne()方法首先可以肯定被synchronized修饰后无论是单核CPU还是多核CPU只有一个线程能够执行addOne()方法,所以一定能保证原子操作,那是否有可见性问题呢?要回答这问题,就要重温一下[上一篇文章](https://time.geekbang.org/column/article/84017)中提到的**管程中锁的规则**。
> 管程中锁的规则:对一个锁的解锁 Happens-Before 于后续对这个锁的加锁。
管程就是我们这里的synchronized至于为什么叫管程我们后面介绍我们知道synchronized修饰的临界区是互斥的也就是说同一时刻只有一个线程执行临界区的代码而所谓“对一个锁解锁 Happens-Before 后续对这个锁的加锁”指的是前一个线程的解锁操作对后一个线程的加锁操作可见综合Happens-Before的传递性原则我们就能得出前一个线程在临界区修改的共享变量该操作在解锁之前对后续进入临界区该操作在加锁之后的线程是可见的。
按照这个规则如果多个线程同时执行addOne()方法可见性是可以保证的也就说如果有1000个线程执行addOne()方法最终结果一定是value的值增加了1000。看到这个结果我们长出一口气问题终于解决了。
但也许你一不小心就忽视了get()方法。执行addOne()方法后value的值对get()方法是可见的吗这个可见性是没法保证的。管程中锁的规则是只保证后续对这个锁的加锁的可见性而get()方法并没有加锁操作所以可见性没法保证。那如何解决呢很简单就是get()方法也synchronized一下完整的代码如下所示。
```
class SafeCalc {
long value = 0L;
synchronized long get() {
return value;
}
synchronized void addOne() {
value += 1;
}
}
```
上面的代码转换为我们提到的锁模型就是下面图示这个样子。get()方法和addOne()方法都需要访问value这个受保护的资源这个资源用this这把锁来保护。线程要进入临界区get()和addOne()必须先获得this这把锁这样get()和addOne()也是互斥的。
![](https://static001.geekbang.org/resource/image/26/f6/26a84ffe2b4a6ae67c8093d29473e1f6.png)
保护临界区get()和addOne()的示意图
这个模型更像现实世界里面球赛门票的管理一个座位只允许一个人使用这个座位就是“受保护资源”球场的入口就是Java类里的方法而门票就是用来保护资源的“锁”Java里的检票工作是由synchronized解决的。
## 锁和受保护资源的关系
我们前面提到,受保护资源和锁之间的关联关系非常重要,他们的关系是怎样的呢?一个合理的关系是:**受保护资源和锁之间的关联关系是N:1的关系**。还拿前面球赛门票的管理来类比,就是一个座位,我们只能用一张票来保护,如果多发了重复的票,那就要打架了。现实世界里,我们可以用多把锁来保护同一个资源,但在并发领域是不行的,并发领域的锁和现实世界的锁不是完全匹配的。不过倒是可以用同一把锁来保护多个资源,这个对应到现实世界就是我们所谓的“包场”了。
上面那个例子我稍作改动把value改成静态变量把addOne()方法改成静态方法此时get()方法和addOne()方法是否存在并发问题呢?
```
class SafeCalc {
static long value = 0L;
synchronized long get() {
return value;
}
synchronized static void addOne() {
value += 1;
}
}
```
如果你仔细观察就会发现改动后的代码是用两个锁保护一个资源。这个受保护的资源就是静态变量value两个锁分别是this和SafeCalc.class。我们可以用下面这幅图来形象描述这个关系。由于临界区get()和addOne()是用两个锁保护的因此这两个临界区没有互斥关系临界区addOne()对value的修改对临界区get()也没有可见性保证,这就导致并发问题了。
![](https://static001.geekbang.org/resource/image/60/be/60551e006fca96f581f3dc25424226be.png)
两把锁保护一个资源的示意图
## 总结
互斥锁,在并发领域的知名度极高,只要有了并发问题,大家首先容易想到的就是加锁,因为大家都知道,加锁能够保证执行临界区代码的互斥性。这样理解虽然正确,但是却不能够指导你真正用好互斥锁。临界区的代码是操作受保护资源的路径,类似于球场的入口,入口一定要检票,也就是要加锁,但不是随便一把锁都能有效。所以必须深入分析锁定的对象和受保护资源的关系,综合考虑受保护资源的访问路径,多方面考量才能用好互斥锁。
synchronized是Java在语言层面提供的互斥原语其实Java里面还有很多其他类型的锁但作为互斥锁原理都是相通的一定有一个要锁定的对象至于这个锁定的对象要保护的资源以及在哪里加锁/解锁,就属于设计层面的事情了。
## 课后思考
下面的代码用synchronized修饰代码块来尝试解决并发问题你觉得这个使用方式正确吗有哪些问题呢能解决可见性和原子性问题吗
```
class SafeCalc {
long value = 0L;
long get() {
synchronized (new Object()) {
return value;
}
}
void addOne() {
synchronized (new Object()) {
value += 1;
}
}
}
```
欢迎在留言区与我分享你的想法,也欢迎你在留言区记录你的思考过程。感谢阅读,如果你觉得这篇文章对你有帮助的话,也欢迎把它分享给更多的朋友。