You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

9.4 KiB

29 | Copy-on-Write模式不是延时策略的COW

在上一篇文章中我们讲到Java里String这个类在实现replace()方法的时候并没有更改原字符串里面value\[\]数组的内容,而是创建了一个新字符串,这种方法在解决不可变对象的修改问题时经常用到。如果你深入地思考这个方法,你会发现它本质上是一种**Copy-on-Write方法**。所谓Copy-on-Write经常被缩写为COW或者CoW顾名思义就是**写时复制**。

不可变对象的写操作往往都是使用Copy-on-Write方法解决的当然Copy-on-Write的应用领域并不局限于Immutability模式。下面我们先简单介绍一下Copy-on-Write的应用领域让你对它有个更全面的认识。

Copy-on-Write模式的应用领域

我们前面在《20 | 并发容器:都有哪些“坑”需要我们填?》中介绍过CopyOnWriteArrayList和CopyOnWriteArraySet这两个Copy-on-Write容器它们背后的设计思想就是Copy-on-Write通过Copy-on-Write这两个容器实现的读操作是无锁的由于无锁所以将读操作的性能发挥到了极致。

除了Java这个领域Copy-on-Write在操作系统领域也有广泛的应用。

我第一次接触Copy-on-Write其实就是在操作系统领域。类Unix的操作系统中创建进程的API是fork()传统的fork()函数会创建父进程的一个完整副本例如父进程的地址空间现在用到了1G的内存那么fork()子进程的时候要复制父进程整个进程的地址空间占有1G内存给子进程这个过程是很耗时的。而Linux中的fork()函数就聪明得多了fork()子进程的时候,并不复制整个进程的地址空间,而是让父子进程共享同一个地址空间;只用在父进程或者子进程需要写入的时候才会复制地址空间,从而使父子进程拥有各自的地址空间。

本质上来讲父子进程的地址空间以及数据都是要隔离的使用Copy-on-Write更多地体现的是一种延时策略,只有在真正需要复制的时候才复制,而不是提前复制好同时Copy-on-Write还支持按需复制所以Copy-on-Write在操作系统领域是能够提升性能的。相比较而言Java提供的Copy-on-Write容器由于在修改的同时会复制整个容器所以在提升读操作性能的同时是以内存复制为代价的。这里你会发现同样是应用Copy-on-Write不同的场景对性能的影响是不同的。

在操作系统领域除了创建进程用到了Copy-on-Write很多文件系统也同样用到了例如Btrfs (B-Tree File System)、aufsadvanced multi-layered unification filesystem等。

除了上面我们说的Java领域、操作系统领域很多其他领域也都能看到Copy-on-Write的身影Docker容器镜像的设计是Copy-on-Write甚至分布式源码管理系统Git背后的设计思想都有Copy-on-Write……

不过,Copy-on-Write最大的应用领域还是在函数式编程领域。函数式编程的基础是不可变性Immutability所以函数式编程里面所有的修改操作都需要Copy-on-Write来解决。你或许会有疑问“所有数据的修改都需要复制一份性能是不是会成为瓶颈呢”你的担忧是有道理的之所以函数式编程早年间没有兴起性能绝对拖了后腿。但是随着硬件性能的提升性能问题已经慢慢变得可以接受了。而且Copy-on-Write也远不像Java里的CopyOnWriteArrayList那样笨整个数组都复制一遍。Copy-on-Write也是可以按需复制的如果你感兴趣可以参考Purely Functional Data Structures这本书里面描述了各种具备不变性的数据结构的实现。

CopyOnWriteArrayList和CopyOnWriteArraySet这两个Copy-on-Write容器在修改的时候会复制整个数组所以如果容器经常被修改或者这个数组本身就非常大的时候是不建议使用的。反之如果是修改非常少、数组数量也不大并且对读性能要求苛刻的场景使用Copy-on-Write容器效果就非常好了。下面我们结合一个真实的案例来讲解一下。

一个真实案例

我曾经写过一个RPC框架有点类似Dubbo服务提供方是多实例分布式部署的所以服务的客户端在调用RPC的时候会选定一个服务实例来调用这个选定的过程本质上就是在做负载均衡而做负载均衡的前提是客户端要有全部的路由信息。例如在下图中A服务的提供方有3个实例分别是192.168.1.1、192.168.1.2和192.168.1.3客户端在调用目标服务A前首先需要做的是负载均衡也就是从这3个实例中选出1个来然后再通过RPC把请求发送选中的目标实例。

RPC路由关系图

RPC框架的一个核心任务就是维护服务的路由关系我们可以把服务的路由关系简化成下图所示的路由表。当服务提供方上线或者下线的时候就需要更新客户端的这张路由表。

我们首先来分析一下如何用程序来实现。每次RPC调用都需要通过负载均衡器来计算目标服务的IP和端口号而负载均衡器需要通过路由表获取接口的所有路由信息也就是说每次RPC调用都需要访问路由表所以访问路由表这个操作的性能要求是很高的。不过路由表对数据的一致性要求并不高一个服务提供方从上线到反馈到客户端的路由表里即便有5秒钟很多时候也都是能接受的5秒钟对于以纳秒作为时钟周期的CPU来说那何止是一万年所以路由表对一致性的要求并不高。而且路由表是典型的读多写少类问题写操作的量相比于读操作可谓是沧海一粟少得可怜。

通过以上分析你会发现一些关键词对读的性能要求很高读多写少弱一致性。它们综合在一起你会想到什么呢CopyOnWriteArrayList和CopyOnWriteArraySet天生就适用这种场景啊。所以下面的示例代码中RouteTable这个类内部我们通过ConcurrentHashMap<String, CopyOnWriteArraySet<Router>>这个数据结构来描述路由表ConcurrentHashMap的Key是接口名Value是路由集合这个路由集合我们用是CopyOnWriteArraySet。

下面我们再来思考Router该如何设计服务提供方的每一次上线、下线都会更新路由信息这时候你有两种选择。一种是通过更新Router的一个状态位来标识如果这样做那么所有访问该状态位的地方都需要同步访问这样很影响性能。另外一种就是采用Immutability模式每次上线、下线都创建新的Router对象或者删除对应的Router对象。由于上线、下线的频率很低所以后者是最好的选择。

Router的实现代码如下所示是一种典型Immutability模式的实现需要你注意的是我们重写了equals方法这样CopyOnWriteArraySet的add()和remove()方法才能正常工作。

//路由信息
public final class Router{
  private final String  ip;
  private final Integer port;
  private final String  iface;
  //构造函数
  public Router(String ip, 
      Integer port, String iface){
    this.ip = ip;
    this.port = port;
    this.iface = iface;
  }
  //重写equals方法
  public boolean equals(Object obj){
    if (obj instanceof Router) {
      Router r = (Router)obj;
      return iface.equals(r.iface) &&
             ip.equals(r.ip) &&
             port.equals(r.port);
    }
    return false;
  }
  public int hashCode() {
    //省略hashCode相关代码
  }
}
//路由表信息
public class RouterTable {
  //Key:接口名
  //Value:路由集合
  ConcurrentHashMap<String, CopyOnWriteArraySet<Router>> 
    rt = new ConcurrentHashMap<>();
  //根据接口名获取路由表
  public Set<Router> get(String iface){
    return rt.get(iface);
  }
  //删除路由
  public void remove(Router router) {
    Set<Router> set=rt.get(router.iface);
    if (set != null) {
      set.remove(router);
    }
  }
  //增加路由
  public void add(Router router) {
    Set<Router> set = rt.computeIfAbsent(
      route.iface, r -> 
        new CopyOnWriteArraySet<>());
    set.add(router);
  }
}

总结

目前Copy-on-Write在Java并发编程领域知名度不是很高很多人都在无意中把它忽视了但其实Copy-on-Write才是最简单的并发解决方案。它是如此简单以至于Java中的基本数据类型String、Integer、Long等都是基于Copy-on-Write方案实现的。

Copy-on-Write是一项非常通用的技术方案在很多领域都有着广泛的应用。不过它也有缺点的那就是消耗内存每次修改都需要复制一个新的对象出来好在随着自动垃圾回收GC算法的成熟以及硬件的发展这种内存消耗已经渐渐可以接受了。所以在实际工作中如果写操作非常少那你就可以尝试用一下Copy-on-Write效果还是不错的。

课后思考

Java提供了CopyOnWriteArrayList为什么没有提供CopyOnWriteLinkedList呢

欢迎在留言区与我分享你的想法,也欢迎你在留言区记录你的思考过程。感谢阅读,如果你觉得这篇文章对你有帮助的话,也欢迎把它分享给更多的朋友。