You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

14 KiB

第8讲 | 对比Vector、ArrayList、LinkedList有何区别

我们在日常的工作中能够高效地管理和操作数据是非常重要的。由于每个编程语言支持的数据结构不尽相同比如我最早学习的C语言需要自己实现很多基础数据结构管理和操作会比较麻烦。相比之下Java则要方便的多针对通用场景的需求Java提供了强大的集合框架大大提高了开发者的生产力。

今天我要问你的是有关集合框架方面的问题对比Vector、ArrayList、LinkedList有何区别

典型回答

这三者都是实现集合框架中的List也就是所谓的有序集合因此具体功能也比较近似比如都提供按照位置进行定位、添加或者删除的操作都提供迭代器以遍历其内容等。但因为具体的设计区别在行为、性能、线程安全等方面表现又有很大不同。

Vector是Java早期提供的线程安全的动态数组如果不需要线程安全并不建议选择毕竟同步是有额外开销的。Vector内部是使用对象数组来保存数据可以根据需要自动的增加容量当数组已满时会创建新的数组并拷贝原有数组数据。

ArrayList是应用更加广泛的动态数组实现它本身不是线程安全的所以性能要好很多。与Vector近似ArrayList也是可以根据需要调整容量不过两者的调整逻辑有所区别Vector在扩容时会提高1倍而ArrayList则是增加50%。

LinkedList顾名思义是Java提供的双向链表,所以它不需要像上面两种那样调整容量,它也不是线程安全的。

考点分析

似乎从我接触Java开始这个问题就一直是经典的面试题前面我的回答覆盖了三者的一些基本的设计和实现。

一般来说,也可以补充一下不同容器类型适合的场景:

  • Vector和ArrayList作为动态数组其内部元素以数组形式顺序存储的所以非常适合随机访问的场合。除了尾部插入和删除元素往往性能会相对较差比如我们在中间位置插入一个元素需要移动后续所有元素。

  • 而LinkedList进行节点插入、删除却要高效得多但是随机访问性能则要比动态数组慢。

所以,在应用开发中,如果事先可以估计到,应用操作是偏向于插入、删除,还是随机访问较多,就可以针对性的进行选择。这也是面试最常见的一个考察角度,给定一个场景,选择适合的数据结构,所以对于这种典型选择一定要掌握清楚。

考察Java集合框架我觉得有很多方面需要掌握

  • Java集合框架的设计结构至少要有一个整体印象。

  • Java提供的主要容器集合和Map类型了解或掌握对应的数据结构、算法,思考具体技术选择。

  • 将问题扩展到性能、并发等领域。

  • 集合框架的演进与发展。

作为Java专栏我会在尽量围绕Java相关进行扩展否则光是罗列集合部分涉及的数据结构就要占用很大篇幅。这并不代表那些不重要数据结构和算法是基本功往往也是必考的点有些公司甚至以考察这些方面而非常知名甚至是“臭名昭著”。我这里以需要掌握典型排序算法为例你至少需要熟知

  • 内部排序,至少掌握基础算法如归并排序、交换排序(冒泡、快排)、选择排序、插入排序等。

  • 外部排序,掌握利用内存和外部存储处理超大数据集,至少要理解过程和思路。

考察算法不仅仅是如何简单实现,面试官往往会刨根问底,比如哪些是排序是不稳定的呢(快排、堆排),或者思考稳定意味着什么;对不同数据集,各种排序的最好或最差情况;从某个角度如何进一步优化(比如空间占用,假设业务场景需要最小辅助空间,这个角度堆排序就比归并优异)等,从简单的了解,到进一步的思考,面试官通常还会观察面试者处理问题和沟通时的思路。

以上只是一个方面的例子,建议学习相关书籍,如《算法导论》《编程珠玑》等,或相关教程。对于特定领域比如推荐系统建议咨询领域专家。单纯从面试的角度很多朋友推荐使用一些算法网站如LeetCode等帮助复习和准备面试但坦白说我并没有刷过这些算法题这也是仁者见仁智者见智的事情招聘时我更倾向于考察面试者自身最擅长的东西免得招到纯面试高手。

知识扩展

我们先一起来理解集合框架的整体设计为了有个直观的印象我画了一个简要的类图。注意为了避免混淆我这里没有把java.util.concurrent下面的线程安全容器添加进来也没有列出Map容器虽然通常概念上我们也会把Map作为集合框架的一部分但是它本身并不是真正的集合Collection

所以,我今天主要围绕狭义的集合框架,其他都会在专栏后面的内容进行讲解。

我们可以看到Java的集合框架Collection接口是所有集合的根然后扩展开提供了三大类集合分别是

  • List也就是我们前面介绍最多的有序集合它提供了方便的访问、插入、删除等操作。

  • SetSet是不允许重复元素的这是和List最明显的区别也就是不存在两个对象equals返回true。我们在日常开发中有很多需要保证元素唯一性的场合。

  • Queue/Deque则是Java提供的标准队列结构的实现除了集合的基本功能它还支持类似先入先出FIFO First-in-First-Out或者后入先出LIFOLast-In-First-Out等特定行为。这里不包括BlockingQueue因为通常是并发编程场合所以被放置在并发包里。

每种集合的通用逻辑都被抽象到相应的抽象类之中比如AbstractList就集中了各种List操作的通用部分。这些集合不是完全孤立的比如LinkedList本身既是List也是Deque哦。

如果阅读过更多源码你会发现其实TreeSet代码里实际默认是利用TreeMap实现的Java类库创建了一个Dummy对象“PRESENT”作为value然后所有插入的元素其实是以键的形式放入了TreeMap里面同理HashSet其实也是以HashMap为基础实现的原来他们只是Map类的马甲

就像前面提到过的我们需要对各种具体集合实现至少了解基本特征和典型使用场景以Set的几个实现为例

  • TreeSet支持自然顺序访问但是添加、删除、包含等操作要相对低效log(n)时间)。

  • HashSet则是利用哈希算法理想情况下如果哈希散列正常可以提供常数时间的添加、删除、包含等操作但是它不保证有序。

  • LinkedHashSet内部构建了一个记录插入顺序的双向链表因此提供了按照插入顺序遍历的能力与此同时也保证了常数时间的添加、删除、包含等操作这些操作性能略低于HashSet因为需要维护链表的开销。

  • 在遍历元素时HashSet性能受自身容量影响所以初始化时除非有必要不然不要将其背后的HashMap容量设置过大。而对于LinkedHashSet由于其内部链表提供的方便遍历性能只和元素多少有关系。

我今天介绍的这些集合类都不是线程安全的对于java.util.concurrent里面的线程安全容器我在专栏后面会去介绍。但是并不代表这些集合完全不能支持并发编程的场景在Collections工具类中提供了一系列的synchronized方法比如

static <T> List<T> synchronizedList(List<T> list)

我们完全可以利用类似方法来实现基本的线程安全集合:

List list = Collections.synchronizedList(new ArrayList());

它的实现基本就是将每个基本方法比如get、set、add之类都通过synchronized添加基本的同步支持非常简单粗暴但也非常实用。注意这些方法创建的线程安全集合都符合迭代时fail-fast行为当发生意外的并发修改时尽早抛出ConcurrentModificationException异常以避免不可预计的行为。

另外一个经常会被考察到的问题就是理解Java提供的默认排序算法具体是什么排序方式以及设计思路等。

这个问题本身就是有点陷阱的意味因为需要区分是Arrays.sort()还是Collections.sort() 底层是调用Arrays.sort()什么数据类型多大的数据集太小的数据集复杂排序是没必要的Java会直接进行二分插入排序等。

  • 对于原始数据类型目前使用的是所谓双轴快速排序Dual-Pivot QuickSort是一种改进的快速排序算法早期版本是相对传统的快速排序你可以阅读源码

  • 而对于对象数据类型,目前则是使用TimSort思想上也是一种归并和二分插入排序binarySort结合的优化排序算法。TimSort并不是Java的独创简单说它的思路是查找数据集中已经排好序的分区这里叫run然后合并这些分区来达到排序的目的。

另外Java 8引入了并行排序算法直接使用parallelSort方法这是为了充分利用现代多核处理器的计算能力底层实现基于fork-join框架专栏后面会对fork-join进行相对详细的介绍当处理的数据集比较小的时候差距不明显甚至还表现差一点但是当数据集增长到数万或百万以上时提高就非常大了具体还是取决于处理器和系统环境。

排序算法仍然在不断改进最近双轴快速排序实现的作者提交了一个更进一步的改进历时多年的研究目前正在审核和验证阶段。根据作者的性能测试对比相比于基于归并排序的实现新改进可以提高随机数据排序速度提高10%20%,甚至在其他特征的数据集上也有几倍的提高,有兴趣的话你可以参考具体代码和介绍:
http://mail.openjdk.java.net/pipermail/core-libs-dev/2018-January/051000.html

在Java 8之中Java平台支持了Lambda和Stream相应的Java集合框架也进行了大范围的增强以支持类似为集合创建相应stream或者parallelStream的方法实现我们可以非常方便的实现函数式代码。

阅读Java源代码你会发现这些API的设计和实现比较独特它们并不是实现在抽象类里面而是以默认方法的形式实现在Collection这样的接口里这是Java 8在语言层面的新特性允许接口实现默认方法理论上来说我们原来实现在类似Collections这种工具类中的方法大多可以转换到相应的接口上。针对这一点我在面向对象主题会专门梳理Java语言面向对象基本机制的演进。

在Java 9中Java标准类库提供了一系列的静态工厂方法比如List.of()、Set.of()大大简化了构建小的容器实例的代码量。根据业界实践经验我们发现相当一部分集合实例都是容量非常有限的而且在生命周期中并不会进行修改。但是在原有的Java类库中我们可能不得不写成

ArrayList<String>  list = new ArrayList<>();
list.add("Hello");
list.add("World");

而利用新的容器静态工厂方法,一句代码就够了,并且保证了不可变性。

List<String> simpleList = List.of("Hello","world");

更进一步通过各种of静态工厂方法创建的实例还应用了一些我们所谓的最佳实践比如它是不可变的符合我们对线程安全的需求它因为不需要考虑扩容所以空间上更加紧凑等。

如果我们去看of方法的源码你还会发现一个特别有意思的地方我们知道Java已经支持所谓的可变参数varargs但是官方类库还是提供了一系列特定参数长度的方法看起来似乎非常不优雅为什么呢这其实是为了最优的性能JVM在处理变长参数的时候会有明显的额外开销如果你需要实现性能敏感的API也可以进行参考。

今天我从Verctor、ArrayList、LinkedList开始逐步分析其设计实现区别、适合的应用场景等并进一步对集合框架进行了简单的归纳介绍了集合框架从基础算法到API设计实现的各种改进希望能对你的日常开发和API设计能够有帮助。

一课一练

关于今天我们讨论的题目你做到心中有数了吗留一道思考题给你先思考一个应用场景比如你需要实现一个云计算任务调度系统希望可以保证VIP客户的任务被优先处理你可以利用哪些数据结构或者标准的集合类型呢更进一步讲类似场景大多是基于什么数据结构呢

请你在留言区写写你对这个问题的思考,我会选出经过认真思考的留言,送给你一份学习鼓励金,欢迎你与我一起讨论。

你的朋友是不是也在准备面试呢?你可以“请朋友读”,把今天的题目分享给好友,或许你能帮到他。