You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

56 lines
6.6 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 092 | Data Artisans浴火重生的新一代大数据计算引擎Flink
2014年数据库领域的顶级会议VLDB在杭州召开。柏林理工大学的教授沃克尔·马尔科Volker Markl做了一场关于大数据计算平台的专题报告这场报告讲的是一个叫做Flink的系统。
沃克尔和他的团队从事大数据研究已经很多年了他们最初开始做的是一个叫做Stratosphere的项目。这个系统并不出名既无Hadoop的声势浩大也没有Spark的迅速扩张。
后来沃克尔吸取了早年Stratosphere系统的教训并调研了市场上现存的系统不足经过了重新设计才制作出了这个叫Flink的新系统。
Flink以非常先进的流计算引擎思想为基本同时还结合了传统大数据和数据库的优点。于是这个系统一进入Apache软件基金会以后就迅速火爆了甚至连Capital One和国内的阿里巴巴集团银行都开始相继使用。
Flink从一出现就获得了很多的关注这是自Spark项目出现以来所有Apache项目里面最受关注的一个。最主要的原因就是Flink的理念非常先进而且Flink是基于流模型的一个计算平台它所使用的流计算模型又是目前市面上所有开源项目里最为先进的。“先进”“实时”“流计算”这些词语被放在一起就给Flink带来了无限的光辉。
Flink一时风头无两网上很快出现了Spark是不是会被Flink取代的言论。在美版知乎Quora和程序员非常喜欢的Stack Overflow上面这个问题屡次被提出来讨论。
实际上这个问题却没有一个定论业内大部分的人都觉得Spark和Flink的竞争中前者很成熟商业化也不错后者的理念先进也有一定的支持究竟谁能胜出还是要看后续的发展。
介绍完了Flink的概况我们再来聊聊它背后的公司。和加州大学伯克利学院对待Spark一样柏林理工Flink的主要开发者们也为Flink成立了一家大数据公司Data Artisans它的总部位于欧洲柏林在硅谷设有分公司。
从某种程度上Data Artisans和Databricks很像区别只是前者的主打项目是Flink后者是Spark而已。
Data Artisans的运营模式和盈利模式和Databricks也很像他们也提供一个基于Flink的云计算平台叫做dA Platform。这个平台有开源的Flink还有不开源的应用管理器平台不开源的部分就是他们的增值服务。此外公司同时提供了对Flink的培训和咨询服务。
如果我们把Flink换成Spark忽略主打项目的不同那么我们几乎可以看到两家公司几乎一样的商业运营模式。而这两个公司唯一的区别是Data Artisans目前不做认证服务。
那么说两个极其相似的产品之间后来者Data Artisans是不是会有一些不利之处呢。
首先它的竞争对手Databricks已经运营很久了。何况Databricks的前身加州大学伯克利分校的AMP实验室也已经和工业界有非常紧密的联系更不要说Spark在整个社区里已经建立非常强劲的生态环境。
其次Flink作为一个新产品又出自一个远离湾区的德国柏林的公司它的境遇自然就要差一些了。先不去谈时间上的短板仅仅因为它是欧洲公司出品的产品就可以令它在湾区的使用率被打一个折扣。所以对于Flink很多公司一直都是站着看戏的态度。这让Flink在号称互联网中心的北美地区推广并不顺利。
最后虽然Flink的产品在理念上很先进但是理念从来都不是一切理念之外还需要有这个产品的实现。这方面后来的Data Artisans比起Databricks要差了不少所以Flink实现起来Bug会多一些代码对于大规模的并行处理效率也要更低有很多的瓶颈等等。
不过虽然Flink有诸多不利之处但是它先进的流计算引擎思想代表着比Spark更光明的未来。这不妨碍一些公司尤其是自身学术能力不一定强但是有着强大工程开发能力和开发资源的公司去支持Flink。
Data Artisans的第一个强大的“后盾”就是阿里巴巴。阿里巴巴集团内部组建了一支自己的队伍在数据库专家蒋晓伟的带领下对Flink的代码进行了大量的改动这些改动在工程实现上让Flink有了一个质的飞跃。这款克隆版的Flink就是我们在前面文章中讲到过的Blink。
我们之前也讲到过Flink社区和阿里巴巴的Blink团队的合作非常紧密。阿里巴巴把很多自己做的改动都重新贡献回Flink这让Flink的发展迅速地走向了康庄大道。到今天为止阿里巴巴是世界上对Flink贡献代码第二多的公司仅次于Data Artisans。
Data Artisans和阿里巴巴的结合让我们对Flink的未来多了很多信心。
另外在北美也有一家公司在支持着Data Artisans它就是Capital One公司。Capital One公司也是Flink目前在北美的最大使用者它对Flink的表现还是相当满意的。
此外公开支持Flink的还有谷歌。支持Flink的原因是谷歌开源了它的数据流定义平台Apache Beam而在开源这一平台的过程中谷歌表示只有Flink这个引擎具备了Beam需要的所有特性其他引擎包括Spark在内都还是差了那么一点。
这些都让Flink赢得了一些关注但是不管怎么样Flink在北美的发展总体上仍然举步维艰。
我们常常说“成就都是站在巨人的肩膀上取得的”我们还常常会说“失败是成功之母”。Flink在某种程度上是这两句话的完美体现。
Flink很晚才被开发出来所以一方面它继承了一个失败项目的优点并规避了缺点。另外一方面它参考了市场上已有的引擎学习它们的长处与不足。简而言之Flink的起点很高。
但是晚出来的产品也有坏处。如果之前有一个很好的产品基本上已经占据了市场那么晚出的产品想要得到市场的认可不但需要技术要非常强大还需要看自身的运气。而它的前辈Spark的确是一个非常厉害的产品。
所以说Flink能不能够抢占一整块市场这一点不太好说。至于它能不能彻底把Spark取代了那更是痴人说梦。只要Databricks自己不犯错Data Artisans要想取得胜利实在是一件不容易的事情。但是我想市场那么大Data Artisans应该也能分得自己的一块蛋糕。
你又是怎么看待站在巨人的肩上这个问题呢?你可以给我留言,我们一起讨论。