gitbook/技术与商业案例解读/docs/624.md
2022-09-03 22:05:03 +08:00

46 lines
6.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 069 | Hadoop及其发行商的未来
Hadoop以及它的生态圈从开始到现在也已经有差不多十年历史了。Hadoop从雅虎支持的一个开源项目到由很多项目组成的Hadoop生态圈以及依靠Hadoop发行版开展商业活动的三大公司Cloudera、Hortonworks以及MapR其发展不可谓不迅猛。
我在前面重点介绍了Hadoop的三大发行商希望通过对其历史、技术和商业模式等各方面的介绍让你对Hadoop当前的商业化状况有了一定的了解。
那么十年之后整个生态圈又发生了哪些变化Hadoop发行商们的未来又会是怎样呢本文就来探讨这方面的问题。
Hadoop诞生的原因有很多但是最重要的一条是除去谷歌硅谷的其他互联网公司们每一个单拎出来其研发能力都有限不太可能构建出谷歌那样的大数据架构。而互联网业务的发展决定了这一套大数据架构是不可或缺的所以这些“兄弟们”以雅虎和Facebook为首开始抱团取暖在Hadoop这个开源产品下逐渐构建出了整个生态体系。
因此这个生态体系最初的服务对象也是这些互联网公司。互联网公司的研发能力都很强可以自己定制系统所以Hadoop生态圈的发展在很长一段时间里都不够稳定。而传统的非IT企业则不愿意使用Hadoop。
这种情况随着Cloudera、MapR和Hortonworks的加入有了很大的改善。这些Hadoop发行商提供的版本不但是Hadoop的稳定版本而且加入了很多帮助传统企业使用Hadoop的工具。这些厂商成了Hadoop生态圈里的另外一批受益者。
**但是它们都算不上Hadoop生态圈里最大的受益者从实际情况来看亚马逊这个全球最大的云计算厂商才是**。这里面有两方面原因。
首先亚马逊自己的研发能力也不足以开发出一套大数据分析生态系统但是它同样需要类似Hadoop的大数据分析平台所以亚马逊内部就需要使用Hadoop。这样一来亚马逊就需要研究怎么在自己内部部署Hadoop系统。
其次亚马逊又是全球最大的云计算厂商其所有云计算服务对内对外的接口完全一样因此通过在亚马逊实现Hadoop的自动运行除了服务亚马逊更可以提供服务给外部使用这就是Elastic MapReduce服务。这不仅让各大企业省去了购买机器集群和管理机器集群的负担而且让亚马逊卖出了更多的云服务。这种“一鱼两吃”的做法让亚马逊迅速做大了自己的圈子。
与之相反其他两个云厂商——微软和谷歌一开始都不是Hadoop生态圈的它们都研发了自己的大数据处理平台供内部使用因此对于让Hadoop在云端运行起来没有那么大兴趣。等到它们发现原来亚马逊已经靠云卖Hadoop赚了很多钱多少有些为时已晚。
**亚马逊的Hadoop云端服务同时摊薄了谷歌和微软这样的云厂商以及Cloudera、MapR和Hortonworks这些Hadoop发行商的盈利空间。**
Cloudera意识到了亚马逊模式的威胁在2016年曾经试图和英特尔沟通让其投资Cloudera做云上的Hadoop服务以便和亚马逊竞争。
然而可能英特尔同时也是亚马逊的大主顾亚马逊数据中心需要大量采购英特尔的硬件又或者是英特尔自己并不想全面进入云计算这个领域总之Cloudera没有获得足够的资金这个计划就搁浅了。之后因为盈利不佳融资不易它只能自砍估值一半流血上市。
**在这次战争里亚马逊笑到了最后还有另外一个原因。亚马逊推出来的存储服务S3历史悠久非常稳定而Hadoop本身的文件系统HDFS则比较糟糕、效率很低**。在亚马逊实现Elastic MapReduce的时候对文件系统的处理并非是基于HDFS的而是把自己的S3作为存储系统在上面实现了HDFS的接口而已。
面对一个非常稳定的文件系统有无数的大小企业又都把自己的数据存在这个文件系统上Elastic MapReduce相比原生Hadoop系统表现出了更高的效率、更好的性能自然更受欢迎。加上亚马逊出了名的控制成本、定价便宜其他Hadoop厂商要想在亚马逊的进攻下赚到钱就比较艰难了。
微软的转型相对快一些。HDInsight就是微软的Hadoop云产品。它的文件系统也不再是简单的复用HDFS而是在Windows Azure的存储上实现了HDFS的接口而已。
经过十年的发展Hadoop所有在云上的版本基本上都只是实现了HDFS的接口却不用HDFS的完整实现这是目前很多人觉得HDFS已死的原因。
另外Hadoop早年实现的数据处理框架MapReduce如今在整个生态圈里也被DataBricks主导的Spark打败Spark已经成为通行的标准了。从这个角度来看当年雅虎推出的那个Hadoop经过这么多年的演变很多东西都已经空心化被新的技术取代了留下来的只是接口。
**数据处理框架的影响,从目前来看,比文件系统演变的影响要小**。有一点很重要就是亚马逊的Elastic MapReduce虽然取了这个名字但其服务其实是提供了一个虚拟的Hadoop集群。既然是Hadoop集群那么不跑MapReduce而是跑Spark本身也不是问题。所以说名字可以欺骗人但是数据处理框架的改变一点都不影响亚马逊赚钱。
**Hadoop三大发行商的空间这些年里越来越被云厂商提供的Hadoop服务给占领了所以它们的日子都不太好过。现在云厂商占领不了的那些更多是不想上云或者还没上云的传统企业**。这些企业基于各种考虑或者是数据安全的问题或者是自身的IT能力比较弱所以会选择三大发型商之一的版本。
在这三个版本里HDFS被重写的MapR版本其文件系统相对稳定性能更好而其他两家的版本则基于老的HDFS。整体上看MapR的版本在存储层可以提供更多的企业级特性但是要确保和Hadoop生态圈的其他产品兼容却不太容易Cloudera家大业大目前可能拥有了最优质的线下客户资源而Hortonworks暂时看不到任何优势。
在我看来企业上云是必然趋势。但Cloudera和MapR需要新的盈利增长点才能抵消企业上云带来的损失否则长久来看还是会逐渐走下坡路。而Hortonworks从技术和非技术的各方面表现来看与竞争对手的差距很遥远恐怕不出时日日子就会不好过了。