You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

60 lines
7.9 KiB
Markdown

2 years ago
# 067 | Hadoop三国之吴国MapR
今天我要介绍的这个Hadoop发行商是MapR。它算得上是一家特立独行的公司它实力很强但却比较少去参与争斗所以我们把它称作“吴国”吧。
MapR成立于2009年由CEO约翰 · 施罗德John Schroeder和CTO斯里瓦斯M. C. Srivas创立。到2016年的时候施罗德卸任CEO做了执行主席Executive Chairman斯里瓦斯则去了Uber。为什么CEO和CTO下台的下台去Uber的去Uber这是个有意思的问题我留到文章最后来说。
先从MapR这个名字聊起它是MapReduce的缩写。在心理学上有这样一个说法人们总是会在潜意识里面流露出对自己不擅长的东西的关注。从这一点上来看MapR这个公司拿了MapReduce来做商标而事实上它擅长的也的确不是MapReduce。
**MapR的Hadoop发行版和其他公司很不一样它是一个挂着Hadoop外壳但是夹杂着自己私货的版本。**
MapR的联合创始人兼CTO曾经在谷歌的文件系统组做过经理所以他很强烈地认为Hadoop的文件系统是个“渣子”。于是这个CTO用很低廉的薪资在印度雇用了一群程序员重构了一个文件系统。这个文件系统据说有比Hadoop的文件系统优越无数倍的性能、稳定性、安全性等等。
**而MapR的Hadoop版本简单一点来说就是把Hadoop里面的文件系统替换成了自己的这个不开放源代码的文件系统同时又做了很多工作让这个文件系统和现有的Hadoop体系兼容**。这种兼容性在我看来其实挺难做的但是MapR号称是做到了。
本着在文件系统道路上越走越远的想法MapR踏出了第二步瞄准了在Hadoop生态圈里非常重要的NoSQL产品HBase。
HBase的大名可谓众人皆知但是因为HBase受到了Hadoop文件系统本身的一些限制以及设计与底层的存储分离得太厉害其性能一直不是很好。
**MapR的下一步做法是改变文件系统在文件系统内实现对HBase的支持并且提供HBase的接口给上层应用。这样用户其实不需要额外装HBase就自然而然地拥有了HBase的功能。**
**这还没完MapR在自我改造的道路上越走越远。它们又瞄准了Kafka——这个在Hadoop系统里面做数据交换的重要服务。**MapR的做法还是继续改改改改它的文件系统让文件系统又拥有了Kafka的功能。于是用户们不需要安装就可以使用Kafka了。
**没错,就是这样。这个创业公司凭借一己之力,集聚了一群程序员,挑战了全世界,重新实现了这么多的功能,然后再包装进自己的发行版卖给客户。更重要的是这些重新实现的功能,据说性能上要好很多。**而开源的东西按照MapR的说法实在是只能凑合着用。怎么样也比不上MapR的高大上。
MapR的说法是这种做法不只实现了同样的东西而且做得更好、更高效。“更快、更高、更强”是每个人追求的目标如果后面再加个“更便宜”那就太完美了。
**只是MapR的这套系统本身以赚钱为目的和“便宜”是没有什么关系了MapR的系统卖得比其他人的系统都贵因为他们觉得自己的系统更好。**
**此外但凡是存储相关的功能MapR都重新实现了一遍其他部分则选用开源的这就导致了两个问题。**
第一那些开源的东西在这个文件系统下的兼容性需要仔细测试。所以很多时候你会发现只有伴随着MapR的发行版一同发行的开源工具才能在MapR的文件系统上很好地工作而外部下载的就不能保证这一点了。
第二就是客户有顾虑。客户会想你的系统是自己实现的如果我上了你的“贼船”再想回头去用Cloudera的就不太可能了吧因为你的数据存储对别人来说就是不透明的迁移起来会有障碍。为了避免被“绑”在MapR的战车上还是不要买你家的东西吧
这其实很考验市场人的宣传功力。 当然MapR的宣传队伍不是吃素的他们把自己的系统定义为“二进制代码无差别兼容”。简单一点来说就是在其他的Hadoop发行版和MapR之间可以互换模块随便运行。
这个口号看上去很美好但实际测试的时候往往就是另一番景象了。这个所谓的“二进制代码无差别兼容”从来没有真正实现过。不过倒是很多人在宣传的时候说“我们就是Hadoop没有兼容性问题”。这个Hadoop发行版终究没能成功开疆拓土在美国以外地区几乎没有什么人用。
**相对于存储系统MapR在系统的执行方面就显得没这么自信了。MapR有关执行的部分比如说MapReduce或者在MapReduce之上开发的各种查询语言——如HIVE、PIG等都是直接用开源的。不过MapR对开源社区的贡献是有目共睹得低。**
MapR主导了一个开源项目Apache Drill的开发。大概在2013年的时候MapR的人来找过我我和当时的Drill项目负责人聊过以后感觉对方对很多问题都还没想清楚所以没有去MapR工作。
后来Drill的发展也并不顺利再后来变更了主要负责人项目也慢慢起来了参与进来的公司越来越多。再后来伴随着MapR创始人的下野Drill的人也跑去开了个创业公司。我个人对于这个创业公司的前景不是特别看好主要还是感觉Drill这个产品不是很出彩。
Drill这个东西是开源的但是MapR这个企业对于好东西往往都不开源。因此我们难免要仔细审视一下Drill。至于Drill发展至今又是个什么境况我就不妄加评论了。
**MapR的融资过程比较有意思前后融了好几轮最后一轮时谷歌旗下的风险投资部门Google Venture投了钱。为什么说有意思呢因为谷歌很少在Hadoop的相关领域撒很多钱比如在Cloudera上投入就不多。**
我想可能谷歌从来都没有看好过Hadoop的文件系统或者Hadoop整个生态圈。但是对于凭一己之力去重写文件系统的公司并且其创始人还是从谷歌出来的知道Hadoop内部是怎么做的可能就刮目相看了。谷歌也许认为这样的公司有可能成功所以才投入了很多钱。
**MapR的生意很有意思。它真正的客户量很少可能连Cloudera的10%都不到。但是很奇怪MapR和Cloudera在营收上差不多。也就是说MapR的每个客户贡献给它的钱都要多很多。**这到底是什么原因导致的呢因为客户上了MapR的“贼船”下不来而不得不继续使用还是这家公司的产品真的受有钱公司的欢迎我无法去辨别。
**MapR的CTO兼联合创始人在2016年离开MapR成了Uber的首席数据架构师。**创始人下台或者离职显然不是什么好事情。那么这个印度人为什么放着自己好好的公司不做非要跑去Uber呢
**我想不外乎两个可能性:一是自己做得没兴趣,不想做下去了,二是资本的力量进来了。**也许CTO觉得钱赚得不够多不是上市的好时期而资本没有这个耐心继续等下去因此就只能把“拦路虎”清掉了。我想第二个原因可能性更大。
但是我们必须要提醒大家的是MapR的这套发行版能够出来这位CTO功不可没。离开了他MapR是不是依然具备继续前进的能力呢这就留给时间来检验吧。
不知道MapR到底什么时候要上市也不知道上市以后会采取什么举措但这种创始人离职的现象也许不是一个好的信号。我很难理解一个创始人需要在公司上市前夕离开自己辛苦创业的公司这种情境。我只能说要么是公司层面的问题要么就是资本的力量太强大了。你认为这对MapR又会有什么影响呢