gitbook/技术与商业案例解读/docs/7964.md

# 075 | IBM的大数据路之起早贪黑赶了晚集

    IBM是一家曾经有过无比辉煌历史的计算机公司，如今却时过境迁，对计算机发展的影响力所剩无几。

进入大数据时代后，IBM的路走得格外辛苦。IBM踏上大数据道路的早期我正好在IBM实习，也因此接触到了很多外人不知道的内容。

那是2008年，Hadoop刚刚开始兴起，雅虎正投入大量人力物力进行Hadoop核心模块的开发。我实习的部门是IBM Almaden研究院，这个研究院以研究数据库相关技术出名，历史上第一个关系数据库的原型系统System R就诞生于此。

当时我们组需要在Hadoop上开发两个外围项目。其一是做一种高级查询语言JAQL（JSON Analytical Query Language），它以JSON作为数据模型，语法上更像是一个数据流语言。另外一个项目则是基于JSON做一个搜索引擎。

2008年旧金山湾区有Hadoop聚会的时候，演讲内容一般针对的是Pig、Hive、JAQL，由此可见JAQL在当时也是颇有建树的。可以说，IBM很早就进入了Hadoop生态圈，而且有一个类似Pig或者Hive的查询语言的项目。从数据模型来看，JSON也是非常有特色，那为什么好好的一盘棋下着下着就输了呢？

**在我看来，IBM的官僚作风是一个很重要的原因。** 虽说下面有团队在做这件事，但是领导层的重视程度并不够。当时这个团队只有一个领导、两个兵，而且其他资源也是远远拼不过其他公司的。

**第二个原因，是IBM对待开源自己项目的保守态度。** Hadoop本身是个开源项目，但是想要IBM开源JAQL项目是一件非常不容易的事情。当时的团队负责人尤金 · 谢基塔（Eugene Shekita）为此付出了很多努力，但仍是进展缓慢。

后来IBM终于把JAQL开源了，但并没有同意把它捐献给Apache软件基金会，JAQL也就没能成为Apache的顶级项目。这样一来，其他非IBM的人想要参与进来就很困难了。JAQL的用户数量也因此受到了影响，难免显现出一些衰败的迹象，最终直接影响了团队士气，团队成员纷纷跳槽，只留下了老板尤金孤掌难鸣。后来尤金跳槽去了谷歌，这个和大数据、和Hadoop相关的技术研发也就嘎然而止了。

此后，IBM决定不再开源JAQL，而是把它整合到自己的产品中，并且不再允许其他公司使用，这种做法是以开源为主体的Hadoop体系完全无法接受的。慢慢地，JAQL系统就淡出了Hadoop的圈子，最终变得无足轻重了。

**在大数据领域，IBM研究院另外一个重要项目是机器学习平台System ML，这个项目始于2010年，也是比较早的。** 但是，这个项目同样也不是开源的，所以虽然大家从论文里面知道了这个项目，但是却不知道它是怎么做出来的，自然也就无法在这个项目上进行开发了。

在大数据的道路上，IBM因为自产自销的原因越走越窄，后来不得不做出一项重大决策：采用哪种平台继续前进。这次IBM的决定是全面倒向Spark。

Spark是加州伯克利大学AMP实验室研发的产品，后来又经过Databricks公司不断地产业化，在数据分析和处理引擎领域已经有一统天下的倾向。

IBM决定全面倒向Spark以后，内部的各种分析工具也都要从原先的平台迁移到Spark上。

从某种程度上来说，IBM早早地就开始了Hadoop相关技术的研究，但最终却决定放弃自己对底层开发的积累，使用一个别人开发的、比它还要晚的平台。对于“百年老店”IBM来说，或许这个选择在商业上可以理解，但不管怎样看，这都不是一个好兆头。

倒向Spark后，整个System ML项目要基于Spark重新开发。作为支持Spark生态系统的一部分，在2015年的Spark Summit上，IBM宣布将System ML开源。这个决定自System ML项目开始已经过去5年了，而就外界所知道的System ML也已经经历了两大版本的变迁。

经过一年多的孵化，System ML终于在2017年夏天成为了Apache的顶级项目，这也算是IBM主导的第一个Apache顶级开源项目。但在机器学习和深度学习大行其道的今天，System ML到底还能产生多大的影响，要打一个大大的问号。

**作为一个老牌的计算机公司，IBM眼光向来都不错。** 在Hadoop刚兴起时，就进行了相关的研究。而且，行动力一点也不比其他互联网企业和社交媒体来得差。

但是，虽然IBM早早地就进场了，项目做得也不差，人员素质更是不低，一切却都架不住官僚体系的腐朽和不开源的偏见。IBM内部官僚主义太重，虽然有团队在做Hadoop的相关技术研发，但上层的重视程度不够。更重要的是，凡是涉及了开源的问题，IBM都毫不犹豫地选择了拒绝，这更让IBM失去了很多机会。

可以说，那个曾经为计算机发展做出过卓越贡献、始终走在历史发展前列的计算机公司，“蓝色巨人”已经死了。在Hadoop市场和大数据领域的错失，究其原因还是这个企业早就是垂垂朽已了。对此，除了一声叹气，我又能说些什么呢。