40 lines
5.2 KiB
Markdown
40 lines
5.2 KiB
Markdown
|
# 075 | IBM的大数据路之起早贪黑赶了晚集
|
|||
|
|
|||
|
IBM是一家曾经有过无比辉煌历史的计算机公司,如今却时过境迁,对计算机发展的影响力所剩无几。
|
|||
|
|
|||
|
进入大数据时代后,IBM的路走得格外辛苦。IBM踏上大数据道路的早期我正好在IBM实习,也因此接触到了很多外人不知道的内容。
|
|||
|
|
|||
|
那是2008年,Hadoop刚刚开始兴起,雅虎正投入大量人力物力进行Hadoop核心模块的开发。我实习的部门是IBM Almaden研究院,这个研究院以研究数据库相关技术出名,历史上第一个关系数据库的原型系统System R就诞生于此。
|
|||
|
|
|||
|
当时我们组需要在Hadoop上开发两个外围项目。其一是做一种高级查询语言JAQL(JSON Analytical Query Language),它以JSON作为数据模型,语法上更像是一个数据流语言。另外一个项目则是基于JSON做一个搜索引擎。
|
|||
|
|
|||
|
2008年旧金山湾区有Hadoop聚会的时候,演讲内容一般针对的是Pig、Hive、JAQL,由此可见JAQL在当时也是颇有建树的。可以说,IBM很早就进入了Hadoop生态圈,而且有一个类似Pig或者Hive的查询语言的项目。从数据模型来看,JSON也是非常有特色,那为什么好好的一盘棋下着下着就输了呢?
|
|||
|
|
|||
|
**在我看来,IBM的官僚作风是一个很重要的原因。** 虽说下面有团队在做这件事,但是领导层的重视程度并不够。当时这个团队只有一个领导、两个兵,而且其他资源也是远远拼不过其他公司的。
|
|||
|
|
|||
|
**第二个原因,是IBM对待开源自己项目的保守态度。** Hadoop本身是个开源项目,但是想要IBM开源JAQL项目是一件非常不容易的事情。当时的团队负责人尤金 · 谢基塔(Eugene Shekita)为此付出了很多努力,但仍是进展缓慢。
|
|||
|
|
|||
|
后来IBM终于把JAQL开源了,但并没有同意把它捐献给Apache软件基金会,JAQL也就没能成为Apache的顶级项目。这样一来,其他非IBM的人想要参与进来就很困难了。JAQL的用户数量也因此受到了影响,难免显现出一些衰败的迹象,最终直接影响了团队士气,团队成员纷纷跳槽,只留下了老板尤金孤掌难鸣。后来尤金跳槽去了谷歌,这个和大数据、和Hadoop相关的技术研发也就嘎然而止了。
|
|||
|
|
|||
|
此后,IBM决定不再开源JAQL,而是把它整合到自己的产品中,并且不再允许其他公司使用,这种做法是以开源为主体的Hadoop体系完全无法接受的。慢慢地,JAQL系统就淡出了Hadoop的圈子,最终变得无足轻重了。
|
|||
|
|
|||
|
**在大数据领域,IBM研究院另外一个重要项目是机器学习平台System ML,这个项目始于2010年,也是比较早的。** 但是,这个项目同样也不是开源的,所以虽然大家从论文里面知道了这个项目,但是却不知道它是怎么做出来的,自然也就无法在这个项目上进行开发了。
|
|||
|
|
|||
|
在大数据的道路上,IBM因为自产自销的原因越走越窄,后来不得不做出一项重大决策:采用哪种平台继续前进。这次IBM的决定是全面倒向Spark。
|
|||
|
|
|||
|
Spark是加州伯克利大学AMP实验室研发的产品,后来又经过Databricks公司不断地产业化,在数据分析和处理引擎领域已经有一统天下的倾向。
|
|||
|
|
|||
|
IBM决定全面倒向Spark以后,内部的各种分析工具也都要从原先的平台迁移到Spark上。
|
|||
|
|
|||
|
从某种程度上来说,IBM早早地就开始了Hadoop相关技术的研究,但最终却决定放弃自己对底层开发的积累,使用一个别人开发的、比它还要晚的平台。对于“百年老店”IBM来说,或许这个选择在商业上可以理解,但不管怎样看,这都不是一个好兆头。
|
|||
|
|
|||
|
倒向Spark后,整个System ML项目要基于Spark重新开发。作为支持Spark生态系统的一部分,在2015年的Spark Summit上,IBM宣布将System ML开源。这个决定自System ML项目开始已经过去5年了,而就外界所知道的System ML也已经经历了两大版本的变迁。
|
|||
|
|
|||
|
经过一年多的孵化,System ML终于在2017年夏天成为了Apache的顶级项目,这也算是IBM主导的第一个Apache顶级开源项目。但在机器学习和深度学习大行其道的今天,System ML到底还能产生多大的影响,要打一个大大的问号。
|
|||
|
|
|||
|
**作为一个老牌的计算机公司,IBM眼光向来都不错。** 在Hadoop刚兴起时,就进行了相关的研究。而且,行动力一点也不比其他互联网企业和社交媒体来得差。
|
|||
|
|
|||
|
但是,虽然IBM早早地就进场了,项目做得也不差,人员素质更是不低,一切却都架不住官僚体系的腐朽和不开源的偏见。IBM内部官僚主义太重,虽然有团队在做Hadoop的相关技术研发,但上层的重视程度不够。更重要的是,凡是涉及了开源的问题,IBM都毫不犹豫地选择了拒绝,这更让IBM失去了很多机会。
|
|||
|
|
|||
|
可以说,那个曾经为计算机发展做出过卓越贡献、始终走在历史发展前列的计算机公司,“蓝色巨人”已经死了。在Hadoop市场和大数据领域的错失,究其原因还是这个企业早就是垂垂朽已了。对此,除了一声叹气,我又能说些什么呢。
|
|||
|
|