You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

40 lines
5.2 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 075 | IBM的大数据路之起早贪黑赶了晚集
IBM是一家曾经有过无比辉煌历史的计算机公司如今却时过境迁对计算机发展的影响力所剩无几。
进入大数据时代后IBM的路走得格外辛苦。IBM踏上大数据道路的早期我正好在IBM实习也因此接触到了很多外人不知道的内容。
那是2008年Hadoop刚刚开始兴起雅虎正投入大量人力物力进行Hadoop核心模块的开发。我实习的部门是IBM Almaden研究院这个研究院以研究数据库相关技术出名历史上第一个关系数据库的原型系统System R就诞生于此。
当时我们组需要在Hadoop上开发两个外围项目。其一是做一种高级查询语言JAQLJSON Analytical Query Language它以JSON作为数据模型语法上更像是一个数据流语言。另外一个项目则是基于JSON做一个搜索引擎。
2008年旧金山湾区有Hadoop聚会的时候演讲内容一般针对的是Pig、Hive、JAQL由此可见JAQL在当时也是颇有建树的。可以说IBM很早就进入了Hadoop生态圈而且有一个类似Pig或者Hive的查询语言的项目。从数据模型来看JSON也是非常有特色那为什么好好的一盘棋下着下着就输了呢
**在我看来IBM的官僚作风是一个很重要的原因。** 虽说下面有团队在做这件事,但是领导层的重视程度并不够。当时这个团队只有一个领导、两个兵,而且其他资源也是远远拼不过其他公司的。
**第二个原因是IBM对待开源自己项目的保守态度。** Hadoop本身是个开源项目但是想要IBM开源JAQL项目是一件非常不容易的事情。当时的团队负责人尤金 · 谢基塔Eugene Shekita为此付出了很多努力但仍是进展缓慢。
后来IBM终于把JAQL开源了但并没有同意把它捐献给Apache软件基金会JAQL也就没能成为Apache的顶级项目。这样一来其他非IBM的人想要参与进来就很困难了。JAQL的用户数量也因此受到了影响难免显现出一些衰败的迹象最终直接影响了团队士气团队成员纷纷跳槽只留下了老板尤金孤掌难鸣。后来尤金跳槽去了谷歌这个和大数据、和Hadoop相关的技术研发也就嘎然而止了。
此后IBM决定不再开源JAQL而是把它整合到自己的产品中并且不再允许其他公司使用这种做法是以开源为主体的Hadoop体系完全无法接受的。慢慢地JAQL系统就淡出了Hadoop的圈子最终变得无足轻重了。
**在大数据领域IBM研究院另外一个重要项目是机器学习平台System ML这个项目始于2010年也是比较早的。** 但是,这个项目同样也不是开源的,所以虽然大家从论文里面知道了这个项目,但是却不知道它是怎么做出来的,自然也就无法在这个项目上进行开发了。
在大数据的道路上IBM因为自产自销的原因越走越窄后来不得不做出一项重大决策采用哪种平台继续前进。这次IBM的决定是全面倒向Spark。
Spark是加州伯克利大学AMP实验室研发的产品后来又经过Databricks公司不断地产业化在数据分析和处理引擎领域已经有一统天下的倾向。
IBM决定全面倒向Spark以后内部的各种分析工具也都要从原先的平台迁移到Spark上。
从某种程度上来说IBM早早地就开始了Hadoop相关技术的研究但最终却决定放弃自己对底层开发的积累使用一个别人开发的、比它还要晚的平台。对于“百年老店”IBM来说或许这个选择在商业上可以理解但不管怎样看这都不是一个好兆头。
倒向Spark后整个System ML项目要基于Spark重新开发。作为支持Spark生态系统的一部分在2015年的Spark Summit上IBM宣布将System ML开源。这个决定自System ML项目开始已经过去5年了而就外界所知道的System ML也已经经历了两大版本的变迁。
经过一年多的孵化System ML终于在2017年夏天成为了Apache的顶级项目这也算是IBM主导的第一个Apache顶级开源项目。但在机器学习和深度学习大行其道的今天System ML到底还能产生多大的影响要打一个大大的问号。
**作为一个老牌的计算机公司IBM眼光向来都不错。** 在Hadoop刚兴起时就进行了相关的研究。而且行动力一点也不比其他互联网企业和社交媒体来得差。
但是虽然IBM早早地就进场了项目做得也不差人员素质更是不低一切却都架不住官僚体系的腐朽和不开源的偏见。IBM内部官僚主义太重虽然有团队在做Hadoop的相关技术研发但上层的重视程度不够。更重要的是凡是涉及了开源的问题IBM都毫不犹豫地选择了拒绝这更让IBM失去了很多机会。
可以说那个曾经为计算机发展做出过卓越贡献、始终走在历史发展前列的计算机公司“蓝色巨人”已经死了。在Hadoop市场和大数据领域的错失究其原因还是这个企业早就是垂垂朽已了。对此除了一声叹气我又能说些什么呢。