You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

8.0 KiB

089 | PowersetHBase的老东家

谷歌的“三驾马车”即谷歌文件系统、MapReduce、BigTable被誉为计算机科学进入大数据时代的标志。

作为开源大数据的标杆Hadoop它的开发者道格·卡丁Doug Cutting最初在实现自己的爬虫Nutch的时候只实现了Hadoop文件系统和Hadoop MapReduce并未实现BigTable。所以在很长一段时间里BigTable在Hadoop的生态圈里是缺失的。

对于这种缺失我们也可以理解为无论是在爬虫还是当时Hadoop的几大生态圈里大家对BigTable的需求并没有另外“两驾马车”那样强烈。

真正在Hadoop的生态圈里实现BigTable的开源版的是一家叫做Powerset的公司推出的HBase项目。HBase代码量大架构复杂但是很多代码都写得非常优雅。与Hadoop文件系统和Hadoop MapReduce的快、糙、猛相比HBase的出现无疑让人眼前一亮。

曾经的Powerset也是十分著名的创业公司它创业的领域是下一代搜索引擎自然语言搜索引擎。在今天它却没有了当初的名气为什么这么说呢接下来我就会说到。

那么这个曾经开发了HBase的创业公司现在又是怎样的情况呢今天我们就一起来了解一下。

2004年谷歌成功上市它是2000年的互联网泡沫后第一家上市的超大型互联网公司。作为搜索巨人的谷歌已经渐渐取代门户网站成为互联网新的入口。与此同时它的股票增值速度也像坐上了火箭一路攀升。

那个时候移动互联网尚在萌芽,社交网络也没有占据主流地位;“搜索引擎”因为谷歌的成功,成为了创业者和投资人的关注热点。

在这样的大背景下一个以投资者和创业者的信息为主的网站VentureBeat发出了不同的声音它的主编马特·马绍尔Matt Marshall发表了一篇文章标题是这样的“不可忽视的创业公司Powerset即将筹集1000万美元去打败谷歌。”Bold start-up,Powerset,about to raise $10M to take on Google

这篇文章画出了三个重点有一个新的高科技创业公司Powerset它的创始人是人工智能和自然语言处理技术专家巴尼·佩尔Barney Pell这家公司将会以新的技术打败谷歌。

在这篇文章发表之后Powerset的创始人号称“人工智能和自然语言处理专家”的巴尼也亲自撰写了一篇文章告诉大家自己正在创办一家搜索公司。

巴尼还举了一个例子,如果搜索 “Book by children”谷歌会自动忽略掉“by”导致搜索引擎不能明白这句话到底是什么意思。但是自己创立的公司Powerset则不会有这个问题。因为后者可以理解自然语言而前者只是做关键词匹配所以高频介词“by”被忽略掉了造成了语义不正确。

即使到了今天谷歌的搜索引擎在很大程度上还是对单词进行匹配于是基于语义的搜索对2006年的谷歌而言毋庸置疑是个问题而Powerset是基于自然语言的想来技术上应该相当厉害。

但事实上是Powerset在公司还没有任何产品的时候就开始大肆炒作。这靠不靠谱就不好说了。后来公布出来的信息让人大跌眼镜Powerset所使用的自然语言分析技术是从施乐公司的帕洛阿尔托研究中心Palo Alto Research Center授权得来的。

一个自然语言搜索的公司它的核心技术不是由自己开发的而是授权过来的。这就更让人怀疑Powerset到底靠不靠谱了。所以Powerset一边在聚光灯下备受瞩目一边又被大家不断质疑。

众人盼星星盼月亮地等待Powerset发布跨时代的产品然而这一等就是两年。到了2008年5月的时候Powerset终于发布了它们的第一个基于自然语言的搜索引擎但是这个引擎只能搜索维基百科上面的一部分文章并不能处理维基百科以外的任何互联网内容搜索问题。

不过在Powerset的搜索结果页面上确实包括了一些和谷歌不一样的东西它们主要是下面的内容。

  1. 资料Factz 当用户输入一个搜索主题Powerset会从维基百科Wikipedia中总结出一些相关资料。
  2. 主题档案Dossiers Powerset会对主题做一个总结。
  3. 答案集Answers 对很多问题Powerset会自动生成一个答案表。
  4. 语意高亮Semantic Highlighting :与用户问题语意相关的搜索结果,会高亮显示。
  5. 微浏览器MiniBrowser 搜索结果会以大纲形式显示。
  6. 专题条Article Outline :一个导航工具条,会随时漂浮在搜索结果旁边,来帮助用户快速进入文章的某个章节。
  7. 资料概要Summary of Factz 会自动生成文章的内容总结。
  8. 相关资料Explore Factz 可以生成相关主题文章的链接。

这些东西和谷歌比起来,自然是有令人耳目一新的成分;但是这样的搜索引擎是不是比谷歌的更强大好用,那就见仁见智了。

有人问Powerset为什么不提供整个互联网的索引Powerset的回答是它们作为一个创业公司没有足够的机器存储整个互联网的内容但它们的技术对整个互联网都是适用的只要有足够多的财力、物力Powerset分分钟就可以把自己变成一个能够搜索整个互联网的搜索引擎。

这个回答当然不会让所有人十分满意。有些人相信Powerset有这样的能力还有人觉得Powerset是在吹牛。

毕竟维基百科有相对工整的数据工整的数据在语义上就会相对简单建立知识库也不是那么复杂而对于整个互联网来说数据不仅仅没有这样工整很可能也是不正确的面对这样的数据Powerset的表现很可能是一塌糊涂。

之后发生的事情就十分有趣了。谷歌有钱以后就开始挑衅微软开始了在西雅图建办公室、挖微软的墙角、推出Google Docs进军微软的办公软件市场等一系列行径。

这导致当时微软的CEO史蒂夫·鲍尔默Steve Ballmer决定大举进军搜索市场做“必应搜索引擎”和谷歌正面对抗。

于是在Powerset公布它们基于维基百科的新一代搜索引擎以后没多久也就是2008年7月Powerset就被微软收购了收购价是1亿美金实际上收购价其实算不得很高。

而收购了Powerset的微软既没有终止HBase的开发也没有把HBase当作自己重要的资产对待。一直到萨提亚Satya上台以后微软开始向“云”转移HBase的重要性才体现了出来。

但是在那个时候在微软收购Powerset时加入的那批HBase开发人员却早已经纷纷跳槽离开了。

所以微软曾经有一次绝佳的机会可以对Hadoop生态圈形成巨大的影响但自己却轻易地放过去了。这或许是微软一时之失或许是它当时过于自以为是但历史就是历史我们也不好过多评判。

我们无从验证Powerset是否真的那么牛但是起码有一点微软的必应搜索引擎自从收购了Powerset的技术以后再也没有呈现出超越谷歌的趋势。

不过不可否认Powerset也是做出了一定的贡献。它在开发语义搜索系统的过程中需要用到类似于谷歌BigTable的系统但是当时开源的Hadoop生态圈却没有所以Powerset自己开发了HBase。

单纯从这一点来讲Powerset就有点让我刮目相看了。HBase并非是一个简单的系统最初Powerset投进去的人虽然只是个位数但是它的质量在开源社区里是非常不错的。

所以如果我们中肯地去评论Powerset它做出了HBase并且对Hadoop生态圈和大数据开源的贡献依然是极为巨大的。所以无论如何我们都还是要感谢Powerset毕竟它还是给我们留下了HBase这个优质的开源产品。