谷歌的“三驾马车”，即谷歌文件系统、MapReduce、BigTable，被誉为计算机科学进入大数据时代的标志。

作为开源大数据的标杆：Hadoop，它的开发者道格·卡丁（Doug Cutting），最初在实现自己的爬虫Nutch的时候，只实现了Hadoop文件系统和Hadoop MapReduce，并未实现BigTable。所以在很长一段时间里，BigTable在Hadoop的生态圈里是缺失的。

对于这种缺失，我们也可以理解为：无论是在爬虫还是当时Hadoop的几大生态圈里，大家对BigTable的需求并没有另外“两驾马车”那样强烈。

真正在Hadoop的生态圈里实现BigTable的开源版的，是一家叫做Powerset的公司推出的HBase项目。HBase代码量大，架构复杂，但是很多代码都写得非常优雅。与Hadoop文件系统和Hadoop MapReduce的快、糙、猛相比，HBase的出现无疑让人眼前一亮。

曾经的Powerset也是十分著名的创业公司，它创业的领域是下一代搜索引擎：自然语言搜索引擎。在今天，它却没有了当初的名气，为什么这么说呢，接下来我就会说到。

那么，这个曾经开发了HBase的创业公司，现在又是怎样的情况呢？今天我们就一起来了解一下。

2004年，谷歌成功上市，它是2000年的互联网泡沫后，第一家上市的超大型互联网公司。作为搜索巨人的谷歌，已经渐渐取代门户网站，成为互联网新的入口。与此同时，它的股票增值速度也像坐上了火箭，一路攀升。

那个时候移动互联网尚在萌芽，社交网络也没有占据主流地位；“搜索引擎”因为谷歌的成功，成为了创业者和投资人的关注热点。

在这样的大背景下，一个以投资者和创业者的信息为主的网站VentureBeat发出了不同的声音，它的主编马特·马绍尔（Matt Marshall）发表了一篇文章，标题是这样的：“不可忽视的创业公司Powerset，即将筹集1000万美元去打败谷歌。”（Bold start-up,Powerset,about to raise $10M to take on Google）

这篇文章画出了三个重点：有一个新的高科技创业公司Powerset，它的创始人是人工智能和自然语言处理技术专家巴尼·佩尔（Barney Pell），这家公司将会以新的技术打败谷歌。

在这篇文章发表之后，Powerset的创始人，号称“人工智能和自然语言处理专家”的巴尼，也亲自撰写了一篇文章，告诉大家自己正在创办一家搜索公司。

巴尼还举了一个例子，如果搜索 “Book by children”，谷歌会自动忽略掉“by”，导致搜索引擎不能明白这句话到底是什么意思。但是，自己创立的公司Powerset则不会有这个问题。因为后者可以理解自然语言，而前者只是做关键词匹配，所以高频介词“by”被忽略掉了，造成了语义不正确。

即使到了今天，谷歌的搜索引擎在很大程度上还是对单词进行匹配，于是基于语义的搜索，对2006年的谷歌而言，毋庸置疑是个问题，而Powerset是基于自然语言的，想来技术上应该相当厉害。

但事实上是，Powerset在公司还没有任何产品的时候，就开始大肆炒作。这靠不靠谱就不好说了。后来公布出来的信息让人大跌眼镜，Powerset所使用的自然语言分析技术，是从施乐公司的帕洛阿尔托研究中心（Palo Alto Research Center）授权得来的。

一个自然语言搜索的公司，它的核心技术不是由自己开发的，而是授权过来的。这就更让人怀疑Powerset到底靠不靠谱了。所以Powerset一边在聚光灯下备受瞩目，一边又被大家不断质疑。

众人盼星星盼月亮地等待Powerset发布跨时代的产品，然而这一等就是两年。到了2008年5月的时候，Powerset终于发布了它们的第一个基于自然语言的搜索引擎，但是这个引擎只能搜索维基百科上面的一部分文章，并不能处理维基百科以外的任何互联网内容搜索问题。

不过，在Powerset的搜索结果页面上，确实包括了一些和谷歌不一样的东西，它们主要是下面的内容。

资料（Factz） ：当用户输入一个搜索主题，Powerset会从维基百科（Wikipedia）中总结出一些相关资料。
主题档案（Dossiers） ：Powerset会对主题做一个总结。
答案集（Answers） ：对很多问题，Powerset会自动生成一个答案表。
语意高亮（Semantic Highlighting） ：与用户问题语意相关的搜索结果，会高亮显示。
微浏览器（MiniBrowser） ：搜索结果会以大纲形式显示。
专题条（Article Outline） ：一个导航工具条，会随时漂浮在搜索结果旁边，来帮助用户快速进入文章的某个章节。
资料概要（Summary of Factz） ：会自动生成文章的内容总结。
相关资料（Explore Factz） ：可以生成相关主题文章的链接。

这些东西和谷歌比起来，自然是有令人耳目一新的成分；但是这样的搜索引擎是不是比谷歌的更强大好用，那就见仁见智了。

有人问Powerset，为什么不提供整个互联网的索引？Powerset的回答是：它们作为一个创业公司，没有足够的机器存储整个互联网的内容，但它们的技术对整个互联网都是适用的；只要有足够多的财力、物力，Powerset分分钟就可以把自己变成一个能够搜索整个互联网的搜索引擎。

这个回答，当然不会让所有人十分满意。有些人相信Powerset有这样的能力，还有人觉得Powerset是在吹牛。

毕竟维基百科有相对工整的数据，工整的数据在语义上就会相对简单，建立知识库也不是那么复杂；而对于整个互联网来说，数据不仅仅没有这样工整，很可能也是不正确的，面对这样的数据，Powerset的表现很可能是一塌糊涂。

之后发生的事情就十分有趣了。谷歌有钱以后就开始挑衅微软，开始了在西雅图建办公室、挖微软的墙角、推出Google Docs进军微软的办公软件市场等一系列行径。

这导致当时微软的CEO史蒂夫·鲍尔默（Steve Ballmer），决定大举进军搜索市场，做“必应搜索引擎”和谷歌正面对抗。

于是，在Powerset公布它们基于维基百科的新一代搜索引擎以后没多久，也就是2008年7月，Powerset就被微软收购了，收购价是1亿美金，实际上，收购价其实算不得很高。

而收购了Powerset的微软，既没有终止HBase的开发，也没有把HBase当作自己重要的资产对待。一直到萨提亚（Satya）上台以后，微软开始向“云”转移，HBase的重要性才体现了出来。

但是在那个时候，在微软收购Powerset时加入的那批HBase开发人员，却早已经纷纷跳槽离开了。

所以，微软曾经有一次绝佳的机会，可以对Hadoop生态圈形成巨大的影响，但自己却轻易地放过去了。这或许是微软一时之失，或许是它当时过于自以为是，但历史就是历史，我们也不好过多评判。

我们无从验证Powerset是否真的那么牛，但是起码有一点，微软的必应搜索引擎自从收购了Powerset的技术以后，再也没有呈现出超越谷歌的趋势。

不过不可否认，Powerset也是做出了一定的贡献。它在开发语义搜索系统的过程中，需要用到类似于谷歌BigTable的系统，但是当时开源的Hadoop生态圈却没有，所以Powerset自己开发了HBase。

单纯从这一点来讲，Powerset就有点让我刮目相看了。HBase并非是一个简单的系统，最初Powerset投进去的人虽然只是个位数，但是它的质量在开源社区里是非常不错的。

所以，如果我们中肯地去评论Powerset，它做出了HBase，并且对Hadoop生态圈和大数据开源的贡献依然是极为巨大的。所以，无论如何，我们都还是要感谢Powerset，毕竟，它还是给我们留下了HBase，这个优质的开源产品。