摘要:开源项目Hadoop的诞生原本只是为了解决数据管理的技术问题。而如今,它已经演变成了行业标准,它驱动的市场所具有的价值在2020年预计将达到502亿美元。

开源项目Hadoop的诞生原本只是为了解决数据管理的技术问题。而如今,它已经演变成了行业标准,它驱动的市场所具有的价值在2020年预计将达到502亿美元。

从草根工程到行业标准:一个开源小项目的进化神话-速客网

如今的软件界有着数不清的开源项目,它们拥有疯狂的名字,但其中的大多数从来都没有入过企业的法眼,只有Hadoop是个例外。

Hadoop的名字来源于一个小孩的玩具,如今已被用于雅虎(Yahoo!)和Facebook等公司的大数据程序中。供应商表示,《财富》50强中有半数以上的公司都在用它。

根据弗雷斯特研究公司(Forrester)分析师麦克•瓜尔蒂耶里的说法,这个软件“在数据管理上采用了令人耳目一新的独特方法,改变了各公司存储、处理、分析和分享大数据的方式。”弗雷斯特认为Hadoop会成为大型企业必备的架构。Hadoop在2012年的全球市值为15亿美元,而到2020年,人们估计它的价值将会达到502亿美元。

一个草根的开源项目最终成了行业标准,并不是一件常有的事。Hadoop是如何做到的?

“一个拥有迫切需求的市场”

分析公司RedMonk共同创始人和首席分析师史蒂芬•奥格雷迪说:“Hadoop是由基础的差异化技术、获得许可的开源代码库和迫切需要解决数据爆炸的方法的市场三者结合形成的巧合。从这一点上来说,它的成功并不令人意外。”

这个软件的创造者是道格•卡廷和麦克•卡法雷拉。它与许多其他发明一样,都是应需而生。2002年,两人都在为一个叫做Nutch的开源搜索引擎工作。卡廷说:“我们取得了一些进展,在小范围的机器上运行了它。但我们仍然不清楚要怎么扩大它的使用范围,让它像谷歌(Google)一样被成千上万的机器使用。”

之后不久,谷歌就谷歌文件系统(Google File System)和MapReduce发表了一系列学术论文,卡法雷拉说:“于是我们很快就清楚了,Nutch需要拥有一些类似的架构。”

卡廷解释道:“谷歌处理问题的方法与众不同,十分有用。”目前为止,人们通常认为“你需要为每一个想要完成的分布式任务建立专门的系统”,而在这一点上,谷歌提供了一个通用的自动化架构来完成分布式计算。卡廷说:“它能够处理分布式计算中的那些困难的部分,如此一来,人们就可以专心编写自己的程序。”

卡廷和卡法雷拉【如今分别是Cloudera首席架构师和密歇根大学(University of Michigan)计算机科学和工程专业的助理教授】知道,他们得做出自己的架构——不仅是为了Nutch,也是为了造福其他业内人士——他们明白自己想把它做成开源。

卡廷说:“我不喜欢商业的那些事,我只是个搞技术的。我喜欢写代码,与同事合作解决问题,完善我们的产品,而不是试着把它卖掉。我更愿意告诉别人‘这一点上它做得不错,那一点上太糟糕了,也许我们可以改进一下。’能够当一个彻底诚实的人感觉很好,而在商业环境中,你很难保持这一点。”

但是这两人知道,这项技术一旦取得成功,将会具有巨大的潜力。卡廷说:“如果我没判断错,这是项很有用的技术,许多人都想用,那我就能付我的房租了,我们的初创公司也就没那么大风险了。”

对卡法雷拉而言,“将Nutch开源,部分原因是想要看到搜索引擎技术摆脱少数几家公司的垄断,但这也是一项战略决定。如此一来,我们就最可能得到来自大公司的工程师的帮助。我们特地选择了一个能让其他公司最轻松地参与进来的开源许可。”

这是一项英明的决定。卡法雷拉说:“如果没有雅虎和其他公司的大量投资,Hadoop可能不会这么成功。”

“没谁拼得过开源产品?”

所以Hadoop借用了一个来自谷歌的点子,把这个概念开源,然后得到了雅虎等大公司的鼓励和投资。但这并不是导致它成功的全部因素。运气——完全没有预想到的市场需求——也在其中起到了关键因素。

卡廷说:“我知道其他人可能会碰到类似的问题,但我不知道居然这么多人都有。我觉得大部分用户都会是文本搜索引擎的开发人员,可没料到许多从事保险业、银行业和石油勘探业的人也会用它——它已经在这些领域得到了应用。”

回首往昔,卡廷说:“我猜我们开展得足够早,作为第一批推动者,我们做的又是开源产品,也付出了大量努力,这一切让我们与许多早期竞争者区分了开来。麦克和我已经研发了很久,不过来自雅虎的几十位工程师又花了好几年时间才让这个架构变得稳定。”

卡廷表示,即便有竞争者想要迎头赶上,“你又怎么能拼得过开源产品呢?和开源产品竞争是非常困难的事——其他所有人都会为它做贡献,他们没有成本。加入他们比对抗他们更容易。”

国际商业机器公司(IBM)、微软(Microsoft)和甲骨文(Oracle)就在那些选择同Hadoop合作的大公司之列。

尽管卡法雷拉并不奇怪网络公司会使用Hadoop,但他表示,他对“这么多人都碰到了12年前极为罕见的数据管理问题”感到震惊。“曾经只有雅虎和谷歌才存在的问题,现在困扰着每一个人。”

信息技术研究公司451 Research的企业软件高级研究员杰伊•莱曼表示,Hadoop代表了“一种开源软件技术的主要推动者的转折点。”在这之前,开源软件比如Linux操作系统,是因为提供了微软Windows这类专有软件之外的合算选择,才声名鹊起。“企业使用它们,大部分都是出于节约成本、提高效益的考量。”

不过,随着非关系型数据库(NoSQL)和Hadoop的出现,莱曼说,“我们看到使用者中出现了有创新之举的推动者。非关系型数据库和Hadoop技术并不真正属于专有技术之外的其他选择。”

Hadoop的成功对创造者来说是一种惊喜。卡廷说:“我没有想到一个开源项目能够像这样引领着行业。我太高兴了。”

它仍然发展得如火如荼。卡法雷拉说:“比起最早的组件,Hadoop现在庞大多了。它已经成了一整套工具,而且还在继续扩充。单个的组件也许会遭遇竞争者——主要是MapReduce——但我没有见过能够取代整个Hadoop系统的强大对手。”

RedMonk的奥格雷迪说,这个项目的适应性“能够让它不断成功。现在的Hadoop非常与众不同,比起一年或者两年前,它的功能更加强大了。”

不过未来还有许多工作要做。接下来,在Cloudera的支持下,卡廷要开始专注于研究与大数据技术配套的法律政策。

卡廷说:“现在我们有了这项技术,商业和政府的方方面面几乎都已经大幅数字化了,我们也有处理所有这些数据的工具。我们现在需要保证使用它们是出于造福社会的目的。从许多方面看,政策都需要紧跟技术的脚步。”

“不管怎样,我们最终都要涉及法律。我们希望它们用在正当的地方。”

Via 财富中文网 作者: Katherine Noyes 译者:严匡正

历史上的今天:

  1. 2017:  谷歌雅虎财经数据齐闹乌龙:亚马逊暴跌87%(0)
  2. 2017:  专访Woj:我不是最好的NBA记者(0)
  3. 2016:  Tumblr 创始人马可·阿蒙德(0)
  4. 2015:  赴日游客猛增 雅虎斥资1600万购酒店预订公司 Dynatech(0)
  5. 2013:  邮箱巨头雅虎为何收购电邮服务商Xobni?(0)