摘要:雅虎一直是Hadoop的大用户和贡献者,无论哪一方面,他们的工作都很有参考价值。来自 Yahoo! 大数据平台高级总监 Sumeet Singh 的演讲更深入地介绍了 Hadoop 在 Yahoo 的使用。

演讲:雅虎 Hadoop 平台年度回顾-品味雅虎

来自 Yahoo! 大数据平台高级总监 Sumeet Singh 的演讲。

Yahoo一直是Hadoop的大用户和贡献者,无论哪一方面,他们的工作都很有参考价值。Sumeet 先生在第二天上午的 Key Note 环节已经介绍过了 Hadoop 在 Yahoo 的最新动态,所以这次题为“Hadoop Platform at Yahoo: A Year in Review”的演讲更多是深入和答疑。

Yahoo 部署有很多 Hadoop 集群,共享的、专有的、公网的、内网的。软件栈也非常丰富,尤其对 Pig 和 Oozie 的广泛应用是别处不多见的。

去年 Yahoo 的 Research 集群经过一次整合,采用更好的硬件淘汰旧机器,节点数从一万多下降到了两千多台,集群容量提升65%,利用率上升50%,最重要的总持有成本下降了40%。另一个亮点是采用100Gbps 的 InfiniBand 网络连接GPU集群,提供机器学习计算能力。利用 YARN 节点标记能力,将机器学习任务发送到指定的GPU服务器。Yahoo 采用 CaffeOnSpark 做深度学习,一些新的用例如气象预报、Flickr人脸识别、风景检测等等。

Yahoo 集群的总计算量一直在随时间线性增长,MapReduce 任务被慢慢转换成 Tez 或者 Spark 任务,但下降的速度并不是很快,可以想见 MapReduce 将一直存在下去。Yahoo 的 Storm 集群也是数一数二的规模,有两千多台。Storm 1.0 的很多新功能都已经使用,比如多租户和 Pacemaker。

最后还提到在 HBase 上实现事务 ACID 特性的新开源项目 Omid,也已经进入 Apache 孵化器阶段。

原文:Hadoop Summit 2016会场回顾(三)

观看演讲视频:https://www.youtube.com/watch?v=FbkSA1eAgbY

Via infoQ

历史上的今天:

  1. 2014:  Yahoo! 奇摩让移动流量翻倍的秘诀(2)
  2. 2014:  雅虎产品管理总监艾琳·蒂格(Erin Teague)(0)
  3. 2013:  雅虎日历的更新:更少的点击,更多的信息(0)
  4. 2012:  雅虎邮箱应用"My Drive"即将被关闭(0)
  5. 2012:  雅虎日本2011Q4净利润276.1亿日元,同比增长13.3%(0)