摘要:任何上过网的人都知道 Yahoo! 网站。虽然这家公司为全世界超过6.8亿用户提供内容和服务,但是其中很多的服务都是免费的,公司依靠广告销售获取收益。本月初,雅虎的前任用户数据和分析副总裁 David Mariani 向 Gartner BI Summit 峰会参会人员讲述这个搜索引擎巨头的新分析与...

任何上过网的人都知道 Yahoo! 网站。虽然这家公司为全世界超过6.8亿用户提供内容和服务,但是其中很多的服务都是免费的,公司依靠广告销售获取收益。本月初,雅虎的前任用户数据和分析副总裁 David Mariani 向 Gartner BI Summit 峰会参会人员讲述这个搜索引擎巨头的新分析与数据管理战略,如何用BI来提高广告空间对广告商的价值。

Mariani表示,雅虎的广告销售采用两种不同的形式:基于搜索的广告显示在查询页面;显示或者网页广告则在主页和网站内部显示。公司新的商业智能(BI) 策略正朝优化“性能显示”网页广告发展,目的在于促使访问者购买、提供一个邮件地址或者点击一个特定的网站。为了实现这个目的,雅虎必须确定访问网站的是谁,然后向该访问者提供最适合的广告。雅虎的最新BI项目要求实时加载、存储和查询大量的数据,以便尽可能准确地发起广告竞投。

案例背景:雅虎创建一个操作方式类似于纽约证券交易所的广告交易或者网络来销售网页广告。销售方就等同于发布者,他们决定是否有空间可以投放广告,而购买者则是广告商,他们为产品寻找最佳宣传方法。Mariani表示广告商会被基于搜索的广告所吸引,因为他们可以很容易抓住网站访问者的兴趣。例如,查找关于假期信息的人可能会浏览旅游公司的广告。

但是,使用这种关于个人喜好的信息来优化网页广告则难度更更大一些。要使广告商的网页广告空间投资物有所值,雅虎必须判断访问者的意图。

“我们必须实时分析各种不同的维度,”Mariani说道,包括当天时间、位置、年龄和性别。

为了实现这个目标,每天接收3.5亿广告显示次数的雅虎必须对数据流进行分析,以便决定什么广告能够最大限度地吸引各个访问者。每一个广告显示次数和在显示中所发生的行为都会被记录下来。公司会确定访问者统计方法,使用算法来进一步优化网页广告活动。这实际上要求每个季度将几千亿数据加载到系统中,存储之后,最端用户能够通过查询在10秒钟内访问这些数据。

“我们的系统需要找到能够发起特殊竞投和产生收益的确实有价值的信息,”Mariani说道。

实现:雅虎通过使用“从现成部件”而非购买一BI产品或者特殊技术来建立一个系统。

组织决定实施一个开源文件管理系统Hadoop,同时表示它是一种帮助公司运行数据聚合提取、转换和加载(ETL)操作的方法。

Hadoop和聚合引擎会等待事件到达广告服务器,这些事件每天会包含高达1.2TB的原始数据。提供数据归档和分段传输功能且支持扩展的Oracle 11g Real Application Clusters (RAC)可以加载到文件时就解析到数据并将它们保存到不同分区中。

然后数据被加载到一个cube,并每天可以从1.2TB压缩到135GB。SQL Server Analysis Services 2008 R2的多维在线分析处理(MOLAP)技术是作为Yahoo的数据库引擎运行的,并且会从Oracle加载分区,这会在每个季度产生16TB的数据库。加载到系统的数据可以在8到12小时后进行查询。

“建立这个数据仓库的每一个阶段之间都是互相独立的,”Mariani说道:“它并不是高度并行的,而且其中没有数据存储。它都是按照进入的顺序进行处理的。”

一旦完成,这个数据库就会创建一个快照并将它发布到一个负载均衡器所面对的BI银行查询服务。换句话说,雅虎已经完全将加载过程从查询过程中分离出来。

雅虎接着实现了两种不同的查询界面。首先,使用一个专用查询界面来帮助优化竞投,它有时被称为BI恶梦。这些查询必须快速执行,而Yahoo的系统可以在6秒钟内查询各处创建的5,000亿行数据。Mariani将它称为自我服务环境,它可以使最终用户快速地以可视化方式创建。第二种查询界面是通过组织称为目标选择、分析和优化(TAO)的Web应用程序来开发的,它是一个基于特定参数进行查询的自定义搜索功能。这个查询会在2秒钟内完成,并将信息反馈回最终用户,从而可以在需要时对广告竞投活动进行调整。

“我们的用户正在实时监控广告竞投活动,而且也在进行实时修改。”Mariani说道。

结果:这个项目已经成功交付1年了。新系统目前一周可以处理大约100,000查询。Mariani说道,它目前运行良好,而且正在产生“数以百万的美元”的价值,同时使广告更加有针对性。

雅虎已经能够通过比较使用TAO前后的竞投比较来测定它的成功。根据Mariani的看法,由TAO管理的竞投活动所获得的受益高出2倍。

“广告商喜欢它,发布商也喜欢它,因此有利于雅虎广告交易,”Mariani说道。

此外,广告商愿意花费比不使用TAO管理的竞投多15%的费用来采用TAO管理的竞投,这意味着雅虎会因此获得更多的收益。

通过管理数据和快速访问数据,Yahoo已经能够提供一个关于客户片段的更优快照。仪表板报告可以通过图表表示诸如会话和点击率等统计信息。

雅虎目前正处于建立一个可以处理更多日常广告显示数和客户片段的系统,它可以处理相当于目前水平10倍的数据。Mariani表示,这个指标已经在雅虎实验室中实现了。

Via 原文链接/译文由TechTarget中国

历史上的今天:

  1. 2017:  雅虎缘何堕落成“蹩脚猫”?(0)
  2. 2017:  雅虎大陆独家代理商天擎天拓 助力杭州企业跨境营销(0)
  3. 2017:  在 Verizon 带领下,雅虎竟然将这款最棒的应用下架了(0)
  4. 2016:  CaffeOnSpark 解决了三大问题 ——对话雅虎机器学习平台负责人(0)
  5. 2016:  一图看懂雅虎是怎么一步步走向衰落的(0)