“雅虎公司现在可以为客户提供更相关的广告数据,从而提高了广告投放费用和广告活动的有效性。我们通过把处理大数据集的Hadoop和Hive技术与由Microsoft BI平台提供的强大的分析洞察力实现了这一目标。”

—— Yahoo! TAO 开发组长 Dianne Cantwell

雅虎通过大数据提高竞标效率 提高广告收入-品味雅虎

总部位于加州的雅虎公司经营着世界上最受欢迎的网站之一,每个月在全球有超过700万的独立访问者。该公司拥有并运营为广大客户提供的在线广告服务,这些服务通过雅虎一系列的网站进行提供。他们从这些访问交换当中来更好地定位和提高客户广告投放的效率和收益。致力于更快地为客户提供更多更有意义和更有用的数据分析,雅虎专门实施了一个数据处理解决方案,将其庞大的存储在Apache Hadoop开源框架中的数据,整合到微软SQL Server 2008 R2当中。通过这一解决方案,雅虎成功地帮助客户提高了广告投放的效率,同时雅虎的广告商们增加了在雅虎网站的广告投放费用,公司还提供了更多更相关的广告数据,解决方案所采用的分区的设计,意味着可以支撑更快地加载大规模的数据集。

业务状况

雅虎公司总部位于加利福尼亚州的桑尼维尔市,是一家互联网公司,经营一些非常受欢迎的网站。这些网站包括搜索引擎、门户网站、新闻推送等,拥有每月超过700万独立访问者,达到全球在线总数47%以上。

受到大量的在线观众的吸引,广告客户纷纷涌向这些网站。为了帮助广告客户更好地分析消费者相关的数据并成功地吸引客户,雅虎构建了定位、分析和优化(Targeting、Analytics、Optimization,TAO)解决方案,构建了一个功能强大的,可扩展的广告分析工具。TAO基于雅虎网站,如汽车、财经、健康、邮件、新闻、搜索、体育和旅游活动等频道,通过Right Media Exchange(Right Media Exchange,RMX)为成千上万在雅虎网站上投放广告的客户提供报表。

TAO平台的一个组成部分是开源软件框架Apache Hadoop,构成了可靠的、可扩展的、分布式的计算环境。Hadoop平台由雅虎创建,被用以分析大量的非结构化的数据,采用商业的服务器计算机并将数据实时分发至应用程序。

在过去的几年中,Hadoop成为公司广告分析中大数据管理的主要工具。每天,Hadoop处理着超过3.5亿次的广告显示,以每小时进行刷新。TAO的源集群每个季度处理着4640亿行的数据。

尽管Hadoop正在帮助雅虎成功地处理着大规模的数据集,该公司依然需要从大数据当中提取更多更有意义的分析信息,以开展更多的热点和深入的分析。有了这项功能,公司能够快速地对客户的需求做出响应。

具体而言,雅虎的广告客户希望能够为消费者提供更具相关性的广告推送,这类的广告将会被视为有价值的建议。例如,针对性更强的广告能够为访问雅虎网站的消费者留下更为深刻的印象,促使他们采取更进一步的行动,如查看广告或点击了解更多详情等。

要提供这些信息,雅虎需要能够从消费者的行为当中获得更多的信息,例如访问的网站、一天之内的访问次数、性别、年龄、位置和兴趣等,并根据这些信息来为不同的消费者提供不同的有针对性的信息。通过提供深入到这一层次的分析,雅虎能够帮助广告客户快速找到他们的目标客户,以实现最佳的投资回报。

此外,雅虎希望能够提高其TAO数据库的性能,来更快地为客户提供更多的数据。更低的延迟将能够更加频繁地帮助用户优化他们的广告效率,这对于只持续数天的热点广告投放而言至关重要。

2010年上半年,雅虎决定寻求新的、性能更高的、能够与Hadoop协同工作的商业智能解决方案。

解决方案

多年以来,雅虎都是微软公司的重要客户之一,在为其解决方案选择新的技术时,基于其与微软公司多年的合作关系,雅虎与微软紧密合作,利用微软SQL Server 2008 R2企业版数据管理软件,创建了一个新的BI解决方案。

通过使用SQL Server 2008 R2,雅虎增强了其TAO基础架构,现在能够从一个Hadoop集群当中抽取数据并加载到一个第三方的数据库当中,并最终把数据加载到一个SQL Server 2008 R2分析服务的多维数据集当中。多维数据集支持来自客户端,如Tableau Desktop业务分析软件、内部自定义的应用程序等工具的连接。员工可以使用这一软件来创建交互式的数据仪表板并实现热点分析。

新的基础架构部署在IBM x3560服务器计算机上,同样采用了新的分区方法,针对提高超大型数据集的查询功能做出了优化。在这个模型中,源数据被加载到关系型数据库当中,在该数据库中,数据被存储在一个分区表当中,每个分区相当于大约等同于每小时可以处理的数据量,然后每天在多维数据集端合并及分配到四个分区。

通过采取这种方式存储和读取数据,赋予SQL Server 2008 R2分析服务以更快的速度读取和处理数据,如果数据没有被存储在分区表当中的话,性能将远远低于采用分区表的方式。因此,对于非常大的数据集,查询的性能得到了极大的提高。

TAO基础架构现在包含了一个2PB级的Hadoop集群,每天发送1.2TB的原始数据到11G真实应用程序集群中的第三方数据库。从这里开始,每天经过压缩之后的135GB的数据会被发送到一个SQL Server 2008 R2分析服务数据集当中,多维数据集每个季度会产生24TB的数据,使其成为世界上已知最大的SQL Server分析服务多维数据集。

微软已经开发出了针对Apache Hadoop的SQL Server连接器,其设计目的是实现在Hadoop和SQL Server 2008 R2之间的高效数据传输。

通过使用该解决方案,企业客户将能够把大量的Hadoop数据移动到SQL Server 2008 R2平台上,从而实现从结构化的和非结构化的数据当中获得更为深刻的业务洞察力。

SQL Server Connector for Hadoop能够为雅虎提供潜在的、更快的数据加载能力。雅虎公司计划采用熟悉的分析工具,如微软SQL Server 2008 R2分析服务,来对Hadoop大数据处理作业所产生的结果进行分析。

雅虎也在与微软合作以确定把从Hadoop中获得的数据迁移到SQL Server 2008 R2分析服务多维数据集中的最佳方式。通过把Hadoop与微软商业智能环境进一步融合,微软一直致力于开发针对Hadoop Hive的连接器原型,Hive是一个构建在Hadoop之上的数据仓库基础架构。研究的一个领域是使用Hadoop Hive Open Database Connectivity(ODBC)驱动程序,它是一个针对Hive提供的采用ODBC API标准的软件库。通过使用这一驱动程序(现阶段还处于原型状态),雅虎将能够直接把数据从Hadoop当中抽取到SQL Server 2008 R2分析服务多维数据集当中。

微软也在使用相同的Hive ODBC驱动程序来与PowerPivot for Excel中的xVelocity内存驻留分析引擎(VertiPaq)进行整合。该连接器还将结合xVelocity提供的内存优化的列存储索引功能,在SQL Server 2012当中加速对数据仓库查询的处理。

企业收益

新的TAO解决方案已经帮助雅虎提高了广告投放的效率,并提升了其广告客户在广告上的投入。此外,雅虎还可以为其客户提供关联度更高的广告数据,并且以比过去快得多的速度来加载和检索分析数据。

提高广告客户的广告投入和广告活动的效率

通过引入SQL Server 2008 R2并将其作为一个核心组件,雅虎已经从新的TAO基础架构当中在广告客户广告投入和广告投放效率两个领域看到了很大的好处。由于广告客户已经从他们在雅虎平台上的广告投放当中提高了投资的收益,他们很乐于增加自己的广告投放。

在供应方面,TAO可以帮助雅虎通过在一系列的维度上进行数据切片,实现对诸如每千次有效的广告投放的成本(eCPM)等信息的跟踪,来提高量化的分析。在一般情况下,eCPM越高,意味着雅虎和它的广告客户越能够从他们的广告投放当中获得越大的收益。

雅虎广告业务主管将这些收益归结为SQL Server 2008 R2分析服务多维数据集的使用,这为雅虎的广告客户提供了一个更为精准地细分目标网络用户市场的方法。

提供关联度更高的广告数据

通过从新的微软解决方案当中获得的增强的广告分析功能,雅虎可以提供关联度更高的广告数据,这些数据可以转化成为广告客户的收益和更好的性能,并最终为雅虎带来更高的收入。

由于引入新的增强的TAO基础架构,雅虎现在可以为广告投放经理和广告客户提供关联度更高的数据。在实施新的解决方案之前,雅虎的广告投放经理和广告客户在衡量广告活动的收益方面效果较差。现在,通过引入SQL Server 2008 R2分析服务多维数据集、自定义的Web应用程序,以及和Tableau之间的相互作用,提供了一个更为清晰地了解某个广告投放的效果如何,以及雅虎的网站在如何为公司创造收入。

总体而言,新的解决方案可以帮助雅虎更好地分析广告数据,为其带来更多的企业广告客户,帮助广告客户增加广告投入,并帮助雅虎最终从中收益。

更快地加载数据、处理更快速的查询

新的TAO基础架构所采用的分区设计对于加快把数据加载到多维数据集当中至关重要。分区是新的微软解决方案成功的基础,因为它有助于加快从源当中的临时数据到分析多维数据集处理的吞吐量。

分区的策略也有助于更快的查询时间。对于雅虎TAO用户而言,从Tableau Desktop客户端提交的查询结果返回的平均时间为6秒,而从公司定制的优化的应用程序提交的查询结果返回的平均时间为2秒。

雅虎计划继续扩展这一解决方案,将来将会添加更多的数据和更多新的功能到解决方案当中。

Via Microsoft 网站 比特网译

配图来自:Yahoo! TAO Case Study Excerpt

历史上的今天:

  1. 2016:  Verizon 关闭五个州客服中心 裁员人数达3200人(0)
  2. 2016:  用户隐私没保障!雅虎疑配合美国情报机构 监视数亿用户(0)
  3. 2016:  雅虎黑客事件严重 Verizon 表示可能放弃收购(2)
  4. 2014:  施密特:雅虎和必应不算什么,亚马逊才是谷歌最大竞争对手(0)
  5. 2014:  Flickr 推出了将照片变成挂墙画的服务(0)