注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

zjcjack的博客

 
 
 

日志

 
 

前Facebook“大数据”主管的6条心得  

2012-07-28 22:18:22|  分类: 数据挖掘 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

阿施什·图苏尔(Ashish Thusoo)非常了解“大数据”(Big Data)。他在2007年加入Facebook,当时该公司只有5,000万用户。他离开公司的时候,该数字已经达到约8亿。在此期间,他管理Facebook的内部数据分析团队。

Facebook的分析团队管理这些数据及其分析,从而用于广告定位、客户增长以及提高用户参与度。现在图苏尔拥有一家新公司Qubole,该公司现在正打造云计算的“大数据”平台。

图苏尔的各项心得其实有一个统一的主题,那就是数据的民主化。对此,他的意思是向组织内所有用户开放数据分析,无论是数据科学家、产品工程师还是商业分析师。

以下是图苏尔在缩小Facebook的数据分析引擎时所总结的经验:

1. 新技术已经将对话从“储存什么数据”向“掌握更多数据后我们可以怎么做”转变。Hadoop和Hive等开源技术具有相对较低的成本,从而帮助收集更多重要的测量指标。在Facebook和其他互联网网站方面,这意味着收集更多有关用户活动和行为的数据。

成本降低也让更多历史数据被存储在网络上。图苏尔表示:“结果是,我们将获得由数据驱动的、更好的应用程序。至少在数据世界,相比对数量较少的数据采用复杂的算法,对数量较多的数据采用简单的算法似乎产生更好的结果,当然其中也有部分例外。”

2. 为终端用户简化数据分析。换言之,图苏尔在Facebook认识到,为科学家、分析师和工程师等数据用户民主化数据可以产生很强的威力。

他的目标是,让所有与数据相关的功能简化,从执行应用程序和收集数据,到理解和分析这些数据,到创造由数据驱动的应用程序。

“打造熟悉的界面”和数据处理工具是提高Facebook内部使用Hadoop和Hive等基础技术的关键。

3. 用户数量增加意味着数据分析系统需要更加强劲。在Facebook的数据科学家、分析师和数据工程师中民主化数据,这个想法提高了该要求的难度。

为了实现这个想法,图苏尔的团队不得不设计特定功能来处理写得比较糟糕的查询语句,从而防止这些查询语句使系统崩溃。他们必须建立包括使用监测和限制在内的多种机制以使资源公平共享。

“我们拥有多种不同的用户,从商业分析师到产品工程师,他们对基础设施和如何最好地利用数据有很多不同层次的理解。”

4. 为“大数据”服务的社交网络。“我们进行了投资,以使我们的工具越来越具有协作性,从而让用户可以相互间共享分析,并通过与某套数据的专家用户连接,从而发现数据。”

随着Facebook实现超高速增长以及数据一直发生变化,协作的方法比围绕元数据创造知识库更有用。

5. 没有任何单一的基础设施可以解决所有的“大数据”问题。在实时报告方面,由于我们发现通过系统间协作可以比Hadoop更好地解决用例,因而图苏尔的团队进行了大量投资。在实时报告方面,我们的团队投资打造了数据分析软件Puma。有很多关于图解分析以及对大型数据集的低延迟数据检查的例子,在这些例子里他们都必须打造或者投资新技术。

6. 开发软件是困难的,但是运行一套服务却是更加困难。图苏尔的团队必须进行大量工作以确保服务可以使用。他们投资大量时间和能源打造“那些可以测量使用情况、指出瓶颈和为我们的用户量化他们使用情况的系统”。他们不得不打造特定的功能,从而监测和交付达到一致认可水平的服务。

  评论这张
 
阅读(109)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017