注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

zjcjack的博客

 
 
 

日志

 
 

ArchSummit主题演讲:Ashish Thusoo介绍大数据发展趋势和Facebook的大数据处理平台  

2012-07-28 22:21:54|  分类: 数据挖掘 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
AshishiThusoo是Qubole联合创始人兼CEO。Qubole是一个建设云平台进行数据分析和处理的创业企业。在创办Qubole之前,ASHISH负责Facebook数据基础设施团队。在他...

  Ashishi Thusoo是Qubole 联合创始人兼CEO。Qubole是一个建设云平台进行数据分析和处理的创业企业。在创办Qubole之前,ASHISH负责Facebook数据基础设施团队。在他的领导下,团队创造了世界上最大的数据分析与处理平台。该平台实现了公司内部分析师,工程师以及数据科学家得以访问数据的目标。在这一过程中,他帮助推动创造“大数据”部署工具,技术和模板的实现 – 这已经成为主流“大数据”革命的构件。在Ashish的协助下,2007年,他加入Facebook时用户只有5千万人,当他离开Facebook时,用户已经成长到8亿人。他也是Apache Hive项目的联合创始人,并作为该项目的Apache软件基金会的创始副总裁。在ArchSummit深圳2012大会上,我们也很荣幸邀请到Ashishi现场分享,现在报名参加大会可享超低折扣,3人以上团购享更多优惠。

  在这些年从事大数据处理工作的经验中,他总结过以下六点:

  从“该抓哪些数据”转变成“有这么多数据可以做什么”:除了少数状况外,简单的算法搭配大量数据,计算出来的结果远比复杂的算法搭配少量数据更好;这相当类似统计的概念,意即在样本数够大的情况下可以忽略误差。
  尽可能简化分析工具,让普通用户也能使用自如
  大量用户可以让你的分析工具更加完善:第 2 和 3 点相辅相成。当你把分析工具设计得足够简单,一般用户自然乐意使用,而且这些人的加入,会使某些极端的问题一一浮现;例如一个写很烂的查询就会瘫痪整个系统,因此你必须花更多心思另外处理、配置资源,以及管理安全性和权限。
  协作模式同样使用大数据处理:刻意把分析工具设计地带有合作的成分,如此一来当用户分享他们的分析,就会从讨论中得到更多的成果。
  没有一种架构适用所有情况:我们经常在开发的过程中遇到从未见过的问题,与其硬是将它纳入现有的架构,直接设计一个新解决方案会是更好的选择。
  维护服务比开发软件更难:我们花了很多的时间跟心力才让服务正常运作,一方面必须提高系统负载量,同时还要保留弹性,最重要的是要经常监控系统状态是否异常。
  在今年的ArchSummit深圳2012大会上,他将把这六点经验放在融汇于两个演讲之中,包括第一天上午第一个主题演讲,题目是:大数据的技术趋势和演变,在这个演讲中,他将分享:

  大数据相关的问题正在变得越来越广泛。很多公司都在面对并试图解决海量数据相关的问题。它几乎充斥了我们的耳朵:传感器和移动设备的不断涌现,产生着越来越多的数据。从根本上说,大数据已经站住脚了,而且正在得到越来越广泛的使用。观察它的演化过程,从2007年开始到现在,应该说它颠覆了很多东西,越来越多的人开始尝试。它可以在以下5个领域产生巨大影响:创造透明度、通过实验来发现需求和增强绩效、细分人群并采取灵活行动、用自动算法代替或者帮助人工决策、创新商业模式产品和服务。

  那么,目前这一代大数据架构的主要驱动力有哪些?这些架构的演化遵循了什么样的路径?未来面临哪些最大的挑战?这些架构将会向什么方向演化?这些都是Ashish将会在本演讲中回答的问题。他会分析业界的使用案例,谈谈哪些系统表现出色,哪些系统还不够好。他还会谈及在云上运行这些系统面临的挑战,并就如何克服这些问题提供一些建议。

  另外一个演讲,是在第二天下午的“海量数据之快准狠”专题之中,演讲题目是:Facebook的海量数据架构演变过程,他将会讲到:

  作为世界上最大的社交网络,Facebook公司一天积聚的数据比很多大公司一年产生的数据还要多。 据2010年3月的博客显示,Facebook公司的Hadoop集群成为世界上最大的计算机集群。这个集群由2000台计算机,800台16核系统和1200台8核系统组成。集群中每个系统存储了大概12万亿到24万亿字节的数据。

  一年前,Facebook的集群存储了30千万亿字节的数据,大概是美国国会图书馆存储信息数量的3000倍。Facebook数据中心在过去一年里增长了三分之一还多。 今年4月份,Facebook耗资4.5亿美金建设的新数据中心也已经投入使用。

  从2007年到2011年,Facebook的大数据处理架构是如何演变的?在一个变动异常频繁,并且快速增长的环境里,都要面临哪些挑战?Facebook使用了一些组件和技术,让公司大部分部门都可以根据不同的目的访问、分析、使用数据,背后的驱动力是什么?Ashish Thusoo在本演讲中将会回答这些问题,同时会介绍从Facebook的经验中的一些重要收获。

  如果您想了解大数据相关技术的发展趋势和具体实践,Ashish Thusoo的演讲不可错过。

  评论这张
 
阅读(238)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017