写点什么

ArchSummit 主题演讲:Ashish Thusoo 介绍大数据发展趋势和 Facebook 的大数据处理平台

  • 2012-07-23
  • 本文字数:1966 字

    阅读完需:约 6 分钟

Ashishi Thusoo 是 Qubole 联合创始人兼 CEO。Qubole 是一个建设云平台进行数据分析和处理的创业企业。在创办 Qubole 之前,ASHISH 负责 Facebook 数据基础设施团队。在他的领导下,团队创造了世界上最大的数据分析与处理平台。该平台实现了公司内部分析师,工程师以及数据科学家得以访问数据的目标。在这一过程中,他帮助推动创造“大数据”部署工具,技术和模板的实现 – 这已经成为主流“大数据”革命的构件。在 Ashish 的协助下,2007 年,他加入 Facebook 时用户只有 5 千万人,当他离开 Facebook 时,用户已经成长到 8 亿人。他也是 Apache Hive 项目的联合创始人,并作为该项目的 Apache 软件基金会的创始副总裁。在 ArchSummit 深圳 2012 大会上,我们也很荣幸邀请到 Ashishi 现场分享,现在报名参加大会可享超低折扣,3 人以上团购享更多优惠。

在这些年从事大数据处理工作的经验中,他总结过以下六点:

  1. 从“该抓哪些数据”转变成“有这么多数据可以做什么”:除了少数状况外,简单的算法搭配大量数据,计算出来的结果远比复杂的算法搭配少量数据更好;这相当类似统计的概念,意即在样本数够大的情况下可以忽略误差。
  2. 尽可能简化分析工具,让普通用户也能使用自如
  3. 大量用户可以让你的分析工具更加完善:第 2 和 3 点相辅相成。当你把分析工具设计得足够简单,一般用户自然乐意使用,而且这些人的加入,会使某些极端的问题一一浮现;例如一个写很烂的查询就会瘫痪整个系统,因此你必须花更多心思另外处理、配置资源,以及管理安全性和权限。
  4. 协作模式同样使用大数据处理:刻意把分析工具设计地带有合作的成分,如此一来当用户分享他们的分析,就会从讨论中得到更多的成果。
  5. 没有一种架构适用所有情况:我们经常在开发的过程中遇到从未见过的问题,与其硬是将它纳入现有的架构,直接设计一个新解决方案会是更好的选择。
  6. 维护服务比开发软件更难:我们花了很多的时间跟心力才让服务正常运作,一方面必须提高系统负载量,同时还要保留弹性,最重要的是要经常监控系统状态是否异常。

在今年的 ArchSummit 深圳 2012 大会上,他将把这六点经验放在融汇于两个演讲之中,包括第一天上午第一个主题演讲,题目是:大数据的技术趋势和演变,在这个演讲中,他将分享:

大数据相关的问题正在变得越来越广泛。很多公司都在面对并试图解决海量数据相关的问题。它几乎充斥了我们的耳朵:传感器和移动设备的不断涌现,产生着越来越多的数据。从根本上说,大数据已经站住脚了,而且正在得到越来越广泛的使用。观察它的演化过程,从 2007 年开始到现在,应该说它颠覆了很多东西,越来越多的人开始尝试。它可以在以下 5 个领域产生巨大影响:创造透明度、通过实验来发现需求和增强绩效、细分人群并采取灵活行动、用自动算法代替或者帮助人工决策、创新商业模式产品和服务。

那么,目前这一代大数据架构的主要驱动力有哪些?这些架构的演化遵循了什么样的路径?未来面临哪些最大的挑战?这些架构将会向什么方向演化?这些都是 Ashish 将会在本演讲中回答的问题。他会分析业界的使用案例,谈谈哪些系统表现出色,哪些系统还不够好。他还会谈及在云上运行这些系统面临的挑战,并就如何克服这些问题提供一些建议。

另外一个演讲,是在第二天下午的“海量数据之快准狠”专题之中,演讲题目是: Facebook 的海量数据架构演变过程,他将会讲到:

作为世界上最大的社交网络,Facebook 公司一天积聚的数据比很多大公司一年产生的数据还要多。 据 2010 年 3 月的博客显示,Facebook 公司的 Hadoop 集群成为世界上最大的计算机集群。这个集群由 2000 台计算机,800 台 16 核系统和 1200 台 8 核系统组成。集群中每个系统存储了大概 12 万亿到 24 万亿字节的数据。

一年前,Facebook 的集群存储了 30 千万亿字节的数据,大概是美国国会图书馆存储信息数量的 3000 倍。Facebook 数据中心在过去一年里增长了三分之一还多。 今年 4 月份,Facebook 耗资 4.5 亿美金建设的新数据中心也已经投入使用。

从 2007 年到 2011 年,Facebook 的大数据处理架构是如何演变的?在一个变动异常频繁,并且快速增长的环境里,都要面临哪些挑战?Facebook 使用了一些组件和技术,让公司大部分部门都可以根据不同的目的访问、分析、使用数据,背后的驱动力是什么?Ashish Thusoo 在本演讲中将会回答这些问题,同时会介绍从 Facebook 的经验中的一些重要收获。

如果您想了解大数据相关技术的发展趋势和具体实践,Ashish Thusoo 的演讲不可错过。

现在个人报名购票可享受 9 折优惠,节省 360 元。团购单位享有更多优惠,ArchSummit 深圳 2012 大会提供针对团队(3 人以上)购票优惠策略。详情请将公司参会信息发邮件至:arch@cn.infoq.com(邮件标题注明“团队购票”),或致电 010-89880682、010-64738142。有关 ArchSummit 全球架构师峰会 2012 的更多信息请访问官方网站: www.ArchSummit.com

2012-07-23 22:042800
用户头像

发布了 479 篇内容, 共 182.6 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

待办事项是什么意思,为什么要用?

优秀

待办事项

测试自动化中遵循的最佳实践

禅道项目管理

自动化测试

工业物联网DCS和SCADA的区别

2D3D前端可视化开发

物联网 DCS web组态软件 SCADA 工业组态

互联网大厂必问之MySQL、Redis、Spring三大块,面试必备技术栈

钟奕礼

Java java面试 java编程 程序员‘

华为云会议网络研讨会,按次订购更方便!

清欢科技

ShareSDK for Flutter

MobTech袤博科技

这份1658页的Java面试核心突击讲,成功让我上岸阿里

小二,上酒上酒

Java 程序员 面试 阿里 大厂面试

个推TechDay治数训练营直播预告 | 从方法论到落地应用,详解企业标签体系建设要点

个推

标签 用户画像 标签体系

音频“黑科技”上新,华为云会议让“云端”声音更真切!

爱尚科技

适用更多会议场景,华为云会议的分组讨论功能来了!

IT科技苏辞

小伙伴面经分享京东+面试八股文整套面试真题(含答案)

钟奕礼

Java 程序员 java面试 java编程

微服务调用的正确打开方式

Java全栈架构师

Java 程序员 面试 微服务 后端

Go语言—big包的使用

良猿

Go golang 后端 11月月更 goweb

阿里大牛纯手写的微服务入门笔记,从基础到进阶直接封神

小二,上酒上酒

Java 编程 程序员 架构 微服务

阿里云张建锋:核心云产品全面 Serverless 化

Serverless Devs

KnowStreaming贡献流程

石臻臻的杂货铺

kafka 后端 11月月更

个推发布《Android13适配指南》,解读Android13新特性

个推

android 安卓 安卓开发

又一创新!阿里云 Serverless 调度论文被云计算顶会 ACM SoCC 收录

阿里巴巴云原生

阿里云 Serverless 云原生

2022最新整理上千道Java面试攻略,近500页PDF文档

钟奕礼

Java Java 面试 java程序员 java编程

信息论与编码:信道的定义和分类

timerring

11月月更 信息论 信道

使用RPA机器人快速实现表格数据汇总

YonBuilder低代码开发平台

开发者

星策转型大咖说第二弹!前喜茶数字化副总裁、前百果科技首席技术市场官沈欣老师数字化转型经验分享!

星策开源社区

开源 方法论 转型 智能化转型

Spring Boot 3.0 正式发布,这份升级指南必须码住

程序知音

Java spring 微服务 springboot 后端技术

Spring Boot 3.0 正式发布,这份升级指南必须码住

程序知音

Java spring 微服务 springboot 后端技术

【计算讲谈社】第十三讲|未来40年,“碳中和”可能带来哪些深远影响?

大咖说

碳中和

Java岗史上最全八股文面试真题汇总,堪称2022年面试天花板

小二,上酒上酒

Java 程序员 面试 八股文

数据技术前沿趋势、TiDB 产品方向、真实场景 Demo… 丨PingCAP DevCon 2022 产品技术论坛预览

PingCAP

TiDB

个推TechDay直播回顾 | 详解数据指标体系设计与开发全流程(附视频及课件下载)

个推

数据运营 指标预测 数据指标体系

自学 UI 设计有哪些书籍推荐

千锋IT教育

华为云开发者官网首页焕新升级,赋能开发者云上成长

华为云开发者联盟

华为云

阿里P8大佬总结的Nacos入门笔记,从安装到进阶小白也能轻松学会

小二,上酒上酒

Java 编程 程序员 nacos

ArchSummit主题演讲:Ashish Thusoo介绍大数据发展趋势和Facebook的大数据处理平台_Meta_郑柯_InfoQ精选文章