东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

500TB——Facebook 每天收集的数据量

  • 2012-08-27
  • 本文字数:1293 字

    阅读完需:约 4 分钟

InfoQ 在 2010 年的时候曾经发布过一篇新闻《 Facebook 谈 Hadoop、Hive、HBase 和 A/B 测试》,时任 Facebook 的工程副总 Mike Schroepfer 曾谈到当时 Facebook 的数据量产生情况:

  • Facebook 有 4 亿用户,超过一半的用户每天登录
  • 用户花在 Facebook 上的时间,比接近它的 6 个站点所花的时间的总和还多
  • Facebook 用户每个月分享 250 亿的内容信息
  • 5000 亿单月页面浏览量

要处理这样的数据,Facebook 使用了大型的 Hadoop 集群:

  • 存储 36PB 未压缩的数据
  • 有超过 2250 台机器和 23000 个核心
  • 每个机器 32GB 内存
  • 每天处理 80-90TB 数据
  • 该集群每个月有 300-400 的用户,他们每天提交 25000 个任务

在不久前 InfoQ 主办的全球架构师峰会 ArchSummit 上,前 Facebook 数据基础设施团队主管 Ashish Thusoo 做了题为“ Facebook 的海量数据架构演变过程”的演讲,深受大家关注。那么现在 Facebook 的数据量有多大呢?Gigaom 的一篇文章回答了这个问题。

文章开头指出:Facebook 现在的用户数达到 9.5 亿,这些用户的每个动作,包括点击一个通知、访问一个页面、查看一个朋友的链接等等,都会为 Facebook 产生要跟踪的数据。而这 9.5 亿用户平均每个月在 Facebook 上用去的时间超过 6.5 个小时,整个的数据量就可以想见了。

在周三,Facebook 提供了一些他们现在的统计数据:

  • 人们每天分享 25 亿个内容条目,包括状态更新、墙上的帖子、图片、视频和评论
  • 每天有 27 亿个“Like”操作
  • 人们每天上传 3 亿张照片
  • Facebook 最大的 Hadoop(HDFS)集群中,硬盘空间超过 100PB
  • Facebook 使用 Hadoop 查询语言 Hive,每 30 分钟扫描 105TB 数据
  • 数据库中的数据每天增加超过 500TB

Facebook 的基础设施副总 Jay Parkish 指出:

如果你没有利用大数据带来的好处,那么你就没有大数据,你只是有一堆数据而已。我们对一切数据都感兴趣。

Pariksh 还提到:Facebook 一直努力寻找分析和利用数据的更好方法,包括做大量的 A/B 测试,找出网站所有可能的功能变化,并确保网站实时响应用户的输入。

在前面提到的那篇 InfoQ 的新闻中,对 Facebook 的 A/B 测试方法也有所提及:

当 Facebook 计划推出他们的“Like”按钮时,他们担心会不会发生“自相蚕食”的结果——会不会因此反而减少了文字评论,而不是提升了参与度?为了验证这一点,他们运行了 A/B 测试来比较用户行为:给一组用户使用新功能 (Like 按钮),而另一个对照组则没有。他们使用了两组南美国家来进行比较:[哥伦比亚、委内瑞拉] vs [阿根廷、智利]。测试的结果是:使用 Like 按钮的时候评论增加了 4.46%,而对照组的数据则是 0.63%。这一类测试所产生的巨大的数据集正是 Facebook 使用 Hadoop 来处理数据的例子。

Schroepfer 接着给出了另一个例子来说明为什么数据驱动的 A/B 测试这么重要:Facebook 还用同样的方法测试过电子邮件提醒的两种不同的设计。 尽管大多数的人都期望更为图形化更丰富的电子邮件会产出更好的响应率,但与简单的基于文本的电子邮件对比测试时,后者却有着三倍于前者的响应率——这表明了使用数据测试观点而不是依赖直觉所带来的巨大威力。

InfoQ 的读者,如果您所在的公司也使用 A/B 测试来指导产品发布,而不是依赖直觉,欢迎您在评论中分享。

2012-08-27 19:185214
用户头像

发布了 479 篇内容, 共 152.2 次阅读, 收获喜欢 47 次。

关注

评论

发布
暂无评论
发现更多内容

办公无界,看华为云桌面如何助企业上“云”

科技怪授

华为云 桌面云 云桌面

启科量子 QuBranch 正式开源

启科量子开发者官方号

量子计算 编程工具 启科量子

启科量子可视化量子编程——QuComposer

启科量子开发者官方号

量子计算 可视化开发 启科量子

Java的一维数组和二维数组

陌上

数据结构 Java、 10月月更

Java | static和不可变关键字final

陌上

编程 Java、 10月月更

汽车云服务应用场景系列报告——自动驾驶仿真测试云服务行业图谱

易观分析

云服务 汽车

覆水也可收, 破镜可重圆! EasyRecovery帮你轻松找回丢失数据

淋雨

数据恢复 EasyRecovery

校园大赛 | 数云融合 叩响未来——神州数码集团2022年校园大赛火热开启!

科技热闻

助力企业高效率办公,华为云桌面必不可少

科技怪授

华为云 桌面云 云桌面

「云渲染」渲染农场的架构原理、特点

Finovy Cloud

架构 原理 云渲染 云渲染农场

华为云ECS,如何赋能企业开展云上业务?

路过的憨憨

华为

一文带你更了解Java中的方法

陌上

Java、 编程、 10月月更

鸿蒙开发实例|对象关系映射数据库

TiAmo

华为 华为云 10月月更

华为云桌面,随时随地助力企业轻松办公

科技怪授

华为云 桌面云 云桌面

闻道Go语言,6月龄必知必会

有态度的马甲

跨库分页

zarmnosaj

10月月更

个人和初创企业想要搭建网站,如何挑选一台便宜合适的云主机?

京东科技开发者

云主机 网站搭建 测评 性能评测

LF AI & Data AICon 2022—AI工程化回顾

星策开源社区

机器学习 微软 AI工程化 人工智能’ AICon

CDC ChangeLog Stream实时流入CLICKHOUSE最佳姿势

水滴

实时数仓 Clickhouse CDC Flink CDC Debezium

现代化SDLC与架构评审

I

安全架构设计 SSDLC

Go | 基本数据类型的相互转换

甜点cc

golang 学习笔记 10月月更

纵享丝滑,华为云CDN加速服务的极致体验

路过的憨憨

华为

企业如何从0到1搭建BI系统

葡萄城技术团队

BI 仪表盘识别 可视化数据

华为云桌面,助力企业扬帆起航

科技怪授

华为云 桌面云 华为云桌面

招聘软件哪个最好用?

优秀

招聘系统

华为云加固企业网站安全堤坝,助您业务稳定流畅

科技之光

代码规范以及commit扫描代码

甜点cc

前端 代码规范 React Native 10月月更

独家!【隐秘而伟大】这群神秘的程序员,干了票大的

博文视点Broadview

从 Traefik 到 APISIX,汽车智能计算平台公司「地平线」在 Ingress Controller 的探索和实践

API7.ai 技术团队

开源 AI 网关 APISIX Ingress Controller

换行符不一致问题终极处理方案——gitattributes

甜点cc

JavaScript 前端 代码规范 10月月更

华为云网站安全解决方案,站在企业安全的最前沿

科技之光

500TB——Facebook每天收集的数据量_软件工程_郑柯_InfoQ精选文章