2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

500TB——Facebook 每天收集的数据量

  • 2012-08-27
  • 本文字数:1293 字

    阅读完需:约 4 分钟

InfoQ 在 2010 年的时候曾经发布过一篇新闻《 Facebook 谈 Hadoop、Hive、HBase 和 A/B 测试》,时任 Facebook 的工程副总 Mike Schroepfer 曾谈到当时 Facebook 的数据量产生情况:

  • Facebook 有 4 亿用户,超过一半的用户每天登录
  • 用户花在 Facebook 上的时间,比接近它的 6 个站点所花的时间的总和还多
  • Facebook 用户每个月分享 250 亿的内容信息
  • 5000 亿单月页面浏览量

要处理这样的数据,Facebook 使用了大型的 Hadoop 集群:

  • 存储 36PB 未压缩的数据
  • 有超过 2250 台机器和 23000 个核心
  • 每个机器 32GB 内存
  • 每天处理 80-90TB 数据
  • 该集群每个月有 300-400 的用户,他们每天提交 25000 个任务

在不久前 InfoQ 主办的全球架构师峰会 ArchSummit 上,前 Facebook 数据基础设施团队主管 Ashish Thusoo 做了题为“ Facebook 的海量数据架构演变过程”的演讲,深受大家关注。那么现在 Facebook 的数据量有多大呢?Gigaom 的一篇文章回答了这个问题。

文章开头指出:Facebook 现在的用户数达到 9.5 亿,这些用户的每个动作,包括点击一个通知、访问一个页面、查看一个朋友的链接等等,都会为 Facebook 产生要跟踪的数据。而这 9.5 亿用户平均每个月在 Facebook 上用去的时间超过 6.5 个小时,整个的数据量就可以想见了。

在周三,Facebook 提供了一些他们现在的统计数据:

  • 人们每天分享 25 亿个内容条目,包括状态更新、墙上的帖子、图片、视频和评论
  • 每天有 27 亿个“Like”操作
  • 人们每天上传 3 亿张照片
  • Facebook 最大的 Hadoop(HDFS)集群中,硬盘空间超过 100PB
  • Facebook 使用 Hadoop 查询语言 Hive,每 30 分钟扫描 105TB 数据
  • 数据库中的数据每天增加超过 500TB

Facebook 的基础设施副总 Jay Parkish 指出:

如果你没有利用大数据带来的好处,那么你就没有大数据,你只是有一堆数据而已。我们对一切数据都感兴趣。

Pariksh 还提到:Facebook 一直努力寻找分析和利用数据的更好方法,包括做大量的 A/B 测试,找出网站所有可能的功能变化,并确保网站实时响应用户的输入。

在前面提到的那篇 InfoQ 的新闻中,对 Facebook 的 A/B 测试方法也有所提及:

当 Facebook 计划推出他们的“Like”按钮时,他们担心会不会发生“自相蚕食”的结果——会不会因此反而减少了文字评论,而不是提升了参与度?为了验证这一点,他们运行了 A/B 测试来比较用户行为:给一组用户使用新功能 (Like 按钮),而另一个对照组则没有。他们使用了两组南美国家来进行比较:[哥伦比亚、委内瑞拉] vs [阿根廷、智利]。测试的结果是:使用 Like 按钮的时候评论增加了 4.46%,而对照组的数据则是 0.63%。这一类测试所产生的巨大的数据集正是 Facebook 使用 Hadoop 来处理数据的例子。

Schroepfer 接着给出了另一个例子来说明为什么数据驱动的 A/B 测试这么重要:Facebook 还用同样的方法测试过电子邮件提醒的两种不同的设计。 尽管大多数的人都期望更为图形化更丰富的电子邮件会产出更好的响应率,但与简单的基于文本的电子邮件对比测试时,后者却有着三倍于前者的响应率——这表明了使用数据测试观点而不是依赖直觉所带来的巨大威力。

InfoQ 的读者,如果您所在的公司也使用 A/B 测试来指导产品发布,而不是依赖直觉,欢迎您在评论中分享。

2012-08-27 19:185817
用户头像

发布了 479 篇内容, 共 170.2 次阅读, 收获喜欢 52 次。

关注

评论

发布
暂无评论
发现更多内容

ElasticSearch 集群迁移最佳实践

冰心的小屋

elasticsearch

centos安装python3/pip3项目所需的第三方模块(在线安装&&离线安装)

A-刘晨阳

Linux 运维 Python3 11月月更 pip3

与时俱进「风险系统保障质量之路」非同寻常

京东科技开发者

自动化 风险识别 风险控制 预警监控 风险系统

室内高清led电子显示屏的定义

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

百度面试被算法血虐,闭关肝完445页算法神仙笔记成功入职字节

钟奕礼

Java 程序员 java面试 java编程

SCADA系统架构、类型和应用

2D3D前端可视化开发

物联网 组态软件 web组态 组态编辑器 SCADA

深入掌握 Fiori Elements 工作原理的前提条件:理解 Smart Field

汪子熙

前端开发 web开发 Fiori SAP UI5 11月月更

Centos7安装Mysql5.7(超详细版)

A-刘晨阳

MySQL Linux 运维 11月月更

动手实践丨基于ModelAtrs使用A2C算法制作登月器着陆小游戏

华为云开发者联盟

人工智能 华为云 A2C算法

百度架构师手写万字Spring Security实战笔记,一篇就搞懂

小小怪下士

Java spring springsecurity

【昇思生态城市行】南京站圆满举办, 昇腾携手伙伴见证多项重磅发布!

极客天地

隐语 PSI benchmark 白皮书

隐语SecretFlow

密码学 隐私计算 PSI 安全多方计算 隐语

云小课|云小课带您快速了解LTS可视化查看

华为云开发者联盟

云计算 后端 华为云

高并发下丢失更新的解决方案

京东科技开发者

幻读 脏读 不可重复读 更新丢失

【Linux】之【CPU】相关的命令及解析[lscpu、mpstat]

A-刘晨阳

Linux 运维 cpu 命令 11月月更

为了进大厂!吃透了各大厂最新 3000+Java 面试题啃完面试肯定妥了

钟奕礼

Java 程序员 java面试 java编程

从零开始学习Java系列之你为什么要学Java?

千锋IT教育

聊聊Mybatis的数据源之PooledDataSource

急需上岸的小谢

11月月更

主流BI软件,哪一个软件使用效果更好?

夏日星河

云服务器买谁家的好?为什么?理由是什么?

行云管家

云计算 服务器 云服务器

小令观点 | 需要留存用户的身份证照片?想清楚这三点了再做……

令牌云数字身份

身份认证 身份安全 敏感信息加密

Linux系统保存文件命令的详细介绍

源字节1号

软件开发 前端开发 后端开发 小程序开发

直播预告lApache Hudi 中文社区技术交流会第六弹

StarRocks

数据库

携手!Kyligence 支持 Amazon EMR Serverless,赋能云上企业降本增效

Kyligence

数据分析 OLAP

炎凰数据完成超亿元 A1 和 A1+ 轮融资,推出异构数据即时分析平台

晨山资本

大数据 大数据处理 大数据分析

江西省四家等保测评机构名单详解

行云管家

江西 等保测评 等保测评机构

自动驾驶的「数据引擎」,该如何“降本”、“增效”和“精准化”?

澳鹏Appen

人工智能 自动驾驶 无人驾驶 智能驾驶 数据标注

中心化危机下,NFT 去中心化协议能否破局?

NFT Research

区块链 去中心化 NFT

小令观点 | 是什么让马斯克也受骗了?

令牌云数字身份

数字身份

聊聊Mybatis的数据源之工厂模式

急需上岸的小谢

11月月更

PCB layout有DRC,为什么还要用CAM和DFM检查?

华秋PCB

PCB PCB设计 PCB工具

500TB——Facebook每天收集的数据量_软件工程_郑柯_InfoQ精选文章