2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Netflix 如何在万亿行规模上处理观众数据洞察

作者:Matt Foster

  • 2025-09-26
    北京
  • 本文字数:1152 字

    阅读完需:约 4 分钟

大小:575.48K时长:03:16
Netflix如何在万亿行规模上处理观众数据洞察

在最近的一篇博客文章中,Netflix 的工程师描述了他们如何扩展 Muse 这个公司内部用于数据驱动创意洞察的应用,使其能处理万亿行数据集。

 

Muse 帮助 Netflix 的创意和发布团队了解哪些艺术作品和视频资产能够引起观众的共鸣,而公司的业务增长需要它在大规模数据上支持高级过滤和受众亲和性分析。

 

为了满足这些需求,Netflix 报告称它重新设计了数据服务层,将查询延迟减少了约 50%,同时保持了准确性和响应性。

 

Muse 最初是一个由 Spark 驱动的仪表板,背后是一个适度的 Apache Druid 集群。随着时间的推移,创意团队要求添加异常检测、通知和媒体比较等功能,而数据量增长到了每年数万亿行。满足这些需求需要更低的延迟和更强大的服务层。

 

一个主要挑战来自于受众亲和性:通过算法推断的标签,将成员按喜好分组,如“角色剧粉丝”或“流行文化爱好者”。将这些多对多关系添加到印象和播放数据中增加了复杂性,达到了原来架构的极限。


Muse 应用程序 GUI

 

另一个挑战来自于 Muse 的两个关键指标,一个是印象,也就是资产被展示的次数,还有一个是合格播放,这将播放事件与印象联系起来。两者都需要计算不同的用户,这在 Netflix 的规模上是一项昂贵的操作。

 

为了解决这个问题,团队采用了来自 Apache DataSketches 的 HyperLogLog 草图,这些草图提供了大约 1%误差的估计。

 

草图在两个地方构建:在 Druid 摄取过程中和在 Spark ETL 作业中,后者将每日草图合并成所有时间的聚合。这种方法将整个组织的常见 OLAP 模式的查询延迟减少了大约 50%。

 

为了进一步减轻 Druid 的负载,Netflix 转向了 Hollow,这是其内部的内存键/值存储库。Hollow 提要由 Iceberg 表构建,生产服务器推送更新,Spring Boot 消费者刷新缓存的数据集。这种设置允许 Muse 直接从内存中提供预计算的聚合,如不同国家的可用性、所有时间资产指标和元数据。

 

查询时间从数百毫秒降低到数十毫秒,同时也保护 Druid 免受高并发请求的影响。团队指出,这种权衡是更高的内存使用和更复杂的请求路由,但结果是更大的稳定性和响应性。


当前 Muse 架构

 

最后,Netflix 还花时间调整了 Druid:团队调整了数据在节点之间分割的方式,调整了段的大小以使扫描更有效,并在存储前过滤掉未使用的列。

 

他们还利用 Druid 在单个字段中存储多个值的能力,更好地处理受众亲和性。

 

这些变化,结合早期的改进,将查询时间大致减半,并使系统在重负载下更加一致。

 

为了确保准确性和信任,Netflix 并行运行了遗留和新的度量堆栈,通过自动化的 Jupyter 比较和突出显示差异的应用程序内工具来验证结果。

 

推出是分阶段进行的,由影子测试和细粒度的功能标志支持,以实现安全的回滚。

 

展望未来,Netflix 计划将 Muse 扩展到支持“直播”和游戏,整合概要数据,并完善区分“有效”和“真实”促销资产的指标。

 

原文链接:

How Netflix Powers Audience Insights at Trillion-Row Scale

2025-09-26 11:007508

评论

发布
暂无评论

启信宝宠物行业报告:6年增10倍!超400万家企业抢滩千亿“毛孩子经济”

合合技术团队

人工智能 算法 #大数据

区块链Web3开发上线

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

数字化转型的关键:MES系统成功部署的六大阶段与避坑指南

万界星空科技

数字化转型 制造业 mes 生产管理MES系统 软件实施

ChatGPT治好了我的拖延症,自由职业如何用AI实现无痛时间管理(附完整提示词)

田威AI

自由职业 时间管理 自律 ChatGPT flowping

把握TikTok浪潮,这几个策略提升海外营销推广效果

Wolink

海外营销推广 达人营销

海外舆情监测中的“沉默大多数”:非活跃用户态度的挖掘方法

沃观Wovision

舆情监测系统 海外舆情监测

每年省200万?VMware隐性成本拆解与超融合替代实战

智驱前线

vmware 超融合

把数套数据传输通道一键“折叠”成 SeaTunnel:同程工程师周晓晨的实战笔记

白鲸开源

大数据 开源 Apache SeaTunnel

收藏!史上最全 Apache SeaTunnel Source 连接器盘点 (2025版),一篇通晓数据集成生态

白鲸开源

大数据 数据同步 数据集成 Apache SeaTunnel Connector

新能源行业用到堡垒机的场景简单分析

行云管家

网络安全 信息安全 堡垒机

今年国内智能眼镜出货量预计达 290.7 万台;ElevenLabs 推出商用 Eleven Music API丨日报

声网

Wispr Flow 创始人:我曾亲手扼杀硬件梦想,仅剩 5 人团队在裁员阴影下找到 PMF

声网

《SQLAlchemy 2 In Practice》读后感

codists

Python

CAD如何快速测量及结果求和?用好这个功能让你事半功倍

在路上

cad cad看图 CAD看图王

2025行云管家成功通过等保三级认证

行云管家

等保 行云管家

摇人有奖 | 一键赢 KWDB 社区限量好礼!

KaiwuDB

数据库 开源数据库 KaiwuDB 分布式多模数据库 KWDB开源数据库

小程序容器与SuperApp构建的新晋前端框架技术

xuyinyin

中烟创新连续两年被认定为国家级科技型中小企业

中烟创新

社交媒体监测如何塑造品牌的国际化传播路径?

沃观Wovision

CAD批量测线功能真好用,从1段1段加,到1键全搞定!

在路上

cad cad看图 CAD看图王

荣耀游戏中心新增礼包配置项丨开发加油站

荣耀开发者服务平台

荣耀开发者服务平台 荣耀HONOR 荣耀手机 荣耀游戏中心

督办产品新特性来袭,助力企业高效工作

inBuilder低代码平台

WRC2025 | 澳鹏亮相2025世界机器人大会,以数据之力赋能具身智能新纪元

澳鹏Appen

具身智能 世界机器人大会

谙流 ASK × 中国联通:2.25 小时→秒级,存算分离革新数据传输

AscentStream

大数据

为什么跨国企业需要对社交媒体进行监控?

沃观Wovision

社交媒体 海外舆情监控

邀请函|2025 Altair 教育赋能行动:《有限元基础》课程共建

Altair RapidMiner

人工智能 AI 仿真 CAE 工业设计

鸿蒙NEXT即时通讯/IM系统RinbowTalk v2.4版发布,基于MobileIMSDK框架、ArkTS编写

JackJiang

鸿蒙 网络编程 即时通讯 IM

Netflix如何在万亿行规模上处理观众数据洞察_架构_InfoQ精选文章