写点什么

Netflix 自研标题发布可观测性系统:在全球范围内验证标题可用性

作者:Leela Kumili

  • 2025-07-14
    北京
  • 本文字数:1413 字

    阅读完需:约 5 分钟

大小:694.66K时长:03:57
Netflix自研标题发布可观测性系统:在全球范围内验证标题可用性

Netflix 开发了一个叫作 Title Launch Observability 的平台,将可观测性从系统健康状态监测带到了产品意图上。该系统突破了传统依赖日志和指标的局限,通过验证发布内容是否符合用户实际看到的效果来提前发现内容质量问题。


Title Launch Observability 会验证每一个新上线的标题是否已成功发布、是否可见,以及是否针对不同设备和地区观众进行了精准的个性化推荐。Netflix 在最近发布的三篇系列博文中详细介绍了这种以意图为导向的方法,展示了该平台如何随着标题发布量的增加而扩展。


该平台能够提前发现诸如缺少艺术作品、推荐不准确或本地化缺失等问题,这些问题在观众看到之前就能被检测出来。确保一个标题能够在不同设备、地区和个性化上下文中可用,听起来似乎很简单,但在 Netflix 的工程师们眼里,这是一个复杂且模糊的挑战:

标题的可用性其实很复杂。很多人会想当然地认为,只要标题被导入到目录服务中,它就应该是“可用”的。但实际上,标题的可用性是由多个系统共同决定的,这些系统会根据各种因素(比如输入信号不完整、功能异常,或者标题之间的相互作用)在用户界面的不同位置展示标题。


随着 Netflix 每月发布数千个标题,过去依赖的手动脚本和随机抽查变得不再可靠。一些隐蔽的问题,比如缺少字幕、元数据延迟、地区放置错误或缺少艺术作品,如果没有用户反馈,很难被发现。系统由一个叫作 Title Health 的框架提供支持,它从多个系统中聚合信号,包括元数据传播管道、个性化模型、用户界面渲染逻辑以及从客户端设备实时传输的印象数据。


他们有一个专门的微服务,负责执行收集器作业,每个作业都与 Netflix 的特定内容相关联(例如“即将上映”或“当前流行的”),查询目录服务和合作伙伴系统以验证发布的正确性。通过 Kafka 摄取的实时标题印象数据,为团队提供了推荐模型如何处理每个标题的额外洞察。


收集到的信号使用 Hollow 存储,这是一个高性能内存数据存储,为 Netflix 提供快速访问大量标题元数据的能力。通过维护版本化数据集,可以支持历史数据比较,从而帮助团队检测标题发布中的回归或不一致问题。这些内容通过内部仪表盘、API 和警报工具呈现,让利益相关者能够近乎实时地评估标题在不同设备和地区上的健康状况。


可观测性架构(来源:Netflix 技术博客


该平台的一大亮点是“时间旅行”功能。工程师通过在可观测性端点请求中附加未来时间戳,可以提前模拟标题未来在用户界面中的呈现效果。这使得团队能够在标题上线之前检测生命周期问题,例如延迟的徽章渲染或不完整的本地化。在标题发布的初期阶段,用户参与度和算法推广通常处于高峰期,因此早期检测显得尤为重要。


“时间旅行”(来源:Netflix 技术博客


为了确保 Netflix 生态系统内的整体一致性,Title Health 微服务每 30 分钟运行一次收集器作业,这些作业在设备类别(包括移动应用、智能电视和网络平台)上执行可观测性检查。这一解决方案能够有效识别标题在一种设备上显示正常但在另一种设备上出现缺失或配置错误的情况。


Netflix 表示,该系统致力于提升内容的可发现性,确保用户体验的一致性,并增强与内容创作者及合作伙伴的信任。Netflix 认为这是其提升运营可靠性和确保内容触达目标受众的更广泛努力的一部分。它还为运营和工程团队提供了明确的信号,不仅关注系统是否运行,更关注每个标题是否对每位目标观众可见。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


原文链接:

https://www.infoq.com/news/2025/07/netflix-title-observability/

2025-07-14 15:006462

评论 1 条评论

发布
用户头像
ding
2025-07-19 15:57 · 江苏
回复
没有更多了

软件测试学习笔记丨Flask框架-请求与响应

测试人

flask 软件测试

从人员外包到测试工具、测试平台,提供全方位的测试解决方案~

霍格沃兹测试开发学社

Alfred 5中文安装包 Mac 上的效率瑰宝!

Rose

最大程度降低“去O”的迁移风险

NineData

数据库 复制 迁移 同步 NineData

能操控电脑的 Computer Use 究竟是什么?万能胶水、旧世界操作员,还是无所不在的智能?| 播客《编码人声》

声网

知识管理系统是什么?

ServiceDesk_Plus

知识管理系统 知识管理软件

天润融通邀您参加AI破局·聚力增长行业论坛

天润融通

用户增长 AI大模型 用户运营 天润融通

通义灵码知识库问答增强:知识库构建与管理指南

阿里巴巴云原生

阿里云 云原生 通义灵码

通义灵码知识库问答增强:知识库构建与管理指南

阿里云云效

阿里云 云原生 通义灵码

指标平台在企业数据管理中的定位及其如何与BI、数仓的协同工作?

Aloudata

数据分析 指标体系 指标平台 指标开发

全新HUAWEI MatePad 11.5发布:搭载华为教育中心,做更好的学习神器

最新动态

什么是无代码?无代码开发平台又是什么?

积木链小链

无代码 无代码平台

如何通过指标驱动研发体系建设

思码逸研发效能

DevOps 研发效能 效能度量 研发效能管理 思码逸

薅羊毛了!百万度算力免费申领活动狂欢继续!

九章云极DataCanvas

实时特征框架的生产实践|得物技术

得物技术

flink 性能优化 数据平台 特征框架

推特账号被冻结怎么办?检查IP是否正常

Ogcloud

云手机 海外云手机 海外原生IP 海外IP

数据结构 - 散列表,三探之代码实现

不在线第一只蜗牛

数据结构

立足云南,面向“两亚”,翻开普惠算力新篇章

九章云极DataCanvas

老好人无法成为好的管理者

老张

团队管理 技术管理 绩效管理

指标预警归因分析,及时发现业务问题,快速定位问题根因

Aloudata

数据分析 指标平台 指标开发

AI 原生时代,更要上云:百度智能云云原生创新实践

百度Geek说

LeetCode题解:2648. 生成斐波那契数列,迭代+递归,超详细解析

Lee Chen

程序员提效的 10 个方法,建议收藏

秃头小帅oi

鸿蒙开发案例:打地鼠

zhongcx

如何成为一名优秀的程序员,进来看看

伤感汤姆布利柏

云原生开源开发者沙龙丨AI 应用工程化专场杭州站邀您参会

阿里巴巴云原生

阿里云 云原生

Netflix自研标题发布可观测性系统:在全球范围内验证标题可用性_架构_InfoQ精选文章