写点什么

直播出问题,AI 不一定救得了:Netflix 的新解法

作者:Mark Silvester
  • 2026-05-04
    北京
  • 本文字数:1066 字

    阅读完需:约 3 分钟

Netflix 已从传统的视频点播平台迈向直播平台,通过将自动化技术系统与结构化的人类运营层相结合来实现这一转型,相关内容在其最新发布的 Netflix Technology Blog 文章中进行了说明。

在多年打磨异步分发能力之后,像迈克·泰森与杰克·保罗拳击比赛这样的高关注度直播事件(全球约有 1.08 亿观众同时观看)对实时基础设施的管理提出了新的要求。这促使团队构建了所谓的“人类基础设施”(human infrastructure),即一个专门的运营层,用于应对直播过程中固有的不确定性。

这一转变也反映了整个行业面临的共同挑战。Amazon Web Services 提供了 Elemental MediaLive 服务,帮助广播机构在大规模场景下处理类似的同步与编码任务。

其他主要平台也遇到了类似难题;Disney+ Hotstar 此前曾分享其在全球板球赛事期间如何应对创纪录并发量的经验。与这些同行类似,Netflix 现在需要在高峰时段平衡自动化扩展与人工干预,因为标准算法在面对一些特殊故障时可能缺乏足够的上下文来做出响应。

该策略的关键之一是“遥测热路径”(telemetry hot path)。大多数可观测性管道在设计时优先考虑成本效率和数据完整性,而非极致速度,这对于点播场景来说是可行的,因为分析延迟不会造成明显影响。但在直播场景中,Netflix 将最关键的指标隔离到一个低延迟的数据流中,使运营团队能够在毫秒级别发现并修复传输问题,避免局部故障演变为更大范围的中断。该专用管道优先处理诸如启动失败率和缓冲率等关键指标,而将不那么紧急的后台日志放在次要位置。

除了软件层面,Netflix 还建立了一个 Live Operations Centre(直播运营中心)作为事件响应枢纽。工程团队指出,这一层提供了一个指挥体系,当出现不可预见的边缘情况时,可以绕过自动化协议进行干预。为该中心构建的定制工具使工程师能够即时引导流量,并在不同区域之间重新平衡容量。这种架构与 YouTube Live 的基础设施在理念上相似,后者同样依赖实时监控以及在大规模全球直播期间进行人工干预的能力。

从实体媒体到全球实时流媒体的这一架构演进,最近也在 QCon London 上由 Kasia Trapszo 进行了分享,她讨论了 Netflix 商业架构的演变。该演讲指出,直播事件推动系统从纯实时授权模式转向混合模型,引入“验证窗口”(validation windows)和优雅降级机制,以在流量激增时保障用户访问。

通过将人类经验正式纳入技术体系,Netflix 旨在在充满不确定性的体育直播场景中依然保持服务的可靠性。这一演进表明,在全球规模下,技术只有与同步的人类判断层相结合,才能发挥最佳效果。

原文链接:

https://www.infoq.com/news/2026/04/netflix-live-human-ops-scale/