写点什么

Netflix 如何重新定义视频、音频和文本的数据工程

作者:Matt Foster

  • 2025-08-28
    北京
  • 本文字数:1208 字

    阅读完需:约 4 分钟

大小:591.51K时长:03:21
Netflix如何重新定义视频、音频和文本的数据工程

Netflix 推出了一个新的工程专业化领域——媒体机器学习数据工程(Media ML Data Engineering),以及一个旨在大规模处理视频、音频、文本和图像资产的媒体数据湖。早期成果包括在标准化媒体上训练的更丰富的机器学习模型、更快的评估周期,以及对创意工作流程的更深入洞察。

 

在最近的一篇博客文章中,该公司描述了这种演变如何将其数据工程功能从“事实和指标”表格转向直接支持机器学习的媒体内容上的。

 

通过正式化角色和平台,Netflix 旨在提供标准化的、适用于机器学习的数据处理集,并在本地化、媒体恢复、评级和多模态搜索等领域实现更快的实验。

 

Netflix 的数据工程团队曾经专注于用于指标、仪表板和模型的结构化表格。然而,随着工作室业务的扩大,他们面临着大规模的多模态、非结构化媒体——视频、音频、图像和文本——的洪流。

 

这些资产与创意工作流程和血统相关联,引入了传统流程无法管理的复杂性,从而催生了急需新方法的需求。

 

为了应对这一挑战,Netflix 创建了媒体机器学习数据工程,这是一个位于数据工程、机器学习基础设施和媒体制作交汇处的专业化领域。这些工程师构建和维护媒体数据湖的流程,标准化资产,丰富元数据,并为研究和生产提供适用于机器学习的语料库。

 

合作是核心:他们与领域专家、研究人员和平台团队合作,确保解决方案满足技术和创意需求。

 

(媒体机器学习数据工程师)

 

媒体数据湖是专门为存储和服务媒体资产及其元数据而设计的。该数据湖由LanceDB提供支持,并集成到 Netflix 的大数据生态系统中。

 

核心是媒体表,这是一个结构化的数据集,可以捕获所有媒体资产的元数据和引用,还可以存储机器学习输出,如嵌入。Netflix 指出,通过将元数据与嵌入等输出相结合,媒体表可以实现复杂的矢量查询和多模态搜索实验。

 

支持组件包括一个标准化的数据模型、一个 Pythonic 数据 API、用于探索的 UI 工具,以及实时查询和大规模批处理系统。总之,这些共同使得媒体资产可以被搜索、探索,并为大规模的机器学习训练做准备

 

(媒体表)

 

这些表格已经为多个应用程序提供了支持,包括使用 TTS 模型的翻译和音频质量指标、HDR 视频修复、吸烟或血腥内容的合规性检查,以及跨帧、镜头和对话的多模态搜索。

 

Netflix 将这些例子作为证据,表明媒体表不仅仅是一个存储层,而且是新的创意和运营维工作流程的驱动力。

 

在实现这些用例之前,Netflix 首先建立了一个范围有限的“数据池”,专注于其内部资产管理系统注释存储中的视频和音频。该公司报告称,这种有限的推广使他们能够在进一步扩展之前降低引入新技术的风险,并确保一个坚实、可扩展的基础。

 

展望未来,Netflix 强调了已经出现的好处:在标准化媒体上训练的更丰富、更准确的机器学习模型、更快的评估周期、更快的新 AI 功能产品化,以及对创意工作流程的更深入洞察。

 

该公司计划进一步扩展媒体数据湖,并与更广泛的数据工程社区分享未来的学习成果。

 

原文链接:

https://www.infoq.com/news/2025/08/netflix-ml-data-eng/

2025-08-28 11:003862

评论

发布
暂无评论

呼声超高的 TiDB 性能调优最佳实践来啦,这些“绝招”让你事半功倍!5 月 29 日,TiDB vs MySQL 线上 Meetup 第四期,欢迎 TiDBer 们参与!转发海报参与 TiDB Chaos Mesh 马克杯抽奖!

TiDB 社区干货传送门

MySQL 数据库 SQL优化 TiDB

最新字节跳动运维云原生面经分享

王中阳Go

Go 字节跳动 面经

A2A与MCP:理解它们的区别以及何时使用

数据追梦人

PAI Model Gallery 支持云上一键部署 Qwen3 全尺寸模型

阿里云大数据AI技术

人工智能 阿里云 LLM PAI Qwen3

文献解读-The chromosome-scale genome of the raccoon dog: Insights into its evolutionary characteristics

INSVAST

生物信息学 Sentieon 变异检测 全基因组测序 生物信息分析服务

什么是DNS缓存?怎么清理DNS缓存?

防火墙后吃泡面

蚂蚁数科发布金融智能体开发平台Agentar 内测上线超百个金融MCP服务

Lily

通义灵码 CCF 算法大会首秀,解码研发智能落地「黄金三角」| 文末领取PPT

阿里云云效

阿里云 云原生 通义灵码

AI智能体的技术架构

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI技术应用

稳定币迎来ChatGPT 时刻,如何驱动DeCloud?

PowerVerse

defi 稳定币 DeCloud

数据可溯破局!iVX 可视化调试如何改写 AI 编程规则

代码制造者

AI编程

谷歌云 | AI驱动医疗健康变革:智能代理、增强搜索与关键平台深度解读

Cloud Ace 云一

人工智能 生命科学 谷歌云 健康医疗

企业级私有化部署,内部聊天软件

BeeWorks

即时通讯 IM 私有化部署 企业级应用

4.29 晚直播预告 | 清华团队揭秘,时序大模型如何让数据“活”起来?

Apache IoTDB

中国联通网络资源湖仓一体应用实践

Apache Flink

大数据 flink 实时计算 实时湖仓 实时分析

最佳实践:RunnerGo API性能测试实战与高并发调优

数据追梦人

自己写插件-实现时间戳自由

京东科技开发者

iVX 引领软件开发进入 “可视化逻辑时代”

代码制造者

Nacos 3.0 正式发布:MCP Registry、安全零信任、链接更多生态

阿里巴巴云原生

nacos MCP

AI智能体平台的开发流程

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI技术应用

通义灵码 CCF 算法大会首秀,解码研发智能落地「黄金三角」| 文末领取PPT

阿里巴巴云原生

阿里云 云原生 通义灵码

SQLShift 全新上线:Oracle→OceanBase 迁移利器

爱可生开源社区

oracle dba 存储过程 oceanbase

45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务

GPUStack

大模型 模型推理 Qwen GPU集群 Qwen3

深入解析 Spring AI 系列:解析函数调用

不在线第一只蜗牛

人工智能 spring

怎么用drawio一键生成图表?drawio必备的使用技巧盘点!

职场工具箱

人工智能 drawio 办公软件 AIGC Ai绘图

Taro on Harmony :助力业务高效开发纯血鸿蒙应用

京东科技开发者

局域网视频会议软件BeeWorks Meet

BeeWorks

即时通讯 IM 私有化部署 局域网视频软件

详细剖析Java动态线程池的扩容以及缩容操作

电子尖叫食人鱼

Java

云交易技术对接全景

京东科技开发者

国内首个「混合推理模型」Qwen3深夜开源,盘点它的N种对接方式!

王磊

Netflix如何重新定义视频、音频和文本的数据工程_数据湖仓_InfoQ精选文章