如何 0 成本启动全员 AI 技能提升?戳> 了解详情
写点什么

Netflix 如何重新定义视频、音频和文本的数据工程

作者:Matt Foster

  • 2025-08-28
    北京
  • 本文字数:1208 字

    阅读完需:约 4 分钟

大小:591.51K时长:03:21
Netflix如何重新定义视频、音频和文本的数据工程

Netflix 推出了一个新的工程专业化领域——媒体机器学习数据工程(Media ML Data Engineering),以及一个旨在大规模处理视频、音频、文本和图像资产的媒体数据湖。早期成果包括在标准化媒体上训练的更丰富的机器学习模型、更快的评估周期,以及对创意工作流程的更深入洞察。

 

在最近的一篇博客文章中,该公司描述了这种演变如何将其数据工程功能从“事实和指标”表格转向直接支持机器学习的媒体内容上的。

 

通过正式化角色和平台,Netflix 旨在提供标准化的、适用于机器学习的数据处理集,并在本地化、媒体恢复、评级和多模态搜索等领域实现更快的实验。

 

Netflix 的数据工程团队曾经专注于用于指标、仪表板和模型的结构化表格。然而,随着工作室业务的扩大,他们面临着大规模的多模态、非结构化媒体——视频、音频、图像和文本——的洪流。

 

这些资产与创意工作流程和血统相关联,引入了传统流程无法管理的复杂性,从而催生了急需新方法的需求。

 

为了应对这一挑战,Netflix 创建了媒体机器学习数据工程,这是一个位于数据工程、机器学习基础设施和媒体制作交汇处的专业化领域。这些工程师构建和维护媒体数据湖的流程,标准化资产,丰富元数据,并为研究和生产提供适用于机器学习的语料库。

 

合作是核心:他们与领域专家、研究人员和平台团队合作,确保解决方案满足技术和创意需求。

 

(媒体机器学习数据工程师)

 

媒体数据湖是专门为存储和服务媒体资产及其元数据而设计的。该数据湖由LanceDB提供支持,并集成到 Netflix 的大数据生态系统中。

 

核心是媒体表,这是一个结构化的数据集,可以捕获所有媒体资产的元数据和引用,还可以存储机器学习输出,如嵌入。Netflix 指出,通过将元数据与嵌入等输出相结合,媒体表可以实现复杂的矢量查询和多模态搜索实验。

 

支持组件包括一个标准化的数据模型、一个 Pythonic 数据 API、用于探索的 UI 工具,以及实时查询和大规模批处理系统。总之,这些共同使得媒体资产可以被搜索、探索,并为大规模的机器学习训练做准备

 

(媒体表)

 

这些表格已经为多个应用程序提供了支持,包括使用 TTS 模型的翻译和音频质量指标、HDR 视频修复、吸烟或血腥内容的合规性检查,以及跨帧、镜头和对话的多模态搜索。

 

Netflix 将这些例子作为证据,表明媒体表不仅仅是一个存储层,而且是新的创意和运营维工作流程的驱动力。

 

在实现这些用例之前,Netflix 首先建立了一个范围有限的“数据池”,专注于其内部资产管理系统注释存储中的视频和音频。该公司报告称,这种有限的推广使他们能够在进一步扩展之前降低引入新技术的风险,并确保一个坚实、可扩展的基础。

 

展望未来,Netflix 强调了已经出现的好处:在标准化媒体上训练的更丰富、更准确的机器学习模型、更快的评估周期、更快的新 AI 功能产品化,以及对创意工作流程的更深入洞察。

 

该公司计划进一步扩展媒体数据湖,并与更广泛的数据工程社区分享未来的学习成果。

 

原文链接:

https://www.infoq.com/news/2025/08/netflix-ml-data-eng/

2025-08-28 11:003709

评论

发布
暂无评论

华为云DTSE助力车卫士架构升级,探索智能出行行业数字化新路径

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 华为云DTSE

室内设计软件Room Arranger 中文直装版 v9.8.2.644

Rose

室内设计 Room Arranger破解版 Room Arranger下载

矢量插图设计绘制Canvas X Draw v7.0.4激活版

Rose

Canvas X Draw 插图绘制软件 苹果软件资源下载

Boxy SVG v4.23.2免激活版 mac矢量图编辑器 支持m1/m2

Rose

苹果软件下载 矢量图形编辑软件 Boxy SVG破解版 Boxy SVG mac下载

文心一言 VS 讯飞星火 VS chatgpt (190)-- 算法导论14.1 7题

福大大架构师每日一题

福大大架构师每日一题

Amadine for Mac矢量绘图软件 v1.5.5激活版 兼容m1/m2

Rose

矢量图设计 Amadine破解版 Amadine Mac

基于volcano实现节点真实负载感知调度

华为云开发者联盟

云原生 后端 华为云 Volcano 华为云开发者联盟

苹果电脑 电子邮件客户端 Mimestream for Mac

Rose

Mac软件 Mimestream Mac破解版 Mimestream 下载 邮件客户端 Gmail邮箱

如何在网页上下载高质量视频和音频文件?推荐使用PullTube for Mac在线视频下载器

Rose

Mac视频下载器 PullTube使用教程 PullTube mac

政务云相关名词解释看这里!

行云管家

云计算 云管平台 云管理 政务云

软件测试的发展现状与未来趋势

测试人

软件测试

图片浏览和管理软件EdgeView 4 for Mac v4.4.7激活版

Rose

mac软件下载 苹果软件资源 EdgeView 4 图片浏览

【分布式技术专题】「探索高性能远程通信」基于Netty的分布式通信框架实现(Dispatcher和EventListener)(下)

码界西柚

分布式 Netty RPC 远程通信 2024年第二十六篇文章

GraphicConverter 12 :简单好用的图片浏览编辑器

Rose

GraphicConverter 12中文 GraphicConverter破解 Mac图片编辑器

2024年带大家一起深入了解堡垒机功能以及作用

行云管家

网络安全 数据安全 云安全 堡垒机

如何实现一个高扩展、可视化低代码前端框架

互联网工科生

低代码 前端框架 JNPF

2024年企业选择堡垒机指南

行云管家

网络安全 数据安全 云安全 堡垒机 企业数据安全

iZotope智能混音插件Mac版下载 iZotope Neutron 4破解 v4.5.0激活版

Rose

Mac软件 iZotope Neutron 4 智能混音插件

报名AI产品原型设计公开课!与ProtoPie一起打造高保真AI原型

飞桨PaddlePaddle

百度 AI 百度飞桨 应用开发 飞桨星河社区

macOS思维导图软件 ClickCharts for Mac v9.0.3激活版

Rose

苹果软件下载 思维导图软件 ClickCharts Mac破解

一文搞懂设计模式—责任链模式

Java随想录

Java 设计模式

更简单高效地Git客户端 Tower for Mac注册版 兼容m1/m2

Rose

Git客户端 Tower破解版 Tower mac版

Wireshark的捕获过滤器

小齐写代码

如何实现一个百万亿规模的时序数据库,百度智能云 BTS 架构解析和实践分享

百度Geek说

架构 时序数据库 百度智能云

MIAOYUN获评OpenCloudOS社区2023年度优秀贡献企业

MIAOYUN

开源 云原生 开源操作系统 MIAOYUN OpenCloudOS 社区

用Chrome,Edge,360等浏览器如何调用底层硬件模块?

非也

chrome edge 信创 360安全浏览器 前端ui组件库

18个JavaScript技巧:编写简洁高效的代码

南城FE

JavaScript 前端 代码质量

LED屏模组偏色怎么办?

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

Netflix如何重新定义视频、音频和文本的数据工程_数据湖仓_InfoQ精选文章