写点什么

Netflix 如何重新定义视频、音频和文本的数据工程

作者:Matt Foster

  • 2025-08-28
    北京
  • 本文字数:1208 字

    阅读完需:约 4 分钟

大小:591.51K时长:03:21
Netflix如何重新定义视频、音频和文本的数据工程

Netflix 推出了一个新的工程专业化领域——媒体机器学习数据工程(Media ML Data Engineering),以及一个旨在大规模处理视频、音频、文本和图像资产的媒体数据湖。早期成果包括在标准化媒体上训练的更丰富的机器学习模型、更快的评估周期,以及对创意工作流程的更深入洞察。

 

在最近的一篇博客文章中,该公司描述了这种演变如何将其数据工程功能从“事实和指标”表格转向直接支持机器学习的媒体内容上的。

 

通过正式化角色和平台,Netflix 旨在提供标准化的、适用于机器学习的数据处理集,并在本地化、媒体恢复、评级和多模态搜索等领域实现更快的实验。

 

Netflix 的数据工程团队曾经专注于用于指标、仪表板和模型的结构化表格。然而,随着工作室业务的扩大,他们面临着大规模的多模态、非结构化媒体——视频、音频、图像和文本——的洪流。

 

这些资产与创意工作流程和血统相关联,引入了传统流程无法管理的复杂性,从而催生了急需新方法的需求。

 

为了应对这一挑战,Netflix 创建了媒体机器学习数据工程,这是一个位于数据工程、机器学习基础设施和媒体制作交汇处的专业化领域。这些工程师构建和维护媒体数据湖的流程,标准化资产,丰富元数据,并为研究和生产提供适用于机器学习的语料库。

 

合作是核心:他们与领域专家、研究人员和平台团队合作,确保解决方案满足技术和创意需求。

 

(媒体机器学习数据工程师)

 

媒体数据湖是专门为存储和服务媒体资产及其元数据而设计的。该数据湖由LanceDB提供支持,并集成到 Netflix 的大数据生态系统中。

 

核心是媒体表,这是一个结构化的数据集,可以捕获所有媒体资产的元数据和引用,还可以存储机器学习输出,如嵌入。Netflix 指出,通过将元数据与嵌入等输出相结合,媒体表可以实现复杂的矢量查询和多模态搜索实验。

 

支持组件包括一个标准化的数据模型、一个 Pythonic 数据 API、用于探索的 UI 工具,以及实时查询和大规模批处理系统。总之,这些共同使得媒体资产可以被搜索、探索,并为大规模的机器学习训练做准备

 

(媒体表)

 

这些表格已经为多个应用程序提供了支持,包括使用 TTS 模型的翻译和音频质量指标、HDR 视频修复、吸烟或血腥内容的合规性检查,以及跨帧、镜头和对话的多模态搜索。

 

Netflix 将这些例子作为证据,表明媒体表不仅仅是一个存储层,而且是新的创意和运营维工作流程的驱动力。

 

在实现这些用例之前,Netflix 首先建立了一个范围有限的“数据池”,专注于其内部资产管理系统注释存储中的视频和音频。该公司报告称,这种有限的推广使他们能够在进一步扩展之前降低引入新技术的风险,并确保一个坚实、可扩展的基础。

 

展望未来,Netflix 强调了已经出现的好处:在标准化媒体上训练的更丰富、更准确的机器学习模型、更快的评估周期、更快的新 AI 功能产品化,以及对创意工作流程的更深入洞察。

 

该公司计划进一步扩展媒体数据湖,并与更广泛的数据工程社区分享未来的学习成果。

 

原文链接:

https://www.infoq.com/news/2025/08/netflix-ml-data-eng/

2025-08-28 11:001

评论

发布
暂无评论

区块链加持的家用摄像头能拯救你的隐私吗?

CECBC

毕业半年的憨憨,将公司的代码上传到GitHub上了

诸葛小猿

GitHub 代码上传

企业架构框架之TOGAF

冯文辉

企业架构

计算机揭秘之:网络分类和性能分析

程序那些事

TCP 计算机网络 网络协议 计算机基础 udp

可读代码编写炸鸡七 - 表达式太长就拆

多选参数

代码质量 代码组织 代码规范 可读代码编写 可读代码

我想模糊删除redis key🤔

山中兰花草

Java lua redis 面试 批量任务

LeetCode题解:141. 环形链表,JavaScript HashMap,详细注释

Lee Chen

大前端 LeetCode

MQTT的搭建、测试、应用及小程序的集成!

诸葛小猿

物联网 IoT mqtt broker

第六周总结

腾志文(清样)

图解:如何实现最小生成树

淡蓝色

Java 数据结构 算法

寻找握剑的手,青睐懂行的人

脑极体

CAP原理

jason

解决问题 1474 个,Flink 1.11 究竟有哪些易用性上的改善?

Apache Flink

flink

Week 06 命题作业

Jeremy

Week 06学习总结

Jeremy

分布式事务解决方案Seata源码解析

Java 分布式 分布式事务

如何进行需求梳理及埋点方案设计

易观大数据

以中立性的立场看Severless的目标和流派

韩超

云原生 serverles

Python的四种作用域及调用顺序

BigYoung

Python 局部作用域 全局作用域

聊聊Dubbo(二):简单入门

猿灯塔

林左鸣 史瑞华:人类应鼎力进行的探索

CECBC

防止数据重复提交的6种方法(超简单)!

王磊

Java

《北京市政务服务领域区块链应用创新蓝皮书(第一版)》正式发布

CECBC

可读代码编写炸鸡六 - 控制流尽量向前奔涌就好,不要分心

多选参数

代码 代码优化 代码规范 可读代码编写 可读代码

数十家技术社区联名推荐的GeekOnline来了!

Geek_116789

单例模式的几种写法你用的哪种?

Java小咖秀

Java 设计模式 23种设计模式

【API进阶之路】老板给我涨薪30%!如何通过SDK接口搞定千万级流量直播

华为云开发者联盟

运维 服务器 直播 云服务 华为云

朱嘉明:区块链成为经济转型、形成产业新业态的技术手段

CECBC

第六周作业

腾志文(清样)

平价又好用的学习电脑小轩PRO来啦,为孩子创造超强学习体验

最新动态

Flask-Restful 中 fileds.DateTime 不支持 strftime 格式

Leetao

Python flask web开发 Python框架 flask-restful

Netflix如何重新定义视频、音频和文本的数据工程_数据湖仓_InfoQ精选文章