2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

  • 2024-10-16
    北京
  • 本文字数:1111 字

    阅读完需:约 4 分钟

大小:573.79K时长:03:15
火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

10 月 15 日,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案,助力解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前,该技术方案已应用于豆包视频生成模型。


对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。


抖音集团视频架构负责人王悦表示,对大模型厂商而言,上述过程中面临着诸多挑战:首先,超大规模视频训练数据集导致计算和处理成本激增;其次,视频样本数据参差不齐;然后,处理链路环节多、工程复杂;最后,面临着对 GPU、CPU、ARM 等多种异构算力资源的调度部署难题。


借助 Intel 的 CPU 等资源,火山引擎发布了大模型训练视频预处理方案依托于自研的多媒体处理框架 BMF,以有效应对模型训练的算力成本挑战。此外,该方案还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。值得一提的是,火山引擎本次还发布并开源了移动端后处理解决方案 BMF lite 版本。BMF lite 支持端侧大模型接入和算子加速,更加轻量、通用。


Bytedance Research 负责人李航介绍,豆包视频生成模型 PixelDance 在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。火山引擎视频云团队提供的点播解决方案还为 PixelDance 生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。


豆包视频生成模型 PixelDance 于 9 月 24 日发布,该模型采用 DiT 架构,通过高效的 DiT 融合计算单元和全新设计的扩散模型训练方法,突破了多主体运动的复杂交互、多镜头切换的内容一致性难题,在业界引起广泛关注。目前,豆包视频生成模型已通过火山引擎面向企业开启邀测。


火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式 AI 实时交互方案和 AIG3D& 大场景重建方案,从视频的生产端、交互端到消费端,全链路融入了 AI 的能力。


以对话式 AI 实时交互方案为例,依托豆包大模型和火山引擎视频云自研的多项算法,火山引擎为用户提供了智能对话和自然语言处理的强大能力,可实现毫秒级人声检测和打断响应,以及丝滑稳定的端到端响应体验。


此外,王悦还透露了字节自研视频编解码芯片的最新进展,经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了 95% 以上,还在 2024MSU 世界编码器大赛中一举夺得最佳 ASIC 编码器。王悦表示,该芯片将于近期正式对外开放测试,招募首批种子用户,共同探索商业价值的可复制性。


2024-10-16 15:499108

评论

发布
暂无评论
发现更多内容

VMware vSphere 9.0 下载 - 企业级工作负载平台

sysin

vSphere

高效缓存的10条军规

电子尖叫食人鱼

缓存

重磅揭秘!AI 搜索的 “链接是真,内容是编” 迷惑术!

Techinsight

聊点技术 | PodMonitor与ServiceMonitor:Kubernetes 监控利器

博睿数据

深度剖析:AI 搜索的幻觉引用,为何如此难以察觉?

Techinsight

大模型幻觉 #大模型

科研数学软件:MATLAB R2024a完整版安装教程

Rose

2025 开源之夏开启报名|AI + 云原生,10个开源项目、24个课题任您挑选

阿里巴巴云原生

阿里云 开源 云原生

VMware vCenter Server 9.0 下载 - 集中管理 vSphere 环境

sysin

vcenter

VMware ESXi 9.0 下载 - 领先的裸机 Hypervisor

sysin

esxi

AI 应用大起底:从生活场景到行业局限全知晓

Techinsight

#人工智能 AI 大底座 人工智能、

01.数组深入浅出分析

杨充

java哪有这细糠啊,PHP是世界上最好的语言!

程序员郭顺发

硬核剧透!龙蜥社区系统运维联盟 MeetUp 全议程来啦

OpenAnolis小助手

AI 操作系统 系统运维 龙蜥社区 龙蜥meetup

RPA机器人流程自动化如何优化人力资源工作流程

Techinsight

人力资源 RPA评测 人力资源管理

龙蜥开发者说:200+PR 背后的成长,且看他在社区的开源故事 | 第 31 期

OpenAnolis小助手

操作系统 龙蜥社区 龙蜥开发者说

天润融通助力卡尔蔡司,用可视化服务提升客户体验

天润融通

重拾童年,用 CodeBuddy 做自己的快乐创作者

不惑

CodeBuddy首席试玩官

阿里巴巴 MCP 分布式落地实践:快速转换 HSF 到 MCP server

阿里巴巴云原生

阿里云 云原生 Higress

科研党必备!FlowJo 10 助力流式细胞术分析,一键出图,拒绝繁琐

Rose

HR 必看!RPA 如何帮你从繁琐人资工作中 “解脱”?

Techinsight

人力云 人力资源产业

RPA机器人如何确保敏感数据的安全性

Techinsight

数据安全 #数据

F5《2025年应用战略现状》报告:AI 落地加速,企业战略从讨论迈向行动

科技热闻

Cosmos on PAI系列一:PAI-Model Gallery云上一键部署NVIDIA Cosmos Reason-1

阿里云大数据AI技术

人工智能 应用开发 Cosmos 模型服务 PAI

小红书私信如何高效管理?天润融通一站式客服解决方案来了!

天润融通

AlmaLinux 9.6 正式版发布 - RHEL 二进制兼容免费发行版

sysin

AlmaLinux

MySQL 可观测性最佳实践

观测云

MySQL

阿里云 Serverless 助力海牙湾构建弹性、高效、智能的 AI 数字化平台

阿里巴巴云原生

阿里云 Serverless 云原生

龙蜥操作系统衍生版 KOS 助力云天化石化打造卓越智能工厂 | 龙蜥案例

OpenAnolis小助手

操作系统 龙蜥社区 龙蜥案例 Anolis OS

天润融通:Agent驱动的人效革命,引领客户服务智能化转型

天润融通

提高IT运维效率,深度解读京东云AIOps落地实践(异常检测篇)

京东科技开发者

秒懂 AI Agent:概念、能力与智能体差异全解析

Techinsight

agent #人工智能 人工智能、

火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型_AI&大模型_褚杏娟_InfoQ精选文章