写点什么

火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

  • 2024-10-16
    北京
  • 本文字数:1111 字

    阅读完需:约 4 分钟

大小:573.79K时长:03:15
火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

10 月 15 日,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案,助力解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前,该技术方案已应用于豆包视频生成模型。


对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。


抖音集团视频架构负责人王悦表示,对大模型厂商而言,上述过程中面临着诸多挑战:首先,超大规模视频训练数据集导致计算和处理成本激增;其次,视频样本数据参差不齐;然后,处理链路环节多、工程复杂;最后,面临着对 GPU、CPU、ARM 等多种异构算力资源的调度部署难题。


借助 Intel 的 CPU 等资源,火山引擎发布了大模型训练视频预处理方案依托于自研的多媒体处理框架 BMF,以有效应对模型训练的算力成本挑战。此外,该方案还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。值得一提的是,火山引擎本次还发布并开源了移动端后处理解决方案 BMF lite 版本。BMF lite 支持端侧大模型接入和算子加速,更加轻量、通用。


Bytedance Research 负责人李航介绍,豆包视频生成模型 PixelDance 在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。火山引擎视频云团队提供的点播解决方案还为 PixelDance 生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。


豆包视频生成模型 PixelDance 于 9 月 24 日发布,该模型采用 DiT 架构,通过高效的 DiT 融合计算单元和全新设计的扩散模型训练方法,突破了多主体运动的复杂交互、多镜头切换的内容一致性难题,在业界引起广泛关注。目前,豆包视频生成模型已通过火山引擎面向企业开启邀测。


火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式 AI 实时交互方案和 AIG3D& 大场景重建方案,从视频的生产端、交互端到消费端,全链路融入了 AI 的能力。


以对话式 AI 实时交互方案为例,依托豆包大模型和火山引擎视频云自研的多项算法,火山引擎为用户提供了智能对话和自然语言处理的强大能力,可实现毫秒级人声检测和打断响应,以及丝滑稳定的端到端响应体验。


此外,王悦还透露了字节自研视频编解码芯片的最新进展,经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了 95% 以上,还在 2024MSU 世界编码器大赛中一举夺得最佳 ASIC 编码器。王悦表示,该芯片将于近期正式对外开放测试,招募首批种子用户,共同探索商业价值的可复制性。


2024-10-16 15:499315

评论

发布
暂无评论
发现更多内容

腾讯面试:大厂必问消息队列场景面试题

王中阳Go

腾讯 消息队列 面试问题

喜讯!云起无垠获评“国家高新技术企业”认证

云起无垠

利用大语言模型(LLM)增强软件测试自动化的最佳实践

测试人

软件测试

📊Univer Go : 通过AI一键翻译电子表格单元格内容,轻松提效

梦数技术团队

Python JavaScript 前端 Excel spreadsheet

人设崩塌还是对行业心寒?ZachXBT:这么多年终究是错付了

TechubNews

比特币 加密市场

陪玩预约系统搭建,打造专业游戏陪玩平台 聚焦游戏畅玩,定制专属陪玩预约

DUOKE七七

从Tiktok 用户涌入小红书事件看OLTP 数据库如何应对突发流量

晨章数据

NoSQL 数据库 kv 数据库、

英伟达 RTX 5090 震撼发布,RTX 4090 会降价吗?

Finovy Cloud

显卡 4090 5090

游戏与硬件深度协同,打造更精细的体验优化

HarmonyOS SDK

harmoyos

AI与人类智能:互补还是取代?

天津汇柏科技有限公司

AI 人工智能

第84期 | GPTSecurity周报

云起无垠

DNS解析防护应措施有哪些?

国科云

云起无垠荣获“北京市2024年第三季度专精特新中小企业”称号

云起无垠

2024 TiDB 社区年度总结,又携手共进了一年,2025年,一起迎接变化,挑战变化!

TiDB 社区干货传送门

兼具个人成长、科技新知、文学艺术,这份华为阅读新春书单请查收

最新动态

改变财务规划思维方式,迎接创新技术新时代

智达方通

财务分析 预算管理 财务规划 创新技术

加入Karmada用户组!连接全球同行共建多集群生态

华为云原生团队

云计算 容器 云原生

博睿数据获中国信通院泰尔终端实验室致谢!

博睿数据

艺术藏品NFT的开发流程

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

百度智能云曦灵推出春节功能:一张照片即可生成拜年视频!

科技热闻

KwaiCoder-23BA4-v1:以 1/30 的成本训练全尺寸 SOTA 代码续写大模型

快手技术

人工智能 快手 #大模型 Kwaipilot 代码续写大模型

五金行业MES生产管理系统有哪些优势?

万界星空科技

制造业 mes 万界星空科技 五金行业 五金制品行业

数据从前端传到后端入库过程分析

能源恒观

java数据类型

火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型_AI&大模型_褚杏娟_InfoQ精选文章