50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

  • 2024-10-16
    北京
  • 本文字数:1111 字

    阅读完需:约 4 分钟

大小:573.79K时长:03:15
火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

10 月 15 日,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案,助力解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前,该技术方案已应用于豆包视频生成模型。


对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。


抖音集团视频架构负责人王悦表示,对大模型厂商而言,上述过程中面临着诸多挑战:首先,超大规模视频训练数据集导致计算和处理成本激增;其次,视频样本数据参差不齐;然后,处理链路环节多、工程复杂;最后,面临着对 GPU、CPU、ARM 等多种异构算力资源的调度部署难题。


借助 Intel 的 CPU 等资源,火山引擎发布了大模型训练视频预处理方案依托于自研的多媒体处理框架 BMF,以有效应对模型训练的算力成本挑战。此外,该方案还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。值得一提的是,火山引擎本次还发布并开源了移动端后处理解决方案 BMF lite 版本。BMF lite 支持端侧大模型接入和算子加速,更加轻量、通用。


Bytedance Research 负责人李航介绍,豆包视频生成模型 PixelDance 在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。火山引擎视频云团队提供的点播解决方案还为 PixelDance 生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。


豆包视频生成模型 PixelDance 于 9 月 24 日发布,该模型采用 DiT 架构,通过高效的 DiT 融合计算单元和全新设计的扩散模型训练方法,突破了多主体运动的复杂交互、多镜头切换的内容一致性难题,在业界引起广泛关注。目前,豆包视频生成模型已通过火山引擎面向企业开启邀测。


火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式 AI 实时交互方案和 AIG3D& 大场景重建方案,从视频的生产端、交互端到消费端,全链路融入了 AI 的能力。


以对话式 AI 实时交互方案为例,依托豆包大模型和火山引擎视频云自研的多项算法,火山引擎为用户提供了智能对话和自然语言处理的强大能力,可实现毫秒级人声检测和打断响应,以及丝滑稳定的端到端响应体验。


此外,王悦还透露了字节自研视频编解码芯片的最新进展,经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了 95% 以上,还在 2024MSU 世界编码器大赛中一举夺得最佳 ASIC 编码器。王悦表示,该芯片将于近期正式对外开放测试,招募首批种子用户,共同探索商业价值的可复制性。


2024-10-16 15:499843

评论

发布
暂无评论
发现更多内容

字节跳动深夜公告,跨境电商迎来新机遇

Wolink

跨境贸易 中美贸易 Tiktok shop 沃链Wolink 达人营销

YashanDB数据库实施项目的全流程管理经验

数据库砖家

商汤大装置AI Agent Infra实践,加速智能时代创新效能

Lily

掌握YashanDB备份策略,保障企业数据安全

数据库砖家

YashanDB全链路监控的技术思路与实践

数据库砖家

鸿蒙项目开发——Window和Display获取屏幕信息

高心星

鸿蒙 window HarmonyOS5.1 display 屏幕管理

融媒体平台如何借力海外舆情监测提升国际传播影响力?

沃观Wovision

舆情监控 舆情监测 沃观Wovision 舆情监测系统 海外舆情监测

海外APP上线Google Play的过程

北京木奇科技有限公司

APP开发 软件外包公司 海外APP

掌握YashanDB数据库的查询优化技术,提高查询效率

数据库砖家

YashanDB数据库升级流程及版本兼容性注意点

数据库砖家

YashanDB数据库实时数据流处理的实用指南

数据库砖家

仁合医疗投资是真的吗?——进博会亮点,创新成果获赞誉

科技汇

做到高效管理:YashanDB数据库的实用方法

数据库砖家

助力中小企业上云,伊克罗德信息荣获Amazon SMB Competency能力认证!

伊克罗德信息科技

CST软件机箱屏蔽效能仿真案例

思茂信息

cst CST软件 CST Studio Suite

YashanDB升级迁移过程中减少风险和提高效率

数据库砖家

区块链APP的开发框架

北京木奇科技有限公司

dapp开发 区块链开发 软件外包公司

闲鱼商品详情API技术文档

tbapi

闲鱼API 闲鱼商品数据采集 闲鱼商品详情API 闲鱼商品数据分析

区块链DAPP的开发框架

北京木奇科技有限公司

dapp开发 区块链开发 软件外包公司

阿里团队发布智能体 iFlow CLI,性能超Claude Code,个人用户永久免费使用

新消费日报

BTrace

数新网络官方账号

GitHub btrace

天玑9500 GPU迈入PC级画质时代,安卓机秒变3A掌机

新消费日报

从混沌到秩序:Java共享内存模型如何通过显式约束驯服并发?

poemyang

并发编程 Java并发编程 竞态条件

面向中大型企业,Moka Eva 优化 AI招聘管理系统流程

科技汇

阿里将发布多模态模型 Qwen3-Omni,主打多语言与复杂推理;DeepvBrowser 上线 AI 语音浏览器丨日报

声网

YashanDB数据库实时数据处理的核心优势分析

数据库砖家

YashanDB数据库事务处理技术全面解析

数据库砖家

基于浏览器扩展 API Mock 工具开发探索|得物技术

得物技术

大前端

闲鱼API系列:如何通过商品列表接口构建智能比价工具

tbapi

闲鱼API 闲鱼商品列表接口 闲鱼数据采集 闲鱼商品列表api 闲鱼数据详情

YashanDB数据库实现数据共享的最佳实践方法

数据库砖家

火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型_AI&大模型_褚杏娟_InfoQ精选文章