AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

  • 2024-10-16
    北京
  • 本文字数:1111 字

    阅读完需:约 4 分钟

大小:573.79K时长:03:15
火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

10 月 15 日,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案,助力解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前,该技术方案已应用于豆包视频生成模型。


对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。


抖音集团视频架构负责人王悦表示,对大模型厂商而言,上述过程中面临着诸多挑战:首先,超大规模视频训练数据集导致计算和处理成本激增;其次,视频样本数据参差不齐;然后,处理链路环节多、工程复杂;最后,面临着对 GPU、CPU、ARM 等多种异构算力资源的调度部署难题。


借助 Intel 的 CPU 等资源,火山引擎发布了大模型训练视频预处理方案依托于自研的多媒体处理框架 BMF,以有效应对模型训练的算力成本挑战。此外,该方案还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。值得一提的是,火山引擎本次还发布并开源了移动端后处理解决方案 BMF lite 版本。BMF lite 支持端侧大模型接入和算子加速,更加轻量、通用。


Bytedance Research 负责人李航介绍,豆包视频生成模型 PixelDance 在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。火山引擎视频云团队提供的点播解决方案还为 PixelDance 生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。


豆包视频生成模型 PixelDance 于 9 月 24 日发布,该模型采用 DiT 架构,通过高效的 DiT 融合计算单元和全新设计的扩散模型训练方法,突破了多主体运动的复杂交互、多镜头切换的内容一致性难题,在业界引起广泛关注。目前,豆包视频生成模型已通过火山引擎面向企业开启邀测。


火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式 AI 实时交互方案和 AIG3D& 大场景重建方案,从视频的生产端、交互端到消费端,全链路融入了 AI 的能力。


以对话式 AI 实时交互方案为例,依托豆包大模型和火山引擎视频云自研的多项算法,火山引擎为用户提供了智能对话和自然语言处理的强大能力,可实现毫秒级人声检测和打断响应,以及丝滑稳定的端到端响应体验。


此外,王悦还透露了字节自研视频编解码芯片的最新进展,经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了 95% 以上,还在 2024MSU 世界编码器大赛中一举夺得最佳 ASIC 编码器。王悦表示,该芯片将于近期正式对外开放测试,招募首批种子用户,共同探索商业价值的可复制性。


2024-10-16 15:498987

评论

发布
暂无评论
发现更多内容

面试进阶必备:“阿里爸爸”高并发秒杀架构设计笔记(全彩版)

Java 架构 面试 程序人生 编程语言

NodeJs 全栈创建多文件断点续传

devpoint

大前端 upload 引航计划 10月月更

大前端:入门CSS的编程世界~

Bob

CSS 大前端 引航计划

【Vuex 源码学习】第八篇 - Vuex 对 State 状态的处理

Brave

源码 vuex 10月月更

linux之history命令

入门小站

Linux

在线RGB和HEX十六进制颜色互转工具

入门小站

工具

音视频全链路开发实践|引航计划|音视频

轻口味

音视频 引航计划 内容合集 技术专题合集

金九银十一线大厂Java面试题大全(整理版)1000+面试题附答案详解,最全面详细!

Java 程序员 架构 面试 后端

这份笔记太牛了!手把手教你从零开始搭建Spring Cloud Alibaba!

Java 架构 面试 程序人生 编程语言

惊艳!阿里出产的MyCat性能笔记,带你领略什么叫细节爆炸

Java 架构 面试 程序人生 编程语言

金九银十旗开得胜!秋招字节正式批4面,顺利拿到offer

Java 架构 面试 程序人生 编程语言

什么是机器学习, CNN TensorFlow by Google神经网络深度学习 易筋 ARTS 打卡 Week 69

John(易筋)

ARTS 打卡计划

架构实战营模块九作业

maybe

Python代码阅读(第33篇):反转字典

Felix

Python 编程 Code Programing 阅读代码

Zabbix VS Prometheus :哪个更适合你

耳东@Erdong

后端 Prometheus zabbix 引航计划 10月月更

私有云部署系列之动态IP获取(程序编写)

稻草鸟人

Spark 系列教程(2)运行模式介绍

Se7en

(深入篇)漫游语音识别技术—带你走进语音识别技术的世界

攻城先森

深度学习 音视频 nlp 语音识别

为什么感觉假期还没开始就快要结束了?

脑极体

【Flutter 专题】36 图解 Flutter 基本动画 (一)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 10月月更

009云原生之分布式事务模式

穿过生命散发芬芳

云原生 10月月更

靠这份GitHub star过万的1121页图解算法成功杀进字节跳动

Java 架构 面试 程序人生 编程语言

自我提升:方法探索

程序员架构进阶

自我管理 时间管理 自我提升 10月月更

【初恋系列】我轻轻的走了,正如我轻轻的来(微博评论实战)

人工智能~~~

高可用 高性能 微博评论架构实战

模块五作业

Geek_fc100d

「架构实战营」

大数据作业Spark sql

Clarke

从零开发一款Android Rtmp播放器

轻口味

android 音视频 引航计划 10月月更

🏆【Alibaba工具型技术系列】「EasyExcel技术专题」实战技术针对于项目中常用的Excel操作指南

码界西柚

Excel EasyExcel Alibaba Alibaba技术 10月月更

模块六作业

Geek_fc100d

「架构实战营」

Android平台音视频实战|引航计划|音视频

轻口味

音视频 引航计划 内容合集 技术专题合集

12道Zookeeper高频面试题,你顶得住吗?

Java 架构 面试 分布式 后端

火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型_AI&大模型_褚杏娟_InfoQ精选文章