写点什么

腾讯视频生成大模型上线即开源:图 / 视频 DiT 同时具备 Scaling Law

  • 2024-12-04
    北京
  • 本文字数:1636 字

    阅读完需:约 5 分钟

大小:790.64K时长:04:29
腾讯视频生成大模型上线即开源:图/视频DiT同时具备Scaling Law

12 月 3 日,腾讯混元大模型正式上线并开源视频生成大模型 Hunyuan video,该视频生成大模型参数量 130 亿,是当前最大的视频开源模型。

 

官网:https://aivideo.hunyuan.tencent.com

代码:https://github.com/Tencent/HunyuanVideo

模型:https://huggingface.co/tencent/HunyuanVideo

技术报告:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

 

腾讯混元相关负责人透露,目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝 APP,用户可在 AI 应用中的“AI 视频”板块申请试用。企业客户通过腾讯云提供服务接入,目前 API 同步开放内测申请。

 

基本架构

 

腾讯混元生成视频大模型基于跟 Sora 类似的 DiT 架构,并在架构设计上进行了多处升级。


 

腾讯负责人表示,经过实践发现,图/视频 DiT 同时具备 Scaling law,后续随算力和数据可以持续升级。Hunyuan video 作为首版 130 亿参数模型,严格基于 Scaling law 高效利用数据。

 

Hunyuan Video 引入了 Transformer,并采用 Full Attention 机制,实现了图像和视频的统一生成。具体来说,该模型采用了“双流转单流”的混合模型设计来进行视频生成。在双流阶段,视频和文本 token 通过多个 Transformer 块独立处理,这使得每个模态都能学习到适合自己的调节机制,而不会相互干扰。在单流阶段,模型将视频和文本 token 连接起来,并输入到后续的 Transformer 块中,实现了有效的多模态信息融合。Hunyuan Video 利用这种设计来捕捉视觉和语义信息之间的复杂交互,从而提升整体模型的性能。


 

先前的文本到视频模型通常使用预训练的 CLIP 和 T5-XXL 作为文本编码器,其中 CLIP 采用 Transformer 编码器,而 T5 则使用编码器-解码器结构。Hunyuan Video 则采用了具有 Decoder-only 结构的预训练多模态大型语言模型(MLLM)作为文本编码器。据介绍,与 T5 相比,经过视觉指令微调后的 MLLM 在特征空间中实现了更好的图像-文本对齐,减轻了扩散模型中指令跟踪的难度;与 CLIP 相比,MLLM 在图像细节描述和复杂推理方面表现更佳。此外,MLLM 可以通过遵循用户提示前面的系统指令来充当零样本学习者,这有助于文本特征更多地关注关键信息。

 

HunyuanVideo 利用 CausalConv3D 技术训练了一个 3D VAE(变分自编码器),将像素空间中的视频和图像压缩到一个紧凑的潜在空间里。混元对视频的长度、空间和通道分别进行了 4 倍、8 倍和 16 倍的压缩比设置。这样可以显著减少后续模型中的 token 数,从而能以视频的原始分辨率和帧速率进行训练。

 

此外,为了解决用户的提示词的语言风格和长度多变性问题,混元对 Hunyuan-Large 模型进行了微调作为提示重写模型。

 

实测效果


腾讯方面表示,混元文生视频主要的优势能力在于:超写实质感:模型生成的视频内容具备高清质感、真实感,可用于工业级商业场景例如广告宣传、创意视频生成等商业应用;高语义遵循:用户可以进行细致的刻画,例如生成主体的细节,人物概念的组合等,模型可以准确的表达出文本的内容;运动画面流畅:可生成大幅度的合理运动,运动镜头流畅、符合物理规律,不易变形;原生镜头转换:模型原生具备自动生成多视角同主体的镜头切换画面,增强画面叙事感。

 

那么,实测效果如何呢?

 

针对这次模型强调的写实风格,我们再输入提示词:“战火中,一个头发凌乱、衣衫褴褛的小女孩蹲在废墟中,远方天空飞来一架战机,写实风格”生成的视频如下:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    生成过程中,我们选择了“速度优先”,因此会比选择“画质优先”的损失一些画质。但可以看出,生成的视频也很好表达了提示词要表达的意思。

     

    然后,我们还试了下动漫风格,输入提示词:“两只熊猫在竹林打架,动漫风格”,生成的视频如下:

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      这个动漫风格看起来比较偏 3D。


      输入提示词:“在唐朝的街道上,一个机器人正在与一只怪兽打架,周围都是慌乱逃跑的人群,写实风格”,生成的视频如下:

       

      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


         整个试用还是需要一定的等待时间,不过完成后混元会发短信提醒。

         

        根据团队在与国内外多个顶尖模型的评测,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先。

         

        2024-12-04 18:2010601

        评论

        发布
        暂无评论
        发现更多内容

        如何制作登录界面

        海瞳Seapupil

        带你认识图数据库性能和场景测试利器LDBC SNB

        华为云开发者联盟

        人工智能 华为云 图数据库

        Vue3 - $attrs 的几种用法(1个或多个根元素、Options API 和 Composition API)

        德育处主任

        Vue composition-api 组件通信 6月月更 Vue透传

        国内首家!EMQ加入亚马逊云科技“初创加速-全球合作伙伴网络计划”

        EMQ映云科技

        物联网 IoT emq 亚马逊 6月月更

        什么是 ICMP ?ping和ICMP之间有啥关系?

        wljslmz

        网络协议 ping ICMP 6月月更

        跟着官方文档学 Python 之:简介

        甜甜的白桃

        Python 零基础 6月月更

        在线文本按行批量反转工具

        入门小站

        工具

        Bit.Store:熊市漫漫,稳定Staking产品或成主旋律

        小哈区块

        OpenSSF 安全计划:SBOM 将驱动软件供应链安全

        SEAL安全

        软件物料清单

        数仓的字符截取三胞胎:substrb、substr、substring

        华为云开发者联盟

        数据库 后端 开发 华为云

        Bit.Store:熊市漫漫,稳定Staking产品或成主旋律

        西柚子

        大数据性能提升28%!阿里云新一代本地SSD实例i4开放公测

        阿里云弹性计算

        大数据 io SSD NoSQL 数据库

        SQL报了一个不常见的错误,让新来的实习生懵了

        华为云开发者联盟

        数据库 sql 程序员 后端 华为云

        开箱即用!Linux 内核首个原生支持,让你的容器体验飞起来!| 龙蜥技术

        阿里巴巴云原生

        Linux 阿里云 容器 云原生

        如何使用物联网低代码平台进行画面管理?

        AIRIOT

        低代码 物联网 低代码开发 低代码开发平台 低代码,项目开发

        【干货分享】红黑树硬核讲解

        C++后台开发

        后端开发 红黑树 linux开发 Linux内核 C++开发

        2022年第一季度消费金融APP用户洞察——总数达4479万人

        易观分析

        消费金融

        拥抱云原生:江苏移动订单中心实践

        鲸品堂

        云原生

        4种方法教你如何查看java对象所占内存大小

        华为云开发者联盟

        Java 开发 内存 代码

        2022年中国音频市场年度综合分析

        易观分析

        音频市场

        【ELT.ZIP】OpenHarmony啃论文俱乐部—数据密集型应用内存压缩

        ELT.ZIP

        OpenHarmony 压缩数据 压缩算法 ELT.ZIP

        Substrate 源码追新导读: 4月底重大更新: Nomination Pool 即将上线, NFT增加锁定功能

        彭亚伦

        Substrate 波卡 波卡生态

        大促场景下,如何做好网关高可用防护

        阿里巴巴云原生

        阿里云 高可用 云原生 网关 高可用微服务

        NFT双币质押流动性挖矿dapp合约定制

        开发微hkkf5566

        基于 Nebula Graph 构建百亿关系知识图谱实践

        NebulaGraph

        知识图谱 Nebula Graph

        Hi,你有一份Code Review攻略待查收!

        Jianmu

        后端 Code Review 代码规范 SonarQube checkstyle

        Bit.Store:熊市漫漫,稳定Staking产品或成主旋律

        鳄鱼视界

        可观测,才可靠:云上自动化运维CloudOps系列沙龙 第一弹

        阿里云弹性计算

        DevOps 可观测性 自动化运维 CloudOps

        从科研创新到产业落地 华为发布人工智能大模型全流程使能体系

        科技热闻

        【ELT.ZIP】OpenHarmony啃论文俱乐部—见证文件压缩系统EROFS

        ELT.ZIP

        OpenHarmony 压缩数据 压缩算法 ELT.ZIP

        工作流自动化 低代码是关键

        力软低代码开发平台

        腾讯视频生成大模型上线即开源:图/视频DiT同时具备Scaling Law_AI&大模型_褚杏娟_InfoQ精选文章