2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

腾讯视频生成大模型上线即开源:图 / 视频 DiT 同时具备 Scaling Law

  • 2024-12-04
    北京
  • 本文字数:1636 字

    阅读完需:约 5 分钟

大小:790.64K时长:04:29
腾讯视频生成大模型上线即开源:图/视频DiT同时具备Scaling Law

12 月 3 日,腾讯混元大模型正式上线并开源视频生成大模型 Hunyuan video,该视频生成大模型参数量 130 亿,是当前最大的视频开源模型。

 

官网:https://aivideo.hunyuan.tencent.com

代码:https://github.com/Tencent/HunyuanVideo

模型:https://huggingface.co/tencent/HunyuanVideo

技术报告:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

 

腾讯混元相关负责人透露,目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝 APP,用户可在 AI 应用中的“AI 视频”板块申请试用。企业客户通过腾讯云提供服务接入,目前 API 同步开放内测申请。

 

基本架构

 

腾讯混元生成视频大模型基于跟 Sora 类似的 DiT 架构,并在架构设计上进行了多处升级。


 

腾讯负责人表示,经过实践发现,图/视频 DiT 同时具备 Scaling law,后续随算力和数据可以持续升级。Hunyuan video 作为首版 130 亿参数模型,严格基于 Scaling law 高效利用数据。

 

Hunyuan Video 引入了 Transformer,并采用 Full Attention 机制,实现了图像和视频的统一生成。具体来说,该模型采用了“双流转单流”的混合模型设计来进行视频生成。在双流阶段,视频和文本 token 通过多个 Transformer 块独立处理,这使得每个模态都能学习到适合自己的调节机制,而不会相互干扰。在单流阶段,模型将视频和文本 token 连接起来,并输入到后续的 Transformer 块中,实现了有效的多模态信息融合。Hunyuan Video 利用这种设计来捕捉视觉和语义信息之间的复杂交互,从而提升整体模型的性能。


 

先前的文本到视频模型通常使用预训练的 CLIP 和 T5-XXL 作为文本编码器,其中 CLIP 采用 Transformer 编码器,而 T5 则使用编码器-解码器结构。Hunyuan Video 则采用了具有 Decoder-only 结构的预训练多模态大型语言模型(MLLM)作为文本编码器。据介绍,与 T5 相比,经过视觉指令微调后的 MLLM 在特征空间中实现了更好的图像-文本对齐,减轻了扩散模型中指令跟踪的难度;与 CLIP 相比,MLLM 在图像细节描述和复杂推理方面表现更佳。此外,MLLM 可以通过遵循用户提示前面的系统指令来充当零样本学习者,这有助于文本特征更多地关注关键信息。

 

HunyuanVideo 利用 CausalConv3D 技术训练了一个 3D VAE(变分自编码器),将像素空间中的视频和图像压缩到一个紧凑的潜在空间里。混元对视频的长度、空间和通道分别进行了 4 倍、8 倍和 16 倍的压缩比设置。这样可以显著减少后续模型中的 token 数,从而能以视频的原始分辨率和帧速率进行训练。

 

此外,为了解决用户的提示词的语言风格和长度多变性问题,混元对 Hunyuan-Large 模型进行了微调作为提示重写模型。

 

实测效果


腾讯方面表示,混元文生视频主要的优势能力在于:超写实质感:模型生成的视频内容具备高清质感、真实感,可用于工业级商业场景例如广告宣传、创意视频生成等商业应用;高语义遵循:用户可以进行细致的刻画,例如生成主体的细节,人物概念的组合等,模型可以准确的表达出文本的内容;运动画面流畅:可生成大幅度的合理运动,运动镜头流畅、符合物理规律,不易变形;原生镜头转换:模型原生具备自动生成多视角同主体的镜头切换画面,增强画面叙事感。

 

那么,实测效果如何呢?

 

针对这次模型强调的写实风格,我们再输入提示词:“战火中,一个头发凌乱、衣衫褴褛的小女孩蹲在废墟中,远方天空飞来一架战机,写实风格”生成的视频如下:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    生成过程中,我们选择了“速度优先”,因此会比选择“画质优先”的损失一些画质。但可以看出,生成的视频也很好表达了提示词要表达的意思。

     

    然后,我们还试了下动漫风格,输入提示词:“两只熊猫在竹林打架,动漫风格”,生成的视频如下:

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      这个动漫风格看起来比较偏 3D。


      输入提示词:“在唐朝的街道上,一个机器人正在与一只怪兽打架,周围都是慌乱逃跑的人群,写实风格”,生成的视频如下:

       

      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


         整个试用还是需要一定的等待时间,不过完成后混元会发短信提醒。

         

        根据团队在与国内外多个顶尖模型的评测,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先。

         

        2024-12-04 18:2010378

        评论

        发布
        暂无评论
        发现更多内容

        每日算法刷题Day12-跳台阶、排列、替换空格、求n累加

        timerring

        算法题 9月月更

        流计算中的Windows计算

        孤衫

        大数据 流计算 9月月更

        网络入侵检测系统之Snort(二)--数据流图与环境搭建

        于顾而言

        网络安全 ips

        DAYU200升级最新的OpenHarmony系统,一起来玩开源鸿蒙呀!

        坚果

        鸿蒙 OpenHarmony 9月月更

        图库

        武师叔

        NFTScan 正式发布 PlatON 网络 NFT 浏览器

        NFT Research

        NFT platon

        网络入侵检测系统之Snort(一)--snort概览

        于顾而言

        网络安全 ips

        网络入侵检测系统之Suricata(一)--概览

        于顾而言

        网络安全 suricata

        DPDK源码分析之rte_eal_init(一)

        于顾而言

        DPDK

        TO B的本质是“定制化”不变,“定制化”实现方式求变

        B Impact

        TO B

        计算机网络——奈式准则

        StackOverflow

        编程 计算机网络 9月月更

        二叉树的概念及三种遍历方法(C语言)

        孤衫

        后端 C语言 9月月更

        【指针内功修炼】深度剖析指针笔试题(三)

        Albert Edison

        C语言 9月月更 指针数组 数组指针

        图解Kafka Producer中的消息缓存模型

        石臻臻的杂货铺

        Kakfa 9月月更

        【云原生 | 从零开始学Docker】七丶实战提交自己的镜像以及docker网络

        泡泡

        Docker 云计算 容器 云原生 9月月更

        jquery入门到实战

        楠羽

        笔记 JQuery框架 9月月更

        新书上市 | Vue 3.0 核心源码解析,这本书给Vue学习提供新方法

        图灵教育

        前端 代码 VUE 3.0 源码

        企业容器云建设及推广的一点Tips

        穿过生命散发芬芳

        容器云 9月月更

        双活数据建设方案

        阿泽🧸

        双活 9月月更

        DPDK源码分析之网络基础知识

        于顾而言

        网络协议 DPDK

        【云原生 | 从零开始学Docker】六、如何写出自己的镜像——Docker file

        泡泡

        Docker 云计算 容器 云原生 9月月更

        架构师的十八般武艺:一致性

        agnostic

        CAP 一致性

        DPDK源码分析之DPDK技术简介

        于顾而言

        DPDK DPDK开发

        DPDK源码分析之rte_eal_init(二)

        于顾而言

        DPDK

        资本“呼唤”:走产品化路线,找得到PMF的云安全创业项目

        B Impact

        To B业务

        DPDK源码分析之DPDK基础概览

        于顾而言

        DPDK DPDK开发

        《新神榜:杨戬》亮点抢先看!追光新神话宇宙再添超燃国风巨作

        Renderbus瑞云渲染农场

        云渲染 云渲染农场 渲染农场 3D电影制作 CG动画电影

        DPDK源码分析之l2fwd

        于顾而言

        DPDK

        网络入侵检测系统之Snort(三)--优劣势与性能指标

        于顾而言

        网络安全

        【Meetup预告】OpenMLDB+37手游:一键查收实时特征计算场景案例及进阶使用攻略

        第四范式开发者社区

        机器学习 数据库 实时计算 特征平台 特征工程

        新书上市 | Vue 3.0 核心源码解析,这本书给 Vue 学习提供新方法

        图灵社区

        前端 代码 VUE 3.0 源码

        腾讯视频生成大模型上线即开源:图/视频DiT同时具备Scaling Law_AI&大模型_褚杏娟_InfoQ精选文章