腾讯视频生成大模型上线即开源：图/视频DiT同时具备Scaling Law_AI&大模型_褚杏娟



1.0x 

大小：790.64K时长：04:29

12 月 3 日，腾讯混元大模型正式上线并开源视频生成大模型 Hunyuan video，该视频生成大模型参数量 130 亿，是当前最大的视频开源模型。

官网：https://aivideo.hunyuan.tencent.com

代码：https://github.com/Tencent/HunyuanVideo

模型：https://huggingface.co/tencent/HunyuanVideo

技术报告：https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

腾讯混元相关负责人透露，目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝 APP，用户可在 AI 应用中的“AI 视频”板块申请试用。企业客户通过腾讯云提供服务接入，目前 API 同步开放内测申请。

基本架构

腾讯混元生成视频大模型基于跟 Sora 类似的 DiT 架构，并在架构设计上进行了多处升级。

腾讯负责人表示，经过实践发现，图/视频 DiT 同时具备 Scaling law，后续随算力和数据可以持续升级。Hunyuan video 作为首版 130 亿参数模型，严格基于 Scaling law 高效利用数据。

Hunyuan Video 引入了 Transformer，并采用 Full Attention 机制，实现了图像和视频的统一生成。具体来说，该模型采用了“双流转单流”的混合模型设计来进行视频生成。在双流阶段，视频和文本 token 通过多个 Transformer 块独立处理，这使得每个模态都能学习到适合自己的调节机制，而不会相互干扰。在单流阶段，模型将视频和文本 token 连接起来，并输入到后续的 Transformer 块中，实现了有效的多模态信息融合。Hunyuan Video 利用这种设计来捕捉视觉和语义信息之间的复杂交互，从而提升整体模型的性能。

先前的文本到视频模型通常使用预训练的 CLIP 和 T5-XXL 作为文本编码器，其中 CLIP 采用 Transformer 编码器，而 T5 则使用编码器-解码器结构。Hunyuan Video 则采用了具有 Decoder-only 结构的预训练多模态大型语言模型（MLLM）作为文本编码器。据介绍，与 T5 相比，经过视觉指令微调后的 MLLM 在特征空间中实现了更好的图像-文本对齐，减轻了扩散模型中指令跟踪的难度；与 CLIP 相比，MLLM 在图像细节描述和复杂推理方面表现更佳。此外，MLLM 可以通过遵循用户提示前面的系统指令来充当零样本学习者，这有助于文本特征更多地关注关键信息。

HunyuanVideo 利用 CausalConv3D 技术训练了一个 3D VAE（变分自编码器），将像素空间中的视频和图像压缩到一个紧凑的潜在空间里。混元对视频的长度、空间和通道分别进行了 4 倍、8 倍和 16 倍的压缩比设置。这样可以显著减少后续模型中的 token 数，从而能以视频的原始分辨率和帧速率进行训练。

此外，为了解决用户的提示词的语言风格和长度多变性问题，混元对 Hunyuan-Large 模型进行了微调作为提示重写模型。

实测效果

腾讯方面表示，混元文生视频主要的优势能力在于：超写实质感：模型生成的视频内容具备高清质感、真实感，可用于工业级商业场景例如广告宣传、创意视频生成等商业应用；高语义遵循：用户可以进行细致的刻画，例如生成主体的细节，人物概念的组合等，模型可以准确的表达出文本的内容；运动画面流畅：可生成大幅度的合理运动，运动镜头流畅、符合物理规律，不易变形；原生镜头转换：模型原生具备自动生成多视角同主体的镜头切换画面，增强画面叙事感。

那么，实测效果如何呢？

针对这次模型强调的写实风格，我们再输入提示词：“战火中，一个头发凌乱、衣衫褴褛的小女孩蹲在废墟中，远方天空飞来一架战机，写实风格”生成的视频如下：

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

生成过程中，我们选择了“速度优先”，因此会比选择“画质优先”的损失一些画质。但可以看出，生成的视频也很好表达了提示词要表达的意思。

然后，我们还试了下动漫风格，输入提示词：“两只熊猫在竹林打架，动漫风格”，生成的视频如下：

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

这个动漫风格看起来比较偏 3D。

输入提示词：“在唐朝的街道上，一个机器人正在与一只怪兽打架，周围都是慌乱逃跑的人群，写实风格”，生成的视频如下：

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

整个试用还是需要一定的等待时间，不过完成后混元会发短信提醒。

根据团队在与国内外多个顶尖模型的评测，混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先。

发布

暂无评论

创作场景

腾讯视频生成大模型上线即开源：图 / 视频 DiT 同时具备 Scaling Law

基本架构

实测效果

评论

【架构师训练营 1 期】第八周学习总结

第八周总结

架构师训练营第八周课程笔记及心得

week4-一个典型的大型互联网应用系统使用了哪些技术方案和手段，主要解决什么问题？请列举描述。

week4-作业二：根据当周学习情况，完成一篇学习总结

架构师训练营第一期 - 第八周课后作业

架构师训练营第一期 - 第八周学习总结

漫画：一分钟快速了解VPN

第四周作业总结

架构师训练营第四周总结

性能优化（文件、数据结构、算法、网络IO）

架构师训练营 2 期 Week04 总结

极客大学 - 架构师训练营第九周

【架构师训练营 1 期】第八周作业

虽然世界给我们变化，但让我们的人生更向幸福靠近一点点，而入门票就是自学这回事

浅谈软件研发管理体系建设

第八周性能优化（二）总结

Week 8 作业01

Week4 系统架构

第四周作业

第四周总结

第八周

架构师 01 期，第八周课后作业

架构训练营 - 第8周课后作业 - 学习总结

找出两个链表中合并的元素

互联网应用架构目标及技术方案

架构师训练营 2 期 Week04 作业

架构第八周作业

架构师训练营 - 第 8 周课后作业（1 期）

第8周作业

架构师训练营第四周作业

创作场景

腾讯视频生成大模型上线即开源：图 / 视频 DiT 同时具备 Scaling Law

基本架构

实测效果

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载