腾讯文生图大模型全面开源！首个中文原生DiT架构，支持中英双语理解生成_生成式 AI_华卫



 写点什么



1.0x 

大小：1.00M时长：05:50

作者 | 华卫

5 月 14 日，腾讯宣布旗下的混元文生图大模型全面升级并对外开源，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

开源代码库链接： https://github.com/Tencent/HunyuanDiT

“混元 DiT 开源的价值主要有两方面，一是作为中文原生 DiT 架构，弥补了开源社区的空白；二是混元 DiT 为全面开源，与现网版本完全一致。”腾讯混元文生图负责人卢清林表示。

据介绍，这是业内首个中文原生的 DiT 架构文生图开源模型，支持中英文双语输入及理解，参数量 15 亿。升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构，不仅可支持文生图，也可作为视频等多模态视觉生成的基础。其评测数据显示，新一代的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型。

三大能力升级

效果比前代提升超 20%

最新的腾讯混元文生图大模型主要进行了算子、语言编码器、多轮绘图能力三方面的升级。

首先是架构，该模型从 U-Net 架构升级至 DiT 架构（DiT，即 Diffusion With Transformer），后者也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术。“为构建混元 DiT，腾讯设计了 Transformer 结构、文本编码器和位置编码，构建了完整的数据管道，用于更新和评估数据。”卢清林表示。

腾讯混元团队认为，基于 Transformer 架构的扩散模型（如 DiT）具有更大的可扩展性，很可能成为下一代主流视觉生成架构：未来，DiT 架构很可能会成为文生图、生视频、生 3D 等多模态视觉生成的统一架构。

据介绍，从 2023 年 7 月起，腾讯混元文生图团队就明确了基于 DiT 架构的模型方向，并启动了新一代模型研发。今年初，混元文生图大模型已全面升级为 DiT 架构。

其次是语音编码器方面，混元文生图大模型是中文原生的 DiT 模型，具备中英文双语理解及生成能力，在古诗词、俚语、传统建筑、中华美食等中国元素的生成上有良好表现，中文输入后直接中文理解，避免了因翻译产生的语义分歧。

目前 Stable Diffusion 等主流开源模型核心数据集以英文为主，对中国的语言、美食、文化、习俗都理解不够，在中文应用场景受限，很多团队还是基于翻译+英文开源 Stable diffusion 模型，导致在中文特有的场景、人物、事物上表现比较差。还有一些团队基于少量的中文数据在一些特殊的场景做了 finetune，让模型去适配某个特殊的领域或者风格，但直接用英文预训练的模型+中文小数据 finetune 也存在对中文理解不足和不通用的问题。

腾讯官方的评测结果显示，新一代腾讯混元文生图大模型视觉生成整体效果的相比前代提升超过 20%，在语义理解、画面质感与真实性方面全面提升，在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

在 DiT 架构之上，腾讯混元团队还在算法层面优化了模型的长文本理解能力，能够支持最多 256 字符的内容输入，同时实现了多轮生图和对话能力，可实现在一张初始生成图片的基础上，通过自然语言描述进行调整，来达到更满意的效果。

填补开源 DiT 架构空白

版本同步现网

“我们认为，建设中文原生的文生图开源模型、中文的文生图开源生态十分必要。”据悉，腾讯开源的混元文生图模型 Tencent-Hunyuan-Visual 1.9，与实际生产环境中的最新版本完全一致，包括 C 端用户能体验到的微信小程序和 Web 版本、个人和企业开发者能体验到的云 API 版本，均可免费商用。

此次混元文生图模型开源后，开发者及企业无需重头训练，即可直接将其用于推理，并可基于此打造专属的 AI 绘画应用及服务，能够节约大量人力及算力。透明公开的算法，也可以让该模型的安全性和可靠性得到保障。

“目前开源社区中技术快速迭代，但缺乏先进、成熟的 DiT 架构可以开源利用。”卢清林表示，在目前 DiT 架构已经呈现出巨大潜力的情况下，开源社区是存在一定空白的。文生图大模型领域的开源开发者生态已经形成，但依然主要基于 U-Net 架构模型进行开发，仍未有比较先进的 DiT 架构充分开源。

基于开放、前沿的混元文生图基础模型，有利于在以 Stable Diffusion 等为主的英文开源社区之外，丰富以中文为主的文生图开源生态，形成更多样的原生插件，推动中文文生图技术研发和应用。

现在腾讯混元文生图能力，已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初，腾讯广告基于腾讯混元大模型，发布了一站式 AI 广告创意平台腾讯广告妙思，可为广告主提供文生图、图生图、商品背景合成等多场景创意工具。

腾讯文生图负责人芦清林表示：“腾讯混元文生图的研发思路就是实用，坚持从实践中来，到实践中去。此次把最新一代模型完整开源出来，是希望与行业共享腾讯在文生图领域的实践经验和研究成果，丰富中文文生图开源生态，共建下一代视觉生成开源生态”

据了解，腾讯在开源上一直持开放态度，已开源了超 170 个优质项目，均来源于腾讯真实业务场景，覆盖微信、腾讯云、腾讯游戏、腾讯 AI、腾讯安全等核心业务板块，目前在 Github 上已累计获得超 47 万开发者关注及点赞。

发布

暂无评论

创作场景

腾讯文生图大模型全面开源！首个中文原生 DiT 架构，支持中英双语理解生成

评论

presto是如何保证作业内存不会发生冲突和溢出

最好的 6 个 React Table 组件详细亲测推荐

Jetpack Compose之在Compose中使用Navigation导航

网络安全：绕过MSF的一次渗透测试

5G 和 Wi-Fi 市场与技术的一些思考系列之二

一周热点回顾｜虎符交易所上线多链合一；俄央行称加强监控加密资产等P2P交易

使用 ABAP 开发的一个基于 Web Socket 的小工具，能提高程序员日常工作效率

如何在新公司快速落地

RocketMQ的tag还有这个“坑”！

Redis集群架构剖析(3)：集群处理redis-cli指令

Redis：在windows环境安装Redis

聊聊 C 语言和 ABAP 这两门编程语言的关系

多场景推进服务网格在联通的落地实践（下）

计算机编码规则之:Base64编码

Kubernetes API规范：为optional的字段使用pointer

大数据培训十大Hive调优技巧

春分耕种时，AI“现身”田间地头

科幻变现实：喷下即疗愈，生物3D打印绘就生命密码图

HertzBeat赫兹节拍 v1.0.beta.6 发布，Linux监控来啦

深入浅出 Vue3 核心知识点

如何消除代码山中那一大坨参数列表

Python迎来31岁生日，蝉联年度编程语言排行榜冠军

743 网络延迟时间

昇腾CANN论文上榜CVPR，全景图像生成算法交互性再增强！

Rust的Cow类型

一文搞定 Flutter 底部弹窗实现

WebAssembly技术_JS调用C函数示例_传递参数、方法导出

☕️从Java8到Java17的新特性（一）：Java8 的新特性

云效DevOps全家桶评测征集令重磅来袭！免费使用云效全套功能

小程序电商微服务设计

《软件开发的201个原则》思考：4. 高质量软件是可以实现的

创作场景

腾讯文生图大模型全面开源！首个中文原生 DiT 架构，支持中英双语理解生成

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载