腾讯混元发布并开源图像模型2.1，支持原生2K生图

9 月 9 日深夜，腾讯发布并开源混元最新的生图模型“混元图像 2.1（HunyuanImage 2.1）” 。该模型综合能力业界领先，支持原生 2K 高清生图。同时，腾讯混元团队透露，即将发布原生多模态图像生成模型。

混元图像 2.1 是一款全面开源的基座模型，目前模型权重和代码已在 Hugging Face、GitHub 等开源社区正式发布，个人和企业开发者均可基于这一基础模型开展研究，或开发各类衍生模型与插件。

Github：

Hugging Face：

混元图像 2.1 模型在开源后，在 Hugging Face 模型热度榜热度迅速攀升，一跃而成全球第三热门模型。在该榜单前八名中，有三位是腾讯混元模型家族。

据悉，混元图像 2.1 在 2.0 架构的基础上全面升级，更加注重生成效果与性能之间的平衡。新版本不仅支持中英文的原生输入，还能够实现中英文文本与复杂语义的高质量生成。同时，在生成图片的整体美学表现和适用场景的多样性方面，都有了显著提升。

这意味着，设计师、插画师等视觉创作者能够更加高效、便捷地将自己的创意转化为画面。无论是生成高保真的创意插画，还是制作包含中英文宣传语的海报和包装设计，亦或是复杂的四格漫画与连环画，混元图像 2.1 都能为创作者提供快速、高质量的支持。

得益于更大规模的图文对齐数据集，混元图像 2.1 在复杂语义理解和跨领域泛化能力上有了显著提升。它支持最长达 1000 个 tokens 的提示词，可精准生成场景细节、人物表情和动作，实现多物体的分别描述与控制。此外，混元图像 2.1 还能够对图像中的文字进行精细控制，使文字信息与画面自然融合。

据介绍，混元图像 2.1 有以下三个亮点。

从 SSAE（Structured Semantic Alignment Evaluation）的评估结果上看，腾讯混元图像模型 2.1 在语义对齐上目前达到了开源模型上最优的效果，并且非常接近闭源商业模型 (GPT-Image) 的效果。

同时，GSB（Good Same Bad) 评测结果表明，HunyuanImage 2.1 的图像生成质量与闭源商业模型 Seedream3.0 相当，同时相较于同类开源模型 Qwen-Image 略优。

据介绍，混元图像 2.1 模型不仅采用了海量训练数据，还利用结构化、不同长度、内容多样的 caption，极大提升了对文本描述的理解能力。在 caption 模型中，引入了 OCR 和 IP RAG 专家模型，有效增强了对复杂文字识别和世界知识的响应能力。

为大幅降低计算量、提升训练和推理效率，模型采用了 32 倍超高压缩倍率的 VAE, 并使用 dinov2 对齐和 repa loss 来降低训练难度。因此，模型能高效原生生成 2K 图。

在文本编码方面，混元图像 2.1 配备了双文本编码器：一个 MLLM 模块用于进一步提升图文对齐能力，另一个 ByT5 模型则增强了文字生成表现力。整体架构为 17B 参数的单/双流 DiT 模型。

此外，混元图像 2.1 还在 17B 参数量级的模型上解决了平均流模型（meanflow）的训练稳定性问题，将模型推理步数由 100 步蒸馏到 8 步，显著提升推理速度的同时保证了模型原有的效果。

同步开源的混元文本改写模型（PromptEnhancer）是业内首个系统化、工业级的中英文改写模型，能够对用户的文本指令进行结构化优化，丰富视觉表达，使改写后的文本生成图像的语义表现得到大幅提升。

官方表示，此次推出的原生 2K 模型混元图像 2.1 在效果与性能之间实现了更好的平衡，能够满足用户和企业在多样化视觉场景下的多种需求。

腾讯混元发布并开源图像模型 2.1，支持原生 2K 生图