9 月 13 日,2025 Inclusion・外滩大会「开源嘉年华」正在限量报名中! 了解详情
写点什么

腾讯混元发布并开源图像模型 2.1,支持原生 2K 生图

  • 2025-09-10
    北京
  • 本文字数:1438 字

    阅读完需:约 5 分钟

大小:729.78K时长:04:09
腾讯混元发布并开源图像模型2.1,支持原生2K生图

9 月 9 日深夜,腾讯发布并开源混元最新的生图模型“混元图像 2.1(HunyuanImage 2.1)” 。该模型综合能力业界领先,支持原生 2K 高清生图。同时,腾讯混元团队透露,即将发布原生多模态图像生成模型。

 

混元图像 2.1 是一款全面开源的基座模型,目前模型权重和代码已在 Hugging Face、GitHub 等开源社区正式发布,个人和企业开发者均可基于这一基础模型开展研究,或开发各类衍生模型与插件。

 

Github:

https://github.com/Tencent-Hunyuan/HunyuanImage-2.1

Hugging Face:

https://huggingface.co/tencent/HunyuanImage-2.1

 

混元图像 2.1 模型在开源后,在 Hugging Face 模型热度榜热度迅速攀升,一跃而成全球第三热门模型。在该榜单前八名中,有三位是腾讯混元模型家族。

 


据悉,混元图像 2.1 在 2.0 架构的基础上全面升级,更加注重生成效果与性能之间的平衡。新版本不仅支持中英文的原生输入,还能够实现中英文文本与复杂语义的高质量生成。同时,在生成图片的整体美学表现和适用场景的多样性方面,都有了显著提升。

 

这意味着,设计师、插画师等视觉创作者能够更加高效、便捷地将自己的创意转化为画面。无论是生成高保真的创意插画,还是制作包含中英文宣传语的海报和包装设计,亦或是复杂的四格漫画与连环画,混元图像 2.1 都能为创作者提供快速、高质量的支持。

 

得益于更大规模的图文对齐数据集,混元图像 2.1 在复杂语义理解和跨领域泛化能力上有了显著提升。它支持最长达 1000 个 tokens 的提示词,可精准生成场景细节、人物表情和动作,实现多物体的分别描述与控制。此外,混元图像 2.1 还能够对图像中的文字进行精细控制,使文字信息与画面自然融合。

 

据介绍,混元图像 2.1 有以下三个亮点。

 

  • 亮点 1:模型对复杂语义理解能力强,支持多主体分别描述与精确生成。


  

  • 亮点 2:对图像中的文字和场景细节的把控更为稳定。

 

 

  • 亮点 3:支持风格丰富,如真人、漫画与搪胶手办等,并具备较高美感。

 

 

从 SSAE(Structured Semantic Alignment Evaluation) 的评估结果上看,腾讯混元图像模型 2.1 在语义对齐上目前达到了开源模型上最优的效果,并且非常接近闭源商业模型 (GPT-Image) 的效果。


 

同时,GSB(Good Same Bad) 评测结果表明,HunyuanImage 2.1 的图像生成质量与闭源商业模型 Seedream3.0 相当,同时相较于同类开源模型 Qwen-Image 略优。

 

 

据介绍,混元图像 2.1 模型不仅采用了海量训练数据,还利用结构化、不同长度、内容多样的 caption,极大提升了对文本描述的理解能力。在 caption 模型中,引入了 OCR 和 IP RAG 专家模型,有效增强了对复杂文字识别和世界知识的响应能力。

 

为大幅降低计算量、提升训练和推理效率,模型采用了 32 倍超高压缩倍率的 VAE, 并使用 dinov2 对齐和 repa loss 来降低训练难度。因此,模型能高效原生生成 2K 图。

 

在文本编码方面,混元图像 2.1 配备了双文本编码器:一个 MLLM 模块用于进一步提升图文对齐能力,另一个 ByT5 模型则增强了文字生成表现力。整体架构为 17B 参数的单/双流 DiT 模型。

 

 

此外,混元图像 2.1 还在 17B 参数量级的模型上解决了平均流模型(meanflow)的训练稳定性问题,将模型推理步数由 100 步蒸馏到 8 步,显著提升推理速度的同时保证了模型原有的效果。

 

同步开源的混元文本改写模型(PromptEnhancer)是业内首个系统化、工业级的中英文改写模型,能够对用户的文本指令进行结构化优化,丰富视觉表达,使改写后的文本生成图像的语义表现得到大幅提升。

 

官方表示,此次推出的原生 2K 模型混元图像 2.1 在效果与性能之间实现了更好的平衡,能够满足用户和企业在多样化视觉场景下的多种需求。

2025-09-10 15:394

评论

发布
暂无评论

使用Zabbix监控TiDB(二)

TiDB 社区干货传送门

监控

数据库架构升级选型 - TiDB

TiDB 社区干货传送门

数据库架构选型

TiDB 海量 region 集群调优实践

TiDB 社区干货传送门

性能调优 管理与运维

TiDB大规模节点下线实践

TiDB 社区干货传送门

性能调优

TiKV 多副本丢失的故障修复演练

TiDB 社区干货传送门

故障排查/诊断

tikv下线Pending Offline卡住排查思路

TiDB 社区干货传送门

故障排查/诊断

【喜大普奔】zabbix 能监控 tidb 集群了 && tidb 能存储 zabbix 监控数据了

TiDB 社区干货传送门

监控

在x86和arm混合部署架构下排查TiKV节点内存占用极高的问题

TiDB 社区干货传送门

性能调优 故障排查/诊断

MySQL 和 TiDB 互相快速导入全量数据

TiDB 社区干货传送门

迁移

TiDB 性能优化实践

TiDB 社区干货传送门

性能调优 性能测评

血泪教训 TiKV多副本丢失unsafe-recover恢复记录

TiDB 社区干货传送门

故障排查/诊断

这么多TiDB负载均衡方案总有一款适合你

TiDB 社区干货传送门

实践案例 管理与运维

TiUP cluster 用到的三个账户

TiDB 社区干货传送门

安装 & 部署

为TiDB DM添加阿里云RDS/DMS Online DDL支持

TiDB 社区干货传送门

实践案例

如何理解TiDB允许广义上的幻读

TiDB 社区干货传送门

TiDB 底层架构

陆金所金融核心场景数据库的去 O 之路

TiDB 社区干货传送门

实践案例

PD 三类选主流程梳理

TiDB 社区干货传送门

TiDB 底层架构

TiDB 5.0 在TPCH和SSB基准测试下OLAP方面的能力表现

TiDB 社区干货传送门

版本测评

TiDB集群之中控不可用,怎么办?

TiDB 社区干货传送门

管理与运维 故障排查/诊断

高可用测试:KILL TiKV-Server,事务 TPS 掉零现象解读

TiDB 社区干货传送门

TiDB 5.0 VS MySQL 8.0 性能对比测试

TiDB 社区干货传送门

版本测评

TiDB 5.0 部分新特性试用

TiDB 社区干货传送门

版本测评 新版本/特性发布 性能测评

PD 客户端源码分析

TiDB 社区干货传送门

安装 & 部署

数字化转型背后的 TiDB(地产行业)

TiDB 社区干货传送门

实践案例

【案例】汽车之家 - 一次业务优化解决读写冲突的案例,提升 5 倍性能

TiDB 社区干货传送门

性能调优

悲观事务死锁检测

TiDB 社区干货传送门

TiDB 底层架构

TiDB 在 OPPO 准实时数据仓库中的实践

TiDB 社区干货传送门

实践案例

Prometheus 中 histogram_quantile 函数相关的若干问题

TiDB 社区干货传送门

监控

TiDB 5.2 发版 ——“交易+分析”双引擎提速,挑战极限业务场景

TiDB 社区干货传送门

新版本/特性发布

58 同城 TiDB 4.0 报告

TiDB 社区干货传送门

实践案例 数据库架构选型

br 备份到 s3 时 endpoint 参数加目录分隔符后缀问题排查

TiDB 社区干货传送门

管理与运维

腾讯混元发布并开源图像模型2.1,支持原生2K生图_AI&大模型_褚杏娟_InfoQ精选文章