10 月 23 - 25 日,QCon 上海站即将召开,9折优惠最后2天 了解详情
写点什么

腾讯混元发布并开源图像模型 2.1,支持原生 2K 生图

  • 2025-09-10
    北京
  • 本文字数:1438 字

    阅读完需:约 5 分钟

大小:729.78K时长:04:09
腾讯混元发布并开源图像模型2.1,支持原生2K生图

9 月 9 日深夜,腾讯发布并开源混元最新的生图模型“混元图像 2.1(HunyuanImage 2.1)” 。该模型综合能力业界领先,支持原生 2K 高清生图。同时,腾讯混元团队透露,即将发布原生多模态图像生成模型。

 

混元图像 2.1 是一款全面开源的基座模型,目前模型权重和代码已在 Hugging Face、GitHub 等开源社区正式发布,个人和企业开发者均可基于这一基础模型开展研究,或开发各类衍生模型与插件。

 

Github:

https://github.com/Tencent-Hunyuan/HunyuanImage-2.1

Hugging Face:

https://huggingface.co/tencent/HunyuanImage-2.1

 

混元图像 2.1 模型在开源后,在 Hugging Face 模型热度榜热度迅速攀升,一跃而成全球第三热门模型。在该榜单前八名中,有三位是腾讯混元模型家族。

 


据悉,混元图像 2.1 在 2.0 架构的基础上全面升级,更加注重生成效果与性能之间的平衡。新版本不仅支持中英文的原生输入,还能够实现中英文文本与复杂语义的高质量生成。同时,在生成图片的整体美学表现和适用场景的多样性方面,都有了显著提升。

 

这意味着,设计师、插画师等视觉创作者能够更加高效、便捷地将自己的创意转化为画面。无论是生成高保真的创意插画,还是制作包含中英文宣传语的海报和包装设计,亦或是复杂的四格漫画与连环画,混元图像 2.1 都能为创作者提供快速、高质量的支持。

 

得益于更大规模的图文对齐数据集,混元图像 2.1 在复杂语义理解和跨领域泛化能力上有了显著提升。它支持最长达 1000 个 tokens 的提示词,可精准生成场景细节、人物表情和动作,实现多物体的分别描述与控制。此外,混元图像 2.1 还能够对图像中的文字进行精细控制,使文字信息与画面自然融合。

 

据介绍,混元图像 2.1 有以下三个亮点。

 

  • 亮点 1:模型对复杂语义理解能力强,支持多主体分别描述与精确生成。


  

  • 亮点 2:对图像中的文字和场景细节的把控更为稳定。

 

 

  • 亮点 3:支持风格丰富,如真人、漫画与搪胶手办等,并具备较高美感。

 

 

从 SSAE(Structured Semantic Alignment Evaluation) 的评估结果上看,腾讯混元图像模型 2.1 在语义对齐上目前达到了开源模型上最优的效果,并且非常接近闭源商业模型 (GPT-Image) 的效果。


 

同时,GSB(Good Same Bad) 评测结果表明,HunyuanImage 2.1 的图像生成质量与闭源商业模型 Seedream3.0 相当,同时相较于同类开源模型 Qwen-Image 略优。

 

 

据介绍,混元图像 2.1 模型不仅采用了海量训练数据,还利用结构化、不同长度、内容多样的 caption,极大提升了对文本描述的理解能力。在 caption 模型中,引入了 OCR 和 IP RAG 专家模型,有效增强了对复杂文字识别和世界知识的响应能力。

 

为大幅降低计算量、提升训练和推理效率,模型采用了 32 倍超高压缩倍率的 VAE, 并使用 dinov2 对齐和 repa loss 来降低训练难度。因此,模型能高效原生生成 2K 图。

 

在文本编码方面,混元图像 2.1 配备了双文本编码器:一个 MLLM 模块用于进一步提升图文对齐能力,另一个 ByT5 模型则增强了文字生成表现力。整体架构为 17B 参数的单/双流 DiT 模型。

 

 

此外,混元图像 2.1 还在 17B 参数量级的模型上解决了平均流模型(meanflow)的训练稳定性问题,将模型推理步数由 100 步蒸馏到 8 步,显著提升推理速度的同时保证了模型原有的效果。

 

同步开源的混元文本改写模型(PromptEnhancer)是业内首个系统化、工业级的中英文改写模型,能够对用户的文本指令进行结构化优化,丰富视觉表达,使改写后的文本生成图像的语义表现得到大幅提升。

 

官方表示,此次推出的原生 2K 模型混元图像 2.1 在效果与性能之间实现了更好的平衡,能够满足用户和企业在多样化视觉场景下的多种需求。

2025-09-10 15:393946

评论

发布
暂无评论

与用户“同频”,海尔空调带来行业第三次科技革命

脑极体

绿色 空调

语音数据标注平台让语音识别技术更精准

数据堂

软件测试 | 在Linux平台下安装MySQL

测吧(北京)科技有限公司

测试

定了!12支队伍进入HarmonyOS极客马拉松2023决赛

HarmonyOS开发者

HarmonyOS

唯一一家!国际测评:文心大模型3.5总分第一,算法模型第一,行业覆盖第一

飞桨PaddlePaddle

人工智能 百度 大模型 文心一言 文心大模型

软件测试 | Windows平台下配置MySQL

测吧(北京)科技有限公司

测试

NFTScan 与 Purelist 达成战略合作伙伴,双方在 NFT 一级发售方面展开合作

NFT Research

NFT\ 市场

陈毅威“掌舵”SUSE 中国 3.0,谋势数字江湖

Rancher

永续期权合约交易所系统开发案例(成品)

薇電13242772558

交易所

利用增强现实技术辅助跨国传输大文件的优化

镭速

阿里云瑶池 PolarDB 开源官网焕新升级

阿里云数据库开源

polarDB PolarDB-X PolarDB-PG 阿里云PolarDB

DTT直播回顾:一文带你全面了解openGemini

华为云开源

时序数据库 开源数据库 openGemini

一些可以极大提高工作效率的 Linux 命令

互联网工科生

Linux 自动化运维

语音标注平台是推动人工智能发展的关键工具之一

数据堂

Windows10 下 Neo4j1.5.8 安装教程

北桥苏

Python neo4j 图数据库 py2neo 知识问答系统

使用可视化低代码工具提高开发效率

互联网工科生

低代码 可视化开发 JNPF

语音标注平台是构建智能语音技术的重要基石

数据堂

异步 I/O 探秘 —— 为什么说 Go 为我们提供了同步的网络编程接口 ?

蓬蒿

golang 异步IO asynchronous i/o netpoller

阿里云中“间“力量!RocketMQ

指剑

阿里云 RocketMQ 函数计算FC 事件总线Eventbridge

Flink SQL 双表 JOIN 介绍与原理简析

腾讯云大数据

流计算 Oceanus

减少跨国传输大文件所需时间的技巧与工具

镭速

跨国传输大文件

一步一图带你构建 Linux 页表体系 —— 详解虚拟内存如何与物理内存进行映射

bin的技术小屋

内存管理 Linux Kenel Linux内核 页表 Linux内核源码

打翻夏日调色盘,华为与你多巴胺一“夏”

最新动态

借助Databuff,快捷构建Kubernetes可观测能力

乘云数字DataBuff

LLaVA:将视觉微调引入大模型

Zilliz

计算机视觉 LLM 大语言模型 模型微调

腾讯混元发布并开源图像模型2.1,支持原生2K生图_AI&大模型_褚杏娟_InfoQ精选文章