写点什么

腾讯混元 3D 生成大模型 2.0 开源发布:大幅升级,几何与纹理解耦,3D 生成更逼真

  • 2025-01-22
    北京
  • 本文字数:1665 字

    阅读完需:约 5 分钟

腾讯混元3D生成大模型2.0开源发布:大幅升级,几何与纹理解耦,3D生成更逼真

近日,腾讯混元正式宣布开源其 3D 生成大模型 2.0 版本,并推出业界首个一站式 3D 内容 AI 创作平台——“混元 3D AI 创作引擎”。该引擎集成了从文本/图像生成 3D,到 3D 动画、纹理生成、低面数模型生成、个性化 3D 人物定制以及 3D 小游戏创作等能力,为创作者和企业提供了可快速搭建 3D 创作管线的全流程解决方案。开发者可在 GitHub、Hugging Face 等社区获取最新的模型与代码,普通用户也可通过线上平台直接体验。


混元 3D AI 创作引擎 https://3d.hunyuan.tencent.com/

代码仓库: https://github.com/tencent/Hunyuan3D-2

模型权重:https://huggingface.co/tencent/Hunyuan3D-2


据腾讯混元方面介绍,相较于此前开源的 1.0 版本,新发布的 2.0 版本最大的技术突破在于实现了几何与纹理的解耦生成,生成效果更加精细。几何大模型由 Hunyuan3D-DiT 与 Hunyuan ShapeVAE 组成,能够生成高精度白模,几乎接近专业设计师手工建模的水准;纹理大模型 Hunyuan3D-Paint 则采用多视图扩散技术,为模型提供逼真的贴图与材质。



评测数据显示,在 In-the-wild 测试集上,2.0 版本在 CLIP Maximum Mean Discrepancy(CMMD)、Frechet Inception Distance(FID)以及 CLIP-score 等多项指标上均优于目前业界先进的开源或闭源模型。


整体模型比较


几何模型比较


纹理模型比较


值得注意的是,此次同步上线的“混元 3D AI 创作引擎”定位于“低门槛、一站式”。平台功能覆盖了 3D 建模生成、骨骼动画驱动、纹理生成与替换、草图生 3D、3D 人物生成、3D 小游戏创作等多个环节。例如:


  • 文生 3D、图生 3D:输入提示词或上传图片,即可快速生成 3D 模型,可选择不同材质风格,并支持 PBR 贴图,让生成结果更具真实感;

  • 端到端生成低多边形 low-poly 模型:可根据物体复杂度自适应生成数百至数千面的三角面,既保留模型细节,又方便在游戏引擎中渲染;

  • 3D 动画生成:可为角色模型自动绑定骨骼,选择动作模板进行驱动;

  • 草图生 3D:一张简笔画加几句文字描述,即可完成 3D 内容创作;

  • 3D 人物生成:上传一张人像,选择不同主题模板即可生成个性化 3D 形象;

  • 3D 小游戏创作:只需上传头像并选定角色模板,一键生成专属 IP 角色的小游戏动画视频。



此外,创作引擎还支持以“工作流”形式快速搭建 3D 生产管线。用户可以通过节点化搭建,批量生成、编辑 3D 内容,更好地适配游戏美术、动画制作等专业场景。


目前,3D AIGC 技术在游戏制作、社交、电商广告、工业制造、具身智能、自动驾驶、AR/VR 等多个领域已开始加速落地。例如,在游戏开发中,AIGC 工具可以大量生成高质量游戏角色、场景、道具等 3D 资产,以此提高开发效率、缩短制作周期;电商广告可用 3D 生成快速搭建创意商品模型;工业设计中也可借助 AI 大模型验证产品原型。


腾讯游戏在研项目研发制作人王智刚在受访中提到,在游戏制作管线中,特别是美术环节,传统手工方式往往耗时较长,比如一个高精度模型需要数周甚至更久。随着混元 3D 的引入,一些初级模型的制作成本已显著降低,很多时候只需进行少量人工修补即可投入使用。“我们并不指望一开始就让 AI 替代所有流程,这是渐进式的过程,AI 能帮忙解决很多问题,人工再修一下,减少我们的工作量,这是很好的事。”


尽管 3D 生成的应用前景被广泛看好,但腾讯混元 3D 负责人郭春超在受访时亦坦言,3D 视频生成的技术成熟度还未到发展的拐点,但它正快速迭代,视觉合格率仅用一年时间就从 20%提升到 60%的水平。他提到,3D AIGC 目前依然面临数据和技术方面的挑战。


一方面,相比于文本、图像和视频,3D 训练数据的规模相对有限,模型要在“几何+纹理”融合的复杂度上达到更高水平,还需要持续投入和更多场景数据;另一方面,3D 模型本身相对于别的模态约束比较少,与视频在时序上一帧一帧地演进不同,3D 模型可以在空间上任意“转动”“变形”,每一个视角、每一帧都可能是一个独立的全新图像,从技术特点本身而言,要解决的挑战也会更大。


当被问及混元 3D 未来发展方向时,郭春超表示,团队将继续在“纵向深挖”与“横向拓展”两方面发力。“纵向”指的是持续提升单体模型的精度和可控度,“横向”则是继续沿着 3D 内容制作管线的需求,将更多功能模块化、标准化,并与其他模态(如文本、视频)进行深度融合。

2025-01-22 11:1217989

评论

发布
暂无评论
发现更多内容

字节的面试,感觉还挺简单的~

王中阳Go

Go 后端 面试题

人工智能如何影响社会公平与资源分配?

天津汇柏科技有限公司

AI 人工智能

Zilliz Cloud上新:容量提升3倍、享5折优惠,支持高精度搜索

Zilliz

zilliz cloud

2024 TiDB 社区年度总结,又携手共进了一年,2025年,一起迎接变化,挑战变化!

TiDB 社区干货传送门

Code Review:提升代码质量与团队能力的利器

京东科技开发者

WebGL技术开发MR应用

北京木奇移动技术有限公司

软件外包公司 webgl开发 MR应用

向量数据库真的能满足所有 AI Agent 的记忆需求吗?

Baihai IDP

程序员 AI LLMs AI Agents

WebGL 技术开发 MR 应用的技术难点

北京木奇移动技术有限公司

软件外包公司 webgl开发 MR应用

TiDB7.5.5版本加索引巨慢问题梳理

TiDB 社区干货传送门

7.x 实践

从0到1:琴房预订小程序开发笔记(上)

CC同学

以技术创新引领数据要素行业发展,隐语开源社区2024迈上新台阶!

隐语SecretFlow

1 行命令引发的Go应用崩溃

阿里技术

阿里云 命令 排查 Go应用

探究获取亚马逊畅销榜API接口及实战应用

科普小能手

数据挖掘 数据分析 电商 亚马逊 API 接口

语义检索效果差?深度学习rerank VS 统计rerank选哪个

Zilliz

Milvus 重排 语义搜索 混合搜索

技术干货丨 OptiStruct 非线性之前车门过开分析(内附模型下载)

Altair RapidMiner

CAE 汽车仿真 仿真设计 车门仿真 非线性仿真

TiDB 的 TiFlash 怎么用 | TiFlash 的最佳场景&稳定性管理

TiDB 社区干货传送门

7.x 实践

Linux内存泄露案例分析和内存管理分享

京东科技开发者

nginx适配Overlay以及测试工具

天翼云开发者社区

nginx 虚拟化

CST软件如何仿真GPS上半球空间的辐射占比

思茂信息

cst cst操作 CST软件

测试右移的价值与实践体系:打造高效软件测试之路

测试人

软件测试

WebGL 技术在 AR 中的应用及其优势

北京木奇移动技术有限公司

软件外包公司 webgl开发 AR应用

文档解析技术指南:从传统Pipeline到端到端大模型

Baihai IDP

程序员 AI 文档理解 LLMs

测试三大难题之一:“测试有效性”的应对策略

测试人

软件测试

WebGL 开发 VR 应用的技术难点

北京木奇移动技术有限公司

VR开发 软件外包公司 webgl开发

腾讯一面,感觉问Redis的难度不是很大

王中阳Go

redis 腾讯 面试 面试问题

一文让你对mysql索引底层实现明明白白

京东科技开发者

主机防护如何更安全、高效? HSS新增多种特性,让你少走弯路

华为云开发者联盟

华为云 主机安全 云图说 新版本

泳池机器人Aiper,从价值链高处“游”进全球庭院

脑极体

AI

你知道网络安全相关法律法规都有哪些吗?看这里!

行云管家

网络安全 堡垒机

分布式系统架构7:本地缓存

卷福同学

Java 分布式 后端

腾讯混元3D生成大模型2.0开源发布:大幅升级,几何与纹理解耦,3D生成更逼真_腾讯_罗燕珊_InfoQ精选文章