写点什么

腾讯混元 3D 生成大模型 2.0 开源发布:大幅升级,几何与纹理解耦,3D 生成更逼真

  • 2025-01-22
    北京
  • 本文字数:1665 字

    阅读完需:约 5 分钟

腾讯混元3D生成大模型2.0开源发布:大幅升级,几何与纹理解耦,3D生成更逼真

近日,腾讯混元正式宣布开源其 3D 生成大模型 2.0 版本,并推出业界首个一站式 3D 内容 AI 创作平台——“混元 3D AI 创作引擎”。该引擎集成了从文本/图像生成 3D,到 3D 动画、纹理生成、低面数模型生成、个性化 3D 人物定制以及 3D 小游戏创作等能力,为创作者和企业提供了可快速搭建 3D 创作管线的全流程解决方案。开发者可在 GitHub、Hugging Face 等社区获取最新的模型与代码,普通用户也可通过线上平台直接体验。


混元 3D AI 创作引擎 https://3d.hunyuan.tencent.com/

代码仓库: https://github.com/tencent/Hunyuan3D-2

模型权重:https://huggingface.co/tencent/Hunyuan3D-2


据腾讯混元方面介绍,相较于此前开源的 1.0 版本,新发布的 2.0 版本最大的技术突破在于实现了几何与纹理的解耦生成,生成效果更加精细。几何大模型由 Hunyuan3D-DiT 与 Hunyuan ShapeVAE 组成,能够生成高精度白模,几乎接近专业设计师手工建模的水准;纹理大模型 Hunyuan3D-Paint 则采用多视图扩散技术,为模型提供逼真的贴图与材质。



评测数据显示,在 In-the-wild 测试集上,2.0 版本在 CLIP Maximum Mean Discrepancy(CMMD)、Frechet Inception Distance(FID)以及 CLIP-score 等多项指标上均优于目前业界先进的开源或闭源模型。


整体模型比较


几何模型比较


纹理模型比较


值得注意的是,此次同步上线的“混元 3D AI 创作引擎”定位于“低门槛、一站式”。平台功能覆盖了 3D 建模生成、骨骼动画驱动、纹理生成与替换、草图生 3D、3D 人物生成、3D 小游戏创作等多个环节。例如:


  • 文生 3D、图生 3D:输入提示词或上传图片,即可快速生成 3D 模型,可选择不同材质风格,并支持 PBR 贴图,让生成结果更具真实感;

  • 端到端生成低多边形 low-poly 模型:可根据物体复杂度自适应生成数百至数千面的三角面,既保留模型细节,又方便在游戏引擎中渲染;

  • 3D 动画生成:可为角色模型自动绑定骨骼,选择动作模板进行驱动;

  • 草图生 3D:一张简笔画加几句文字描述,即可完成 3D 内容创作;

  • 3D 人物生成:上传一张人像,选择不同主题模板即可生成个性化 3D 形象;

  • 3D 小游戏创作:只需上传头像并选定角色模板,一键生成专属 IP 角色的小游戏动画视频。



此外,创作引擎还支持以“工作流”形式快速搭建 3D 生产管线。用户可以通过节点化搭建,批量生成、编辑 3D 内容,更好地适配游戏美术、动画制作等专业场景。


目前,3D AIGC 技术在游戏制作、社交、电商广告、工业制造、具身智能、自动驾驶、AR/VR 等多个领域已开始加速落地。例如,在游戏开发中,AIGC 工具可以大量生成高质量游戏角色、场景、道具等 3D 资产,以此提高开发效率、缩短制作周期;电商广告可用 3D 生成快速搭建创意商品模型;工业设计中也可借助 AI 大模型验证产品原型。


腾讯游戏在研项目研发制作人王智刚在受访中提到,在游戏制作管线中,特别是美术环节,传统手工方式往往耗时较长,比如一个高精度模型需要数周甚至更久。随着混元 3D 的引入,一些初级模型的制作成本已显著降低,很多时候只需进行少量人工修补即可投入使用。“我们并不指望一开始就让 AI 替代所有流程,这是渐进式的过程,AI 能帮忙解决很多问题,人工再修一下,减少我们的工作量,这是很好的事。”


尽管 3D 生成的应用前景被广泛看好,但腾讯混元 3D 负责人郭春超在受访时亦坦言,3D 视频生成的技术成熟度还未到发展的拐点,但它正快速迭代,视觉合格率仅用一年时间就从 20%提升到 60%的水平。他提到,3D AIGC 目前依然面临数据和技术方面的挑战。


一方面,相比于文本、图像和视频,3D 训练数据的规模相对有限,模型要在“几何+纹理”融合的复杂度上达到更高水平,还需要持续投入和更多场景数据;另一方面,3D 模型本身相对于别的模态约束比较少,与视频在时序上一帧一帧地演进不同,3D 模型可以在空间上任意“转动”“变形”,每一个视角、每一帧都可能是一个独立的全新图像,从技术特点本身而言,要解决的挑战也会更大。


当被问及混元 3D 未来发展方向时,郭春超表示,团队将继续在“纵向深挖”与“横向拓展”两方面发力。“纵向”指的是持续提升单体模型的精度和可控度,“横向”则是继续沿着 3D 内容制作管线的需求,将更多功能模块化、标准化,并与其他模态(如文本、视频)进行深度融合。

2025-01-22 11:128615

评论

发布
暂无评论

华为云与北大BIOPIC联合发布蛋白质多序列比对开源数据集

华为云开发者联盟

AI 华为云 蛋白质 多序列 开源数据集

TDSQL金融级特性之:数据强一致性保障

腾讯云数据库

数据库 tdsql

张宏江出席HICOOL 2021全球创业者峰会,阐述AI研究与创业新机遇

硬科技星球

人工智能 大模型时代 悟道2.0

阿里IM技术分享(三):闲鱼亿级IM消息系统的架构演进之路

JackJiang

架构 即时通讯 IM

IT大厂八股文更新上线的操作系统,刚上线点击量破百万!赶紧收藏

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

「TEG+系列」破局者 - 腾讯金融级数据库TDSQL

腾讯云数据库

数据库 tdsql

GraphQL 快速入门【2】环境设置

码语者

Rest graphql

TDSQL核心架构

腾讯云数据库

数据库 tdsql

SpringBoot 如何进行对象复制,老鸟们都这么玩的

Java 架构 后端 计算机 框架

吊打面试官必备-阿里内部性能优化实战手册

Java架构师迁哥

智慧物流可视化,能否解决购物节后的爆仓危机?

ThingJS数字孪生引擎

大前端 物联网 可视化 智慧物流 数字孪生

非科班杀进字节跳动,全靠GitHub公认最强的数据结构与算法笔记

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

TDSQL是什么:腾讯如何打造一款金融级分布式数据库

腾讯云数据库

数据库 tdsql

TDSQL数据同步和备份

腾讯云数据库

数据库 tdsql

Alibaba内部713页Java程序性能优化实战手册首次开放!大受好评

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

TDSQL核心特性:极具挑战的“四高”服务与安全可运维

腾讯云数据库

数据库 tdsql

爬虫初探: 一次爬虫的编写尝试

程序员架构进阶

实战问题 个人思考 9月日更 spider 搜索结果

Alibaba最新发布:2021最符合Java程序员的“学习路线”

Java架构师迁哥

分布式TDSQL的实践

腾讯云数据库

数据库 tdsql

代理服务器转发消息时的相关头部(qbit)

qbit

正向代理与反向代理 Proxy

马某兵VIP资料惨遭泄露,Java大厂面试手册,21年高频题版

Java架构师迁哥

什么?分布式事务现在不是都在用么?你还不会?

Java 架构 分布式 后端 计算机

简化IT运维工作,就要学会使用自动化运维工具!

行云管家

运维 云服务 IT运维

TDSQL inside之路

腾讯云数据库

数据库 tdsql

为抢人才,字节架构师竟将42W字「2021大厂真题集」,上传GitHub

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

TDSQL 全时态数据库系统 -- 典型案例

腾讯云数据库

数据库 tdsql

史诗级放水…字节3-2大牛分享350道Java岗真题,刷完获阿里offer

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

云资源生命周期管理怎么做?用什么软件好?

行云管家

云计算 云服务 云资源 生命周期管理

MYSQL离线迁移至分布式TDSQL

腾讯云数据库

数据库 tdsql

淘宝网 Java 千亿级并发系统架构设计笔记(全彩版小册开源)

Java 架构 面试 后端 高并发

字节内部进阶用的Java中高级岗技术图谱到底泄露了,和开源没区别

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

腾讯混元3D生成大模型2.0开源发布:大幅升级,几何与纹理解耦,3D生成更逼真_腾讯_罗燕珊_InfoQ精选文章