2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

用 2D 照片创造出逼真的 3D 乐器,英伟达在 CVPR 2022 开了一场爵士乐“音乐会”

  • 2022-06-23
  • 本文字数:1372 字

    阅读完需:约 5 分钟

用2D照片创造出逼真的3D乐器,英伟达在CVPR 2022开了一场爵士乐“音乐会”

英伟达公布计算机图形学新进展,「可逆渲染流程」支持基于 2D 图像创建 3D 物体。


InfoQ 获悉,6 月 23 日,在新奥尔良举行的计算机视觉顶会 CVPR 2022 上,英伟达公布了其在计算机视觉和计算机图形学方面的新进展 — 可逆渲染流程“NVIDIA 3D MoMa”。


NVIDIA 3D MoMa 地址:https://nvlabs.github.io/nvdiffrec/


查看 NVIDIA 3D MoMa 论文:https://nvlabs.github.io/nvdiffrec/assets/paper.pdf


爵士乐的精髓在于即兴演奏,NVIDIA 希望通过 AI 研究向这一流派致敬。也许有一天,图形创作者可以使用快速创建出的 3D 物体,来一场即兴表演。


NVIDIA Research 在庆祝爵士乐及其发源地新奥尔良的视频中展示了这项技术。



这个被称为“NVIDIA 3D MoMa”的方法可以让建筑师、设计师、概念艺术家和游戏开发者迅速将物体导入图形引擎,并开始对其进行处理 —— 修改比例、改变材质或尝试不同的照明效果。

基于 2D 图像创建 3D 物体


逆渲染是将一系列静态照片重建为 3D 物体或场景模型的技术。NVIDIA 图形学研究副总裁 David Luebke 表示:“该技术长期以来一直是统一计算机视觉和计算机图形学的关键。”


他表示:“NVIDIA 3D MoMa 渲染流水线可以将逆渲染问题的每个部分表示为 GPU 加速的可微分组件,然后使用现代 AI 机器和 NVIDIA GPU 的原始算力快速生成 3D 物体,且创作者可以在现有工具中自由地导入、编辑和扩展这些物体。”


为了使艺术家或工程师能够充分利用 3D 物体,其形式应能够导入游戏引擎、3D 建模器和电影渲染器等各种被广泛使用的工具。带有纹理、材质的三角网格形式,就是此类 3D 工具使用的通用语言。



三角网格是用于定义 3D 图形和建模形状的基本框架。


游戏工作室和其他创作者习惯于使用复杂的摄影测量技术来创建 3D 物体,这需要耗费大量的时间和精力。近期的神经辐射场(Neural Radiance Fields)研究可以快速生成物体或场景的 3D 模型,但并不是使用易于编辑的三角网格形式。


当在单个NVIDIA Tensor Core GPU上运行时,NVIDIA 3D MoMa 能在一个小时内生成三角网格模型。该流水线的输出结果与创作者现在使用的 3D 图形引擎和建模工具直接兼容。


流水线的重建功能包括 3D 网格模型、材质和照明。网格就像由三角形构建的 3D 形状混凝纸浆模型。有了它,开发者就可以依照自己的创意对物体进行修改。材质是叠加在 3D 网格上的 2D 纹理,就像人的皮肤一样。NVIDIA 3D MoMa 通过对场景光线进行估算,使创作者能够在日后修改物体上的照明。

为虚拟爵士乐队调校乐器


为了展示 NVIDIA 3D MoMa 的功能,NVIDIA 的研究和创意团队首先从不同角度收集了五种爵士乐队乐器(小号、长号、萨克斯、架子鼓和单簧管)的约 100 张图片。


NVIDIA 3D MoMa 将 2D 图像重建为每种乐器的 3D 表示,并以网格形式呈现。然后,NVIDIA 团队将这些乐器从原始场景中取出,并将其导入 NVIDIA Omniverse 3D 模拟平台中进行编辑。



在任何传统图形引擎中,创作者都可以轻松为形状调换由 NVIDIA 3D MoMa 生成的材质,就像给网格穿上不同的衣服一样。例如该团队对小号模型采取了这种做法,将原来的塑料材质快速更换成黄金、大理石、木材或软木。


然后,创作者可以将新编辑的物体放入任何虚拟场景中。NVIDIA 团队将这些乐器放入了经典的图形渲染质量测试康奈尔盒中。他们证明了虚拟乐器对光线的反应与在物理世界中完全一样:闪亮的铜管乐器反射出亮光,哑光的鼓皮则会吸收光线。


这些通过逆渲染生成的新物体可以作为复杂动画场景的构成要素。视频的最后展示了虚拟爵士乐队。

2022-06-23 17:544193
用户头像
刘燕 InfoQ高级技术编辑

发布了 1123 篇内容, 共 606.3 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

被面试官问懵:TCP 四次挥手收到乱序的 FIN 包会如何处理?

华为云开发者联盟

TCP 网络 报文 挥手 FIN

让 Serverless 应用开发更简单,Serverless Devs 2.0 全新发布

Serverless Devs

开源 Serverless

联想新IT引擎引领智能化变革,助力“中国力量”更加强大

科技范儿

京东云金秋上云特惠进行中!扫码参与活动

京东科技开发者

云计算 云主机 大促

Tapdata Real Time DaaS 技术详解 PART I :实时数据同步

tapdata

读了这篇SpringBoot底层原理让我在阿里成功涨薪40%,感谢

Java 编程 面试 涨薪 阿里

一周信创舆情观察(8.30~9.5)

统小信uos

想要入职阿里P6?最少啃完这本500页Java并发多线程源码笔记

Java 编程 面试 多线程 阿里

阿里官方保姆级Java技术图谱发布!够学到春节了,赶紧收藏!

Java 面试 阿里 大厂 金九银十

Chrome前端调试技巧分享

华为云数据库小助手

大前端 调试 GaussDB 华为云数据库

浪潮云洲发布标识解析数据网关产品

工业互联网

大公司运维监控怎么做?从哪些方面考虑?

行云管家

云计算 运维 运维监控 运维审计 数据监控

首场“说透数字化转型专题讲座”将于 9 月 15 日在天津举办

InfoQ 天津

了解JDBC层之QueryDSL

邱学喆

QueryDSL SQLQueryFactory

交易所刷量机器人定制开发案例(源码搭建)

量化系统19942438797

交易所 做市机器人 自动刷量机器人

App 不想被“点名”,mPaaS 隐私合规检测为开发者护航数字生态建设

蚂蚁集团移动开发平台 mPaaS

移动开发 mPaaS 监管合规 隐私安全

【墨天轮专访第四期】华为云GaussDB苏光牛:发挥生态优势,培养应用型DBA

墨天轮

数据库 华为云 GaussDB

守护油田安全,EMQ X 在石油石化危化品监测管理中的应用

EMQ映云科技

物联网平台 物联网 IoT 边云协同 emq

百度智能云开物工业互联网平台解决方案亮相2021服贸会成果发布会

百度大脑

人工智能 服贸会

亚信科技AntDB数据库国产化进程加速,计费上云再下一城

亚信AntDB数据库

实践案例 9月日更

Elasticsearch 原理解析(介绍)

ZzC🍖

搜索引擎 elasticsearch

阿里后端优化这么恐怖?看完这20W字Java性能实战经验手册,最少P7

Java 阿里巴巴 面试 性能调优 金九银十

前端技术概览

数据库 大数据 时序数据库 tsdb 数据智能

C语言中动态内存是如何分配的?

华为云开发者联盟

数组 内存 动态内存 内存分配 C语音

数据脱敏是什么意思?有什么好处?

行云管家

数据库 数据安全 数据脱敏 数据库安全

iOS 屏幕旋转的实践解析

ZEGO即构

ios 音视频 屏幕旋转

MESI缓存一致性协议

Java 架构 面试 后端

开源应用中心|动手自建一个超高度自由的个人知识库,原来这么容易!

开源

如何给技术部员工做考核?

石云升

团队管理 管理 引航计划 内容合集 9月日更

"云智一体"全场景智能视频技术与应用解析白皮书下载申请

百度开发者中心

白皮书 云智一体 智能视频

会员业务基于Cloud KMS的数据安全应用

爱奇艺技术产品团队

数据安全法 Cloud KMS

用2D照片创造出逼真的3D乐器,英伟达在CVPR 2022开了一场爵士乐“音乐会”_AI&大模型_刘燕_InfoQ精选文章