【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

用 2D 照片创造出逼真的 3D 乐器,英伟达在 CVPR 2022 开了一场爵士乐“音乐会”

  • 2022-06-23
  • 本文字数:1372 字

    阅读完需:约 5 分钟

用2D照片创造出逼真的3D乐器,英伟达在CVPR 2022开了一场爵士乐“音乐会”

英伟达公布计算机图形学新进展,「可逆渲染流程」支持基于 2D 图像创建 3D 物体。


InfoQ 获悉,6 月 23 日,在新奥尔良举行的计算机视觉顶会 CVPR 2022 上,英伟达公布了其在计算机视觉和计算机图形学方面的新进展 — 可逆渲染流程“NVIDIA 3D MoMa”。


NVIDIA 3D MoMa 地址:https://nvlabs.github.io/nvdiffrec/


查看 NVIDIA 3D MoMa 论文:https://nvlabs.github.io/nvdiffrec/assets/paper.pdf


爵士乐的精髓在于即兴演奏,NVIDIA 希望通过 AI 研究向这一流派致敬。也许有一天,图形创作者可以使用快速创建出的 3D 物体,来一场即兴表演。


NVIDIA Research 在庆祝爵士乐及其发源地新奥尔良的视频中展示了这项技术。



这个被称为“NVIDIA 3D MoMa”的方法可以让建筑师、设计师、概念艺术家和游戏开发者迅速将物体导入图形引擎,并开始对其进行处理 —— 修改比例、改变材质或尝试不同的照明效果。

基于 2D 图像创建 3D 物体


逆渲染是将一系列静态照片重建为 3D 物体或场景模型的技术。NVIDIA 图形学研究副总裁 David Luebke 表示:“该技术长期以来一直是统一计算机视觉和计算机图形学的关键。”


他表示:“NVIDIA 3D MoMa 渲染流水线可以将逆渲染问题的每个部分表示为 GPU 加速的可微分组件,然后使用现代 AI 机器和 NVIDIA GPU 的原始算力快速生成 3D 物体,且创作者可以在现有工具中自由地导入、编辑和扩展这些物体。”


为了使艺术家或工程师能够充分利用 3D 物体,其形式应能够导入游戏引擎、3D 建模器和电影渲染器等各种被广泛使用的工具。带有纹理、材质的三角网格形式,就是此类 3D 工具使用的通用语言。



三角网格是用于定义 3D 图形和建模形状的基本框架。


游戏工作室和其他创作者习惯于使用复杂的摄影测量技术来创建 3D 物体,这需要耗费大量的时间和精力。近期的神经辐射场(Neural Radiance Fields)研究可以快速生成物体或场景的 3D 模型,但并不是使用易于编辑的三角网格形式。


当在单个NVIDIA Tensor Core GPU上运行时,NVIDIA 3D MoMa 能在一个小时内生成三角网格模型。该流水线的输出结果与创作者现在使用的 3D 图形引擎和建模工具直接兼容。


流水线的重建功能包括 3D 网格模型、材质和照明。网格就像由三角形构建的 3D 形状混凝纸浆模型。有了它,开发者就可以依照自己的创意对物体进行修改。材质是叠加在 3D 网格上的 2D 纹理,就像人的皮肤一样。NVIDIA 3D MoMa 通过对场景光线进行估算,使创作者能够在日后修改物体上的照明。

为虚拟爵士乐队调校乐器


为了展示 NVIDIA 3D MoMa 的功能,NVIDIA 的研究和创意团队首先从不同角度收集了五种爵士乐队乐器(小号、长号、萨克斯、架子鼓和单簧管)的约 100 张图片。


NVIDIA 3D MoMa 将 2D 图像重建为每种乐器的 3D 表示,并以网格形式呈现。然后,NVIDIA 团队将这些乐器从原始场景中取出,并将其导入 NVIDIA Omniverse 3D 模拟平台中进行编辑。



在任何传统图形引擎中,创作者都可以轻松为形状调换由 NVIDIA 3D MoMa 生成的材质,就像给网格穿上不同的衣服一样。例如该团队对小号模型采取了这种做法,将原来的塑料材质快速更换成黄金、大理石、木材或软木。


然后,创作者可以将新编辑的物体放入任何虚拟场景中。NVIDIA 团队将这些乐器放入了经典的图形渲染质量测试康奈尔盒中。他们证明了虚拟乐器对光线的反应与在物理世界中完全一样:闪亮的铜管乐器反射出亮光,哑光的鼓皮则会吸收光线。


这些通过逆渲染生成的新物体可以作为复杂动画场景的构成要素。视频的最后展示了虚拟爵士乐队。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-06-23 17:543472
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.5 次阅读, 收获喜欢 1967 次。

关注

评论

发布
暂无评论
发现更多内容

音视频开发——通信直播协议和视频推流丨RTMP-RTSP

Linux服务器开发

音视频 WebRTC ffmpeg 直播推流 SRS流媒体服务器

EGG Network构建千万级应用的聚合型永动金融公链 EFTalk

币圈那点事

20天内看完这套GitHub标星18k+的Android资料,含泪整理面经

欢喜学安卓

android 程序员 面试 移动开发

RUOYI 框架教程 2 |小白都能学会的 3 分钟搭建框架教程

Java_若依框架教程

Java 技术 Ruoyi 框架 若依

【遇见Doris】Apache Doris在一点资讯自媒体平台的应用

ApacheDoris

【遇见Doris】

2021年Android面试心得,大厂面经合集

欢喜学安卓

android 程序员 面试 移动开发

NA公链(Nirvana)解决的六大问题在众多公链中脱颖而出NAC公链

区块链第一资讯

2021最新分享支付宝/美团/拼多多面经总结

比伯

Java 编程 架构 面试 程序人生

MapReduce中shuffle阶段的数据压缩机制

大数据技术指南

大数据 hadoop 3月日更

【遇见Doris】Apache Doris 在京东广告平台的应用

ApacheDoris

【遇见Doris】

RUOYI框架教程1 |小白都能学会的3分钟搭建框架教程

Java_若依框架教程

Java 技术 Ruoyi 框架 若依

[C++总结记录]struct与class注意点

图解AI

c++

10种下载YouTube视频的方法-包含网站软件插件app等

Space空间

软件 网站 下载youtube视频

别再说你不懂规则引起啦

比伯

Java 编程 程序员 架构 计算机

【遇见Doris】4.13线下开发者沙龙分享--微博团队

ApacheDoris

【遇见Doris】

RUOYI 框架教程 0 | 我和RuoYi框架

Java_若依框架教程

Java 技术 Ruoyi 框架 若依

2021出海社交必看:产品、技术、运营指南

拍乐云Pano

音视频 RTC 社交APP出海 出海社交 社交泛娱乐

【遇见Doris】4.13线下开发者沙龙分享--Doris主创团队

ApacheDoris

[C++总结记录]构造函数与析构函数注意点

图解AI

Spark性能调优-Shuffle调优及故障排除篇

五分钟学大数据

大数据 spark 3月日更

开抢| 华为开发者大会2021(Cloud)早鸟票来了!

华为云开发者联盟

华为 开发者

Apache Doris(incubating) 0.12.0版本正式发布

ApacheDoris

【遇见Doris】Apache Doris Parquet文件读取的设计与实现

ApacheDoris

【遇见Doris】

[C++总结记录]函数相关细节注意点

图解AI

c++

简单快速搭建,全新语聊方案

anyRTC开发者

ios android 音视频 WebRTC RTC

golang设置时区的多种方式

happlyfox

学习 3月日更 Go 语言

遇见Doris:Apache Doris (incubating)0.10.0开发者沙龙

ApacheDoris

打通混合云网络孤岛,EBN助力企业灵活构建云骨干网

UCloud技术

多云架构 混合云

K8s 原生 Serverless 实践:ASK 与 Knative

Serverless Devs

阿里云 Serverless Kubernetes 云原生

【遇见Doris】4.13线下开发者沙龙分享--搜狐团队

ApacheDoris

【遇见Doris】

Doris简史 - 为分析而生的11年

ApacheDoris

用2D照片创造出逼真的3D乐器,英伟达在CVPR 2022开了一场爵士乐“音乐会”_AI&大模型_刘燕_InfoQ精选文章