写点什么

用 2D 照片创造出逼真的 3D 乐器,英伟达在 CVPR 2022 开了一场爵士乐“音乐会”

  • 2022-06-23
  • 本文字数:1372 字

    阅读完需:约 5 分钟

用2D照片创造出逼真的3D乐器,英伟达在CVPR 2022开了一场爵士乐“音乐会”

英伟达公布计算机图形学新进展,「可逆渲染流程」支持基于 2D 图像创建 3D 物体。


InfoQ 获悉,6 月 23 日,在新奥尔良举行的计算机视觉顶会 CVPR 2022 上,英伟达公布了其在计算机视觉和计算机图形学方面的新进展 — 可逆渲染流程“NVIDIA 3D MoMa”。


NVIDIA 3D MoMa 地址:https://nvlabs.github.io/nvdiffrec/


查看 NVIDIA 3D MoMa 论文:https://nvlabs.github.io/nvdiffrec/assets/paper.pdf


爵士乐的精髓在于即兴演奏,NVIDIA 希望通过 AI 研究向这一流派致敬。也许有一天,图形创作者可以使用快速创建出的 3D 物体,来一场即兴表演。


NVIDIA Research 在庆祝爵士乐及其发源地新奥尔良的视频中展示了这项技术。



这个被称为“NVIDIA 3D MoMa”的方法可以让建筑师、设计师、概念艺术家和游戏开发者迅速将物体导入图形引擎,并开始对其进行处理 —— 修改比例、改变材质或尝试不同的照明效果。

基于 2D 图像创建 3D 物体


逆渲染是将一系列静态照片重建为 3D 物体或场景模型的技术。NVIDIA 图形学研究副总裁 David Luebke 表示:“该技术长期以来一直是统一计算机视觉和计算机图形学的关键。”


他表示:“NVIDIA 3D MoMa 渲染流水线可以将逆渲染问题的每个部分表示为 GPU 加速的可微分组件,然后使用现代 AI 机器和 NVIDIA GPU 的原始算力快速生成 3D 物体,且创作者可以在现有工具中自由地导入、编辑和扩展这些物体。”


为了使艺术家或工程师能够充分利用 3D 物体,其形式应能够导入游戏引擎、3D 建模器和电影渲染器等各种被广泛使用的工具。带有纹理、材质的三角网格形式,就是此类 3D 工具使用的通用语言。



三角网格是用于定义 3D 图形和建模形状的基本框架。


游戏工作室和其他创作者习惯于使用复杂的摄影测量技术来创建 3D 物体,这需要耗费大量的时间和精力。近期的神经辐射场(Neural Radiance Fields)研究可以快速生成物体或场景的 3D 模型,但并不是使用易于编辑的三角网格形式。


当在单个NVIDIA Tensor Core GPU上运行时,NVIDIA 3D MoMa 能在一个小时内生成三角网格模型。该流水线的输出结果与创作者现在使用的 3D 图形引擎和建模工具直接兼容。


流水线的重建功能包括 3D 网格模型、材质和照明。网格就像由三角形构建的 3D 形状混凝纸浆模型。有了它,开发者就可以依照自己的创意对物体进行修改。材质是叠加在 3D 网格上的 2D 纹理,就像人的皮肤一样。NVIDIA 3D MoMa 通过对场景光线进行估算,使创作者能够在日后修改物体上的照明。

为虚拟爵士乐队调校乐器


为了展示 NVIDIA 3D MoMa 的功能,NVIDIA 的研究和创意团队首先从不同角度收集了五种爵士乐队乐器(小号、长号、萨克斯、架子鼓和单簧管)的约 100 张图片。


NVIDIA 3D MoMa 将 2D 图像重建为每种乐器的 3D 表示,并以网格形式呈现。然后,NVIDIA 团队将这些乐器从原始场景中取出,并将其导入 NVIDIA Omniverse 3D 模拟平台中进行编辑。



在任何传统图形引擎中,创作者都可以轻松为形状调换由 NVIDIA 3D MoMa 生成的材质,就像给网格穿上不同的衣服一样。例如该团队对小号模型采取了这种做法,将原来的塑料材质快速更换成黄金、大理石、木材或软木。


然后,创作者可以将新编辑的物体放入任何虚拟场景中。NVIDIA 团队将这些乐器放入了经典的图形渲染质量测试康奈尔盒中。他们证明了虚拟乐器对光线的反应与在物理世界中完全一样:闪亮的铜管乐器反射出亮光,哑光的鼓皮则会吸收光线。


这些通过逆渲染生成的新物体可以作为复杂动画场景的构成要素。视频的最后展示了虚拟爵士乐队。

2022-06-23 17:543637
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 544.0 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

大数据培训:Flink面试连环17问

@零度

flink 大数据开发

2021年中国在线婚恋交友行业分析

易观分析

婚恋行业

HarmonyOS Lottie组件,让动画绘制更简单

HarmonyOS开发者

UI HarmonyOS ArKUI 3.0

前端SSR的落地实践

百度Geek说

百度 前端 SSR

如何通过 Jira Service Management 打造员工自助服务工具实现高效分布式工作

Atlassian

敏捷 Jira 远程协作 ITSM 开发管理

使用CSS绘制一支口红

战场小包

CSS 口红 2月月更

大厂晋升指南:材料准备,PPT写作和现场答辩

邴越

大厂技能 2月月更 晋升 职级

研究了2.1亿个皇堡后,英特尔BigDL发现了真相

科技新消息

会声会影2022全新GIF功能详解

懒得勤快

混合多云环境下的云成本管理与优化

鲸品堂

成本优化 实践案例 云资源

看懂这5幅图,研发效能分析和改进就容易了

阿里云云效

阿里云 运维 数据分析 云原生 研发

知名服务器运维软件厂商堡塔加入龙蜥社区,并完成与 Anolis OS 兼容适配

OpenAnolis小助手

Linux 开源 服务器 安全技术

某神奇App data加密算法解析(一)

奋飞安全

android js 移动安全

如何用AI技术增强企业认知智能?超详细架构解读

博文视点Broadview

如何在TypeScript/JavaScript项目里引入MD5校验和

华为云开发者联盟

JavaScript typescript npm md5 MD5校验

拥抱国产化,推动产业互联网,拍乐云发布RTC私有云解决方案

拍乐云Pano

音视频 产业互联网 私有云 国产化

【游戏研发必看】3 步配置 P4IGNORE + 精彩问答解析(用户文章转载)

龙智—DevSecOps解决方案

perforce P4IGNORE 游戏研发

全球案例 | 凯捷如何通过 Jira Software 和 Confluence 将全球产品团队联系起来

龙智—DevSecOps解决方案

Jira Atlassian Atlassian 凯捷 共享平台

不要害怕XXE漏洞:了解它们的凶猛之处以及检测方法

龙智—DevSecOps解决方案

代码安全 静态代码分析 漏洞检测 XXE 漏洞

Linux之lsof命令

入门小站

前端培训:Vue3添加公共方法与使用

@零度

前端开发 Vue3

IOS技术分享| 你画我猜小游戏快速实现

anyRTC开发者

音视频 移动开发 互动白板 你画我猜 社交娱乐

揭秘2022冬奥黑科技,阿里云视频云「Cloud ME」如何实现全息会面?

阿里云CloudImagine

阿里云 音视频 全息显示 视频云 冬奥会

【云管平台】三大知名云管平台简单介绍

行云管家

云计算 云管平台 云资源 云 云时代 2B

【营】在开局,提升【豹】发力 - vivo活动插件管理平台

vivo互联网技术

前端 插件系统 构架

开源免费的舆情系统的架构

思通数科

爬虫 数据采集 舆情 舆情分析

在线键盘按键检测工具

入门小站

工具

手把手带你开发一款提效工具--VScode插件

得物技术

效率工具 前端 vscode 前端开发 插件

什么是规划物料清单(Planning BoM)?

龙智—DevSecOps解决方案

BOM Planning BoM 规划物料清单 半导体行业

FinClip邀你来出战|Hackthon Coding Party 一触即发

FinClip

netty系列之:EventLoop,EventLoopGroup和netty的默认实现

程序那些事

Java Netty 程序那些事

用2D照片创造出逼真的3D乐器,英伟达在CVPR 2022开了一场爵士乐“音乐会”_AI&大模型_刘燕_InfoQ精选文章