【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

CVPR 2024 满分论文 | Deformable 3D Gaussian: 基于可变形 3D 高斯的高质量单目动态重建新方法

火山引擎多媒体实验室

  • 2024-03-06
    北京
  • 本文字数:2981 字

    阅读完需:约 10 分钟

CVPR 2024 满分论文 | Deformable 3D Gaussian: 基于可变形3D高斯的高质量单目动态重建新方法

单目动态场景(Monocular Dynamic Scene)是指使用单眼摄像头观察并分析的动态环境,其中场景中的物体可以自由移动。单目动态场景重建对于理解环境中的动态变化、预测物体运动轨迹以及动态数字资产生成等任务至关重要。


随着以神经辐射场(Neural Radiance Field, NeRF)为代表的神经渲染的兴起,越来越多的工作开始使用隐式表示(implicit representation)进行动态场景的三维重建。尽管基于 NeRF 的一些代表工作,如 D-NeRF,Nerfies,K-planes 等已经取得了令人满意的渲染质量,他们仍然距离真正的照片级真实渲染(photo-realistic rendering)存在一定的距离。我们认为,其根本原因在于基于光线投射(ray casting)的 NeRF 管线通过逆向映射(backward-flow)将观测空间(observation space)映射到规范空间(canonical space)无法实现准确且干净的映射。逆向映射并不利于可学习结构的收敛,使得目前的方法在 D-NeRF 数据集上只能取得 30+ 级别的 PSNR 渲染指标。


为了解决这一问题,我们提出了一种基于光栅化(rasterization)的单目动态场景建模管线,首次将变形场(Deformation Field)与 3D 高斯(3D Gaussian Splatting)结合实现了高质量的重建与新视角渲染。实验结果表明,变形场可以准确地将规范空间下的 3D 高斯前向映射(forward-flow)到观测空间,不仅在 D-NeRF 数据集上实现了 10+ 的 PSNR 提高,而且在相机位姿不准确的真实场景也取得了渲染细节上的增加。


图 1 HyperNeRF 真实场景的实验结果


该研究的论文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被计算机视觉顶级国际学术会议 CVPR 2024 接收。值得一提的是,该论文是首个使用变形场将 3D 高斯拓展到单目动态场景的工作,并且在公开数据集上取得了 SOTA 结果

相关工作


动态场景重建一直以来是三维重建的热点问题。随着以 NeRF 为代表的神经渲染实现了高质量的渲染,动态重建领域涌现出了一系列以隐式表示作为基础的工作。D-NeRF 和 Nerfies 在 NeRF 光线投射管线的基础上引入了变形场,实现了鲁棒的动态场景重建。TiNeuVox,K-Planes 和 Hexplanes 在此基础上引入了网格结构,大大加速了模型的训练过程,渲染速度有一定的提高。然而这些方法都基于逆向映射,无法真正实现高质量的规范空间和变形场的解耦。


3D 高斯泼溅是一种基于光栅化的点云渲染管线。其 CUDA 定制的可微高斯光栅化管线和创新的致密化使得 3D 高斯不仅实现了 SOTA 的渲染质量,还实现了实时渲染。Dynamic 3D 高斯首先将静态的 3D 高斯拓展到了动态领域。然而,其只能处理多目场景非常严重地制约了其应用于更通用的情况,如手机拍摄等单目场景。

研究思想


Deformable-GS 的核心在于将静态的 3D 高斯拓展到单目动态场景。每一个 3D 高斯携带位置,旋转,缩放,不透明度和 SH 系数用于图像层级的渲染。根据 3D 高斯 alpha-blend 的公式我们不难发现,随时间变化的位置,以及控制高斯形状的旋转和缩放是决定动态 3D 高斯的决定性参数。然而,不同于传统的基于点云的渲染方法,3D 高斯在初始化之后,位置,透明度等参数会随着优化不断更新。这给动态高斯的学习增加了难度。


在本次研究中,我们创新性地提出了变形场与 3D 高斯联合优化的动态场景渲染框架。我们将 COLMAP 或随机点云初始化的 3D 高斯视作规范空间,随后通过变形场,以规范空间中 3D 高斯的坐标信息作为输入,预测每一个 3D 高斯随时间变化的位置 $\delta x$ 和形状参数 $\delta r, \delta s$。利用变形场,我们可以将规范空间的 3D 高斯变换到观测空间用于光栅化渲染。这一策略并不会影响 3D 高斯的可微光栅化管线,经过其计算得到的梯度可以用于更新规范空间 3D 高斯的参数。此外,引入变形场有利于动作幅度较大部分的高斯致密化。这是因为动作幅度较大的区域变形场的梯度也会相对较高,从而指导相应区域在致密化的过程中得到更精细的调控。即使规范空间 3D 高斯的数量和位置参数在初期也在不断更新,但实验结果表明,这种联合优化的策略可以最终得到鲁棒的收敛结果。大约经过 20000 轮迭代,规范空间的 3D 高斯的位置参数几乎不再变化。


在真实场景中,我们发现真实场景的相机位姿往往不够准确,而动态场景更加剧了这一问题。这对于基于神经辐射场的结构来说并不会产生较大的影响,因为神经辐射场基于多层感知机(MLP),是一个非常平滑的结构。但是 3D 高斯是基于点云的显式结构,略微不准确的相机位姿很难通过高斯泼溅得到较为鲁棒地矫正。因此为了缓解这个问题,我们创新地引入了退火平滑训练(Annealing Smooth Training,AST)。该训练机制旨在初期平滑 3D 高斯的学习,在后期增加渲染的细节。这一机制的引入不仅提高了渲染的质量,而且大幅度提高了时间插值任务的稳定性与平滑性。


图 2 展示了该研究的流程图,详情请参见论文原文。


图 2 流程图

结果展示


该研究首先在动态重建领域被广泛使用的 D-NeRF 数据集上进行了合成数据集的实验。从图 3 的可视化结果中不难看出,Deformable-GS 相比于之前的方法有着非常巨大的渲染质量提升。



图 3 该研究在 D-NeRF 数据集上的定性实验对比结果


我们方法不仅在视觉效果上取得了大幅度的提高,定量的渲染指标上也有着对应的支持。值得注意的是,我们发现 D-NeRF 数据集的 Lego 场景存在错误,即训练集和测试集的场景具有微小的差别。这体现在 Lego 模型铲子的翻转角度不一致。这也是为什么之前方法在 Lego 场景的指标无法提高的根本原因。为了实现有意义的比较,我们使用了 Lego 的验证集作为我们指标测量的基准。


图 4 方法对比


我们在全分辨率(800x800)下对比了 SOTA 方法,其中包括了 CVPR 2020 的 D-NeRF,Sig Asia 2022 的 TiNeuVox 和 CVPR2023 的 Tensor4D,K-planes。我们的方法在各个渲染指标(PSNR、SSIM、LPIPS),各个场景下都取得了大幅度的提高。


我们的方法不仅能够适用于合成场景,在相机位姿不够准确的真实场景也取得了 SOTA 结果。如图 5 所示,我们在 NeRF-DS 数据集上与 SOTA 方法进行了对比。实验结果表明,即使我们的方法没有对高光反射表面进行特殊处理,我们依旧能够超过专为高光反射场景设计的 NeRF-DS,取得了最佳的渲染效果。


图 5 真实场景方法对比


虽然 MLP 的引入增加了渲染开销,但是得益于 3D 高斯极其高效的 CUDA 实现与我们紧凑的 MLP 结构,我们依旧能够做到实时渲染。在 3090 上 D-NeRF 数据集的平均 FPS 可以达到 85(400x400),68(800x800)。


此外,该研究还首次应用了带有前向与反向深度传播的可微高斯光栅化管线。如图 6 所示,该深度也证明了 Deformable-GS 也可以得到鲁棒的几何表示。深度的反向传播可以推动日后很多需要使用深度监督的任务,例如逆向渲染(Inverse Rendering),SLAM 与自动驾驶等。


图 6 深度可视化

火山引擎多媒体实验室简介


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。

2024-03-06 00:097892
用户头像
鲁冬雪 InfoQ 策划主编

发布了 338 篇内容, 共 198.2 次阅读, 收获喜欢 271 次。

关注

评论

发布
暂无评论

如何查看崩溃日志

F5:伴随生成式AI的发展,2024年将出现十大网络安全风险威胁

科技热闻

强大的原型设计:Kite Compositor最新激活版

胖墩儿不胖y

Mac软件 原型设计工具 Mac动画软件

做CAE分析用哪个显卡?CAE咨询

思茂信息

仿真 CAE CAE软件

去年最火的 JS 开源项目「GitHub 热点速览」

EquatorCoco

GitHub 开源 js 工具库

草料荣获第五届中国工业互联网大赛新锐组二等奖

草料二维码

二维码 草料二维码

macos强大的界面设计和原型制作工具:Kite

Rose

Mac动画原型设计 Kite for Mac破解 Kite Mac下载 苹果软件下载站

TikTok直播专线的优势及应用价值

Ogcloud

直播 直播优化 TikTok

苹果Mac自用软件推荐:Unite for mac 将网站转化为应用程序 支持M1/M2/Intel

南屿

Unite for Mac Unite破解版 将网站转化为应用程序 Mac软件资源站

【最新中文版激活序列号】Macs Fan Control Pro 苹果电脑掌控风扇必备软件

南屿

Macs Fan Control Pro下载 Macs Fan Control Pro破解 Mac 电脑风扇速度

深入理解TF-IDF、BM25算法与BM25变种:揭秘信息检索的核心原理与应用

汀丶人工智能

nlp 搜索系统 BM25算法 关键词检索

3D建模设计 Vectorworks 2022 SP5激活版 for Mac 下载安装教程

南屿

3D建模软件 Vectorworks 2022下载 破解软件 Vectorworks 2022注册码

Rhinoceros 6 for Mac(犀牛6) 6.31.20315完美激活版

mac

苹果mac Windows软件 Rhinoceros 3D设计软件 犀牛

软件开发

Geek_8da502

2024年,苟住求活,才是长期主义

老张

第二曲线 职场发展 互联网裁员

LED屏租赁需求激增,为何LED显示屏租赁如此受欢迎?

Dylan

综艺节目 应用 LED显示屏 户外LED显示屏 led显示屏厂家

Linux常用命令—findfs命令

百度搜索:蓝易云

云计算 Linux 云服务器 uuid findfs

Java执行Python代码的两种方法(Jython与ProcessBuilder)

百度搜索:蓝易云

Java Python Linux Jython ProcessBuilder

矢量图形转换工具vector magic for Mac 兼容macos14系统

Rose

mac软件下载 Vector Magic破解版 矢量图像转换工具

苹果电脑YouTube客户端下载:YouTube for mac激活版v1.22(56)中文版安装教程

南屿

YouTube客户端 苹果mac软件 Clicker for YouTube

有关SCADA系统的所有信息:什么是SCADA?

2D3D前端可视化开发

物联网 组态软件 工业自动化 SCADA HMI

万界星空科技云MES,助力客户快速构建数字工厂

万界星空科技

mes 万界星空科技 低代码云MES

【年后跳槽必看篇-非广告】Spring Bean的生命周期

派大星

spring 跳槽季 Java 面试题

5分钟使用Hologres实时湖仓加速分析挑战赛来袭

阿里云大数据AI技术

轻松完成图片转换矢量图,推荐Vector Magic for Mac破解版

南屿

mac软件下载 Vector Magic破解版 矢量图片转换工具

【http服务】使用命令来查看和停止端口教程。

百度搜索:蓝易云

Linux 运维 云服务器 ECS

左耳听风-我的三观「读书打卡 day 01」

Java 工程师蔡姬

程序员 读书 读书感悟 左耳朵耗子

超自动化助力企业财务转型升级

智达方通

超自动化 企业财务转型

快麦ERP退货借助APPlink快速同步CRM

RestCloud

零代码 CRM ERP APPlink

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

编程猫

Mac电脑前端代码编辑神器:Sublime Text 4 Dev 激活码中文

mac大玩家j

代码编辑器 Mac软件 前端代码编辑器

CVPR 2024 满分论文 | Deformable 3D Gaussian: 基于可变形3D高斯的高质量单目动态重建新方法_字节跳动_InfoQ精选文章