写点什么

和德爷一起 6DoF 互动探险,火山引擎空间重建和虚实融合技术

火山引擎视频云

  • 2023-09-26
    北京
  • 本文字数:3729 字

    阅读完需:约 12 分钟

和德爷一起 6DoF 互动探险,火山引擎空间重建和虚实融合技术

《跟着德爷闯东非》是 Pico 一款全新的 6DoF 互动纪录片。主角由在全球拥有 530 万粉丝的明星探险家德爷(Edward James Stafford)担任。观众以第一视角摄影师的身份陪伴德爷一起冒险,近距离观察野生动物,体验非洲大草原的野外生存之旅。


与行业内常见的不具备互动性的 3DoF 实拍纪录片以及不具备写实性的游戏引擎制作的 6DoF 纪录片不同,《跟着德爷闯东非》纪录片的拍摄采用空间重建技术及虚实融合技术,兼顾实拍和虚拟互动,以全新的 6DoF 互动体验,增强了 VR 内容的沉浸性和交互性,让用户跟随德爷的脚步沉浸式体验从城市“跃入”荒野的快感。




全新 VR 空间互动性的挑战和难点


传统 VR 实拍视频的交互通常采用不同选项触发不同结局的 AB 型互动方式,而《跟着德爷闯东非》想要实现的是全新的 VR 空间互动,用户可以抓起虚拟世界中的物体完成任务,比如和德爷一起钻木取火,也可以在场景中自由走动,在非洲草原和德爷一起追捕猎杀珍珠鸡,实现全新的交互并达到高沉浸感,突破传统视频的界限。


而想要实现全新的交互和体验高沉浸感,需要做到:

  1. 实际拍摄的 VR 视频和用于互动的场景、物品具备高度一致性,包含几何结构、纹理色彩及光影的一致性,这对于空间重建技术提出了很高的要求,需要做到高精度、高质量、真实感建模,超写实数字复原空间场景,让用户感受到原汁原味的非洲荒野。

  2. 用户在体验中,虚拟元素与实际场景相互交织,让用户在场景中难以区分哪些是真实的,哪些是虚拟的,达到了最佳的体验效果。这就要求无缝虚实融合技术,需要对重建的数字素材和实拍的视频素材进行像素级配准,这样用户才能够自然沉浸地在场景中和德爷一起探索非洲,并从实拍 3DoF 视频中德爷手里顺利接过数字重建的 6DoF 互动道具。


空间重建,复原现实世界


空间重建技术能够复原现实世界的场景和物品并转化为数字资产,是计算机视觉和摄影测量中的重要研究课题,也在智慧城市、虚拟现实、数字导航与数字遗产保护等方面有着重要的应用。


  • 火山引擎多媒体实验室团队自研改进 SFM 算法框架,实现高精度的场景稀疏重建及图像定位。

针对特征点提取、匹配算法,通过结合传统特征与深度学习方法,算法在大视角/尺度变化、暗光、弱纹理、运动模糊等多种挑战场景下仍能有效提取足量稳定的特征;通过将特征点纳入自注意力和交叉注意力网络,结合多源传感器输入检索全局最优图像特征匹配,使得算法即使在空地跨视角、鱼眼/针孔/全景跨相机等复杂数据输入的情况下,实现建图完整度、成功率均达到 100%。同时,开发支持多相机系统、多相机模型光束法平差优化算法,同时也兼容其他不同传感器的联合重建,实现高精度、多模态的位姿估计。


  • 在稀疏重建算法之后,需要进行稠密算法重建。

火山引擎多媒体实验室通过立体视觉 (Multiple View Stereo,简称 MVS)技术将二维图像信息转化为三维点云信息。团队自研基于多目立体视觉及全景图的深度估计算法,通过神经网络进行稠密深度估计,在野外大场景环境获得高精度的场景稠密几何测量。获得点云信息后,进行点云去噪和补全,并通过点云配准实现场景几何一致性。最后,通过基于 TSDF 和图像语义信息的点云融合策略,进一步滤除噪声,生成更加平滑一致的完整场景点云。


  • 获得场景点云后,进行 Mesh 重建。

火山引擎多媒体实验室自研多种网格优化算法,实现网格平滑、去噪、简化和补洞,获得更加精细、完整的高质量网格模型。得益于图像处理期间高精度的相机位姿估计以及图像超分等画质优化,结合自研贴图算法,获得更高清、拼缝更少的高质量纹理贴图。同时通过纹理重打包算法优化,实现更高的纹理利用率,降低存储资源浪费,提升纹理有效分辨率。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    目前,火山引擎视频云平台具备自动化空间建模链路,助力大场景重建,可支持采集 RGBD/RGB 数据(无人机、手持采集等)自动化上传云平台,2-4 小时后自动产出建模结果,建模精度可达 1cm~2cm。同时,火山引擎视频云的云渲染可视化系统,联合自研动态传输算法,可实现高度真实感的模型渲染。


    图:火山引擎视频云三维重建平台


    火山引擎多媒体实验室将神经辐射场技术(NeRF)与自研大场景建模技术相结合,研发行业领先的大场景光场重建方案,实现高度真实感(psnr>30)的场景重建、复现及后编辑。


    在具体实践的场景中,动态物体会使 NeRF 重建出现伪影,借助自研动静态分割、影子检测、inpainting 等算法,对场景中和几何不一致的区域进行提取、修复。同时借助自研高精度 SFM 算法框架,对场景进行高精度的几何重建,包括相机参数估计以及稀疏、稠密点云生成。另外,对场景进行拆分以减小单次训练资源消耗,并可做分布式训练、维护。在神经辐射场训练过程中,针对室外无边界大场景,团队通过优化策略以提升该场景下的新视角生成效果,比如,通过在训练中同时优化位姿提高重建精度、基于哈希编码的层次化表达提升模型训练速度、借助外观编码提升不同时间采集场景的外观一致性、借助 mvs 稠密深度信息提升几何精度等。


    以团队同毫末智行合作为例,完成单路采集以及多路合并的 NeRF 重建,相关成果已在毫末 AI Day 发布。

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        虚实融合,提升用户体验


        为提升用户沉浸式体验,火山引擎多媒体实验室自研虚实融合技术,将环境实拍全景图与场景模型进行对齐、融合。团队利用先进的人工智能技术,建立全景图图像特征与模型关键点的匹配关系,通过 PnP 算法以及光束法平差算法将全景图注册至场景模型坐标系,实现尺度、位置的统一,从而实现模型渲染与实拍全景视频渲染的统一,达到虚实融合的效果。


        同时,为扩大用户体验的自由度,团队针对该场景自研非球面天空盒渲染,克服传统的球面全景图渲染仅在图像采集中心视觉一致的缺陷,进一步提升实拍全景图渲染模型与地形模型的匹配程度,以实现更大运动范围的视觉一致性,进一步提升沉浸式体验。


        图:虚实效果对比示例


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00

            以上 2 个视频:6DoF 互动漫游

            物品重建,高精度还原细节


            在《跟着德爷闯东非》互动纪录片中,会有用户虚拟体验探险剧情的桥段,例如钻木取火,木棍训蛇等。为了带来真实的体验,道具往往是在实际拍摄过程中就地取材,有细长的树枝,薄薄的小刀,还有形态复杂的篝火堆。这些道具的重建本身是比较有挑战的,再加上整个拍摄过程比较紧张,留给扫描的时间并不充裕。为此,火山引擎视频云团队沉淀出一套采集方便,操作简单,能还原各类复杂物品的重建系统。


            为了重建形状比较复杂的道具(例如狭长的木棍、锋利的小刀)。火山引擎视频云采用符号距离场(Signed Distance Fields,简称 SDF)的技术方案来表示三维物体,结合深度学习的方法克服了以上重建难点。对于如何监督神经网络使其准确地拟合该 SDF,火山引擎视频云先用运动恢复结构(Structure from Motion,简称 SfM)算法,精确计算拍摄图像的相机姿态,再利用可微渲染的方法将 SDF 所表示的空间信息渲染到图像上,把渲染得到的图像和该视角下采集的图像做比较,不断优化神经网络,使 SDF 在各个采集视角下的渲染结果尽可能与实际采集的图像一致。为了进一步提高重建精细度,在优化 SDF 的时候加入稀疏重建得到的三维点做约束,能更好的还原物体的细节特征


            图:道具重建效果展示

            交互技术,让玩法更丰富


            采用虚实融合技术可以构造由空间重建模型和实拍 360°VR 视频两部分构成的 6DoF 互动场景,同时在《跟着德爷闯东非》项目中,多媒体实验室也实现了终端上的交互技术,同内容团队一起创造出了很多有创意性的虚实结合的玩法。

            拍照功能

            使用离屏相机管道,把从全景视频球上投影出的针孔 2D 图像重新贴在玩家手持的相机模型上,以实现出玩家可以对环境中任意角度拍照的玩法。


            图:拍照功能示例

            物品交互功能

            火山引擎多媒体实验室可以估计 VR 视频中的深度信息,结合 3D 虚拟空间中的虚拟物体的位置信息,计算出全景视频球上指定视频元素,对应于玩家在真实的 3D 空间下的位置。从而,实现视频画面上真实物品转换到玩家可交互虚拟物品模型的无缝转换的玩法。


            图:物品交互功能示例

            虚实融合技术的广阔应用


            虚实融合技术目前正处于快速发展的阶段,在众多领域中展现出广阔的应用前景。如游戏、教育和医疗等领域,已开始积极探索虚实融合技术的应用,并取得了不错的成绩:


            • 在游戏领域,虚实融合技术赋予了游戏开发者更多创造力和想象力的空间。通过将虚拟元素与真实世界相结合,游戏能够提供更加沉浸式和交互式的体验。玩家可以与虚拟角色和游戏环境进行实时互动,增强了游戏的娱乐性和参与感。


            • 在教育领域,也可以看到虚实融合技术的巨大潜力。通过将虚拟内容融入到教学场景中,学生可以以更加生动和直观的方式进行学习,提高学习效果和兴趣。虚实融合技术可以为学生提供与实物互动的机会,使他们能够亲身体验和理解抽象概念,促进知识的深入理解和记忆。


            • 在医疗领域,虚实融合可以用于模拟手术训练、辅助手术导航和可视化诊断等方面。通过结合虚拟现实和真实世界数据,医生可以更准确地进行手术规划和操作,提高手术的安全性和成功率。此外,虚实融合还可以用于康复训练和疼痛管理等方面,为患者提供更加个性化和有效的治疗手段。


            以上内容在火山引擎视频云与 NVIDIA 团队合作推出的《云上新视界》线上课程内进行了详细解读。《云上新视界》致力于打造一档以音视频创新场景与最佳实践为核心内容的系列视频栏目,内容覆盖赛事直播、6DoF 互动体验、3D 人体重建、弹幕游戏等火爆热门场景,为行业注入新鲜力量和创新源泉。

            2023-09-26 15:495268
            用户头像
            鲁冬雪 GMI Cloud China Marketing Manager

            发布了 362 篇内容, 共 261.4 次阅读, 收获喜欢 293 次。

            关注

            评论 2 条评论

            发布
            用户头像
            效果太炫了
            2023-09-26 20:11 · 北京
            回复
            用户头像
            VR互动越来越高级了
            2023-09-26 19:39 · 上海
            回复
            没有更多了
            发现更多内容

            从3开始,在业务系统中增加分页功能

            闫同学

            go语言 11月月更 后端系统

            一款设计和模拟数字逻辑电路的LogiSim工具

            梦笔生花

            集成电路 Verilog 11月月更 logisim 模电与书店

            基于开源IM即时通讯框架MobileIMSDK:RainbowChat-iOS端v6.1版已发布

            JackJiang

            即时通讯 MobileIMSDK im开发 开源im

            数据库审计的四种类型

            阿泽🧸

            数据库审计 11月月更

            数据湖(十八):Flink与Iceberg整合SQL API操作

            Lansonli

            数据湖 11月月更

            架构实战营模块 4 作业

            陌生流云

            #架构实战营

            2022HDC|华为阅读:探索阅读体验新变革 助力阅读生态创新发展

            最新动态

            HDC2022 携手共创鸿蒙生态 增长解决方案焕新升级构筑商业增长闭环

            叶落便知秋

            峰会实录 | 基于StarRocks和腾讯云EMR构建云上Lakehouse

            StarRocks

            数据库

            计算机网络:流量控制与可靠传输机制

            timerring

            计算机网络 流量控制 11月月更 可靠传输

            HDC 2022 Day2精彩速递:开发者齐聚松山湖,深度体验鸿蒙开发套件

            最新动态

            2022华为开发者大会:华为阅读人-车-家一键流转,实现全场景数字阅读新增长

            最新动态

            我没想到,做IT还有感动众生的机会

            明道云

            数据湖(十九):SQL API 读取Kafka数据实时写入Iceberg表

            Lansonli

            数据湖 11月月更

            华为开发者大会2022:HMS Core 3D建模服务再升级,万物皆可驱动

            HarmonyOS SDK

            hdc HMS Core

            【C语言】char 关键字

            謓泽

            11月月更

            Fastjson最想版本RCE漏洞【漏洞分析】

            网络安全学海

            网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

            python小知识-并发编程(1)

            AIWeker

            Python 人工智能 python小知识 11月月更

            业务监控设计主要关注点

            穿过生命散发芬芳

            业务监控 11月月更

            数据湖(十七):Flink与Iceberg整合DataStream API操作

            Lansonli

            数据湖 11月月更

            2022-11-05:给定一个逆波兰式,转化成正确的中序表达式。要求只有必要加括号的地方才加括号。

            福大大架构师每日一题

            算法 rust 福大大

            Sonatype Nexus 如何把多仓库合并在一起

            HoneyMoose

            Mac部署spark2.4.4

            程序员欣宸

            大数据 spark 11月月更

            永续合约交易所的开发有哪些特征?

            W13902449729

            合约交易所开发 区块链交易所开发

            HDC2022 携手共创鸿蒙生态 增长解决方案焕新升级构筑商业增长闭环

            最新动态

            Go语言开发小技巧&易错点100例(二)

            闫同学

            go语言 11月月更 go开发

            既要技术制胜,也要体验为王:今天我们需要怎样的WLAN?

            脑极体

            计算机网络:差错控制

            timerring

            计算机网络 11月月更

            从零到一带你构建可靠的大型分布式系统,不愧是IT领域又一神作!

            Java永远的神

            Java 分布式 程序人生 后端 架构师

            星闪:咫尺之间,联接智能世界

            脑极体

            【C 语言】const 关键字

            謓泽

            11月月更

            和德爷一起 6DoF 互动探险,火山引擎空间重建和虚实融合技术_字节跳动_InfoQ精选文章