大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

和德爷一起 6DoF 互动探险,火山引擎空间重建和虚实融合技术

火山引擎视频云

  • 2023-09-26
    北京
  • 本文字数:3729 字

    阅读完需:约 12 分钟

和德爷一起 6DoF 互动探险,火山引擎空间重建和虚实融合技术

《跟着德爷闯东非》是 Pico 一款全新的 6DoF 互动纪录片。主角由在全球拥有 530 万粉丝的明星探险家德爷(Edward James Stafford)担任。观众以第一视角摄影师的身份陪伴德爷一起冒险,近距离观察野生动物,体验非洲大草原的野外生存之旅。


与行业内常见的不具备互动性的 3DoF 实拍纪录片以及不具备写实性的游戏引擎制作的 6DoF 纪录片不同,《跟着德爷闯东非》纪录片的拍摄采用空间重建技术及虚实融合技术,兼顾实拍和虚拟互动,以全新的 6DoF 互动体验,增强了 VR 内容的沉浸性和交互性,让用户跟随德爷的脚步沉浸式体验从城市“跃入”荒野的快感。




全新 VR 空间互动性的挑战和难点


传统 VR 实拍视频的交互通常采用不同选项触发不同结局的 AB 型互动方式,而《跟着德爷闯东非》想要实现的是全新的 VR 空间互动,用户可以抓起虚拟世界中的物体完成任务,比如和德爷一起钻木取火,也可以在场景中自由走动,在非洲草原和德爷一起追捕猎杀珍珠鸡,实现全新的交互并达到高沉浸感,突破传统视频的界限。


而想要实现全新的交互和体验高沉浸感,需要做到:

  1. 实际拍摄的 VR 视频和用于互动的场景、物品具备高度一致性,包含几何结构、纹理色彩及光影的一致性,这对于空间重建技术提出了很高的要求,需要做到高精度、高质量、真实感建模,超写实数字复原空间场景,让用户感受到原汁原味的非洲荒野。

  2. 用户在体验中,虚拟元素与实际场景相互交织,让用户在场景中难以区分哪些是真实的,哪些是虚拟的,达到了最佳的体验效果。这就要求无缝虚实融合技术,需要对重建的数字素材和实拍的视频素材进行像素级配准,这样用户才能够自然沉浸地在场景中和德爷一起探索非洲,并从实拍 3DoF 视频中德爷手里顺利接过数字重建的 6DoF 互动道具。


空间重建,复原现实世界


空间重建技术能够复原现实世界的场景和物品并转化为数字资产,是计算机视觉和摄影测量中的重要研究课题,也在智慧城市、虚拟现实、数字导航与数字遗产保护等方面有着重要的应用。


  • 火山引擎多媒体实验室团队自研改进 SFM 算法框架,实现高精度的场景稀疏重建及图像定位。

针对特征点提取、匹配算法,通过结合传统特征与深度学习方法,算法在大视角/尺度变化、暗光、弱纹理、运动模糊等多种挑战场景下仍能有效提取足量稳定的特征;通过将特征点纳入自注意力和交叉注意力网络,结合多源传感器输入检索全局最优图像特征匹配,使得算法即使在空地跨视角、鱼眼/针孔/全景跨相机等复杂数据输入的情况下,实现建图完整度、成功率均达到 100%。同时,开发支持多相机系统、多相机模型光束法平差优化算法,同时也兼容其他不同传感器的联合重建,实现高精度、多模态的位姿估计。


  • 在稀疏重建算法之后,需要进行稠密算法重建。

火山引擎多媒体实验室通过立体视觉 (Multiple View Stereo,简称 MVS)技术将二维图像信息转化为三维点云信息。团队自研基于多目立体视觉及全景图的深度估计算法,通过神经网络进行稠密深度估计,在野外大场景环境获得高精度的场景稠密几何测量。获得点云信息后,进行点云去噪和补全,并通过点云配准实现场景几何一致性。最后,通过基于 TSDF 和图像语义信息的点云融合策略,进一步滤除噪声,生成更加平滑一致的完整场景点云。


  • 获得场景点云后,进行 Mesh 重建。

火山引擎多媒体实验室自研多种网格优化算法,实现网格平滑、去噪、简化和补洞,获得更加精细、完整的高质量网格模型。得益于图像处理期间高精度的相机位姿估计以及图像超分等画质优化,结合自研贴图算法,获得更高清、拼缝更少的高质量纹理贴图。同时通过纹理重打包算法优化,实现更高的纹理利用率,降低存储资源浪费,提升纹理有效分辨率。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    目前,火山引擎视频云平台具备自动化空间建模链路,助力大场景重建,可支持采集 RGBD/RGB 数据(无人机、手持采集等)自动化上传云平台,2-4 小时后自动产出建模结果,建模精度可达 1cm~2cm。同时,火山引擎视频云的云渲染可视化系统,联合自研动态传输算法,可实现高度真实感的模型渲染。


    图:火山引擎视频云三维重建平台


    火山引擎多媒体实验室将神经辐射场技术(NeRF)与自研大场景建模技术相结合,研发行业领先的大场景光场重建方案,实现高度真实感(psnr>30)的场景重建、复现及后编辑。


    在具体实践的场景中,动态物体会使 NeRF 重建出现伪影,借助自研动静态分割、影子检测、inpainting 等算法,对场景中和几何不一致的区域进行提取、修复。同时借助自研高精度 SFM 算法框架,对场景进行高精度的几何重建,包括相机参数估计以及稀疏、稠密点云生成。另外,对场景进行拆分以减小单次训练资源消耗,并可做分布式训练、维护。在神经辐射场训练过程中,针对室外无边界大场景,团队通过优化策略以提升该场景下的新视角生成效果,比如,通过在训练中同时优化位姿提高重建精度、基于哈希编码的层次化表达提升模型训练速度、借助外观编码提升不同时间采集场景的外观一致性、借助 mvs 稠密深度信息提升几何精度等。


    以团队同毫末智行合作为例,完成单路采集以及多路合并的 NeRF 重建,相关成果已在毫末 AI Day 发布。

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        虚实融合,提升用户体验


        为提升用户沉浸式体验,火山引擎多媒体实验室自研虚实融合技术,将环境实拍全景图与场景模型进行对齐、融合。团队利用先进的人工智能技术,建立全景图图像特征与模型关键点的匹配关系,通过 PnP 算法以及光束法平差算法将全景图注册至场景模型坐标系,实现尺度、位置的统一,从而实现模型渲染与实拍全景视频渲染的统一,达到虚实融合的效果。


        同时,为扩大用户体验的自由度,团队针对该场景自研非球面天空盒渲染,克服传统的球面全景图渲染仅在图像采集中心视觉一致的缺陷,进一步提升实拍全景图渲染模型与地形模型的匹配程度,以实现更大运动范围的视觉一致性,进一步提升沉浸式体验。


        图:虚实效果对比示例


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00

            以上 2 个视频:6DoF 互动漫游

            物品重建,高精度还原细节


            在《跟着德爷闯东非》互动纪录片中,会有用户虚拟体验探险剧情的桥段,例如钻木取火,木棍训蛇等。为了带来真实的体验,道具往往是在实际拍摄过程中就地取材,有细长的树枝,薄薄的小刀,还有形态复杂的篝火堆。这些道具的重建本身是比较有挑战的,再加上整个拍摄过程比较紧张,留给扫描的时间并不充裕。为此,火山引擎视频云团队沉淀出一套采集方便,操作简单,能还原各类复杂物品的重建系统。


            为了重建形状比较复杂的道具(例如狭长的木棍、锋利的小刀)。火山引擎视频云采用符号距离场(Signed Distance Fields,简称 SDF)的技术方案来表示三维物体,结合深度学习的方法克服了以上重建难点。对于如何监督神经网络使其准确地拟合该 SDF,火山引擎视频云先用运动恢复结构(Structure from Motion,简称 SfM)算法,精确计算拍摄图像的相机姿态,再利用可微渲染的方法将 SDF 所表示的空间信息渲染到图像上,把渲染得到的图像和该视角下采集的图像做比较,不断优化神经网络,使 SDF 在各个采集视角下的渲染结果尽可能与实际采集的图像一致。为了进一步提高重建精细度,在优化 SDF 的时候加入稀疏重建得到的三维点做约束,能更好的还原物体的细节特征


            图:道具重建效果展示

            交互技术,让玩法更丰富


            采用虚实融合技术可以构造由空间重建模型和实拍 360°VR 视频两部分构成的 6DoF 互动场景,同时在《跟着德爷闯东非》项目中,多媒体实验室也实现了终端上的交互技术,同内容团队一起创造出了很多有创意性的虚实结合的玩法。

            拍照功能

            使用离屏相机管道,把从全景视频球上投影出的针孔 2D 图像重新贴在玩家手持的相机模型上,以实现出玩家可以对环境中任意角度拍照的玩法。


            图:拍照功能示例

            物品交互功能

            火山引擎多媒体实验室可以估计 VR 视频中的深度信息,结合 3D 虚拟空间中的虚拟物体的位置信息,计算出全景视频球上指定视频元素,对应于玩家在真实的 3D 空间下的位置。从而,实现视频画面上真实物品转换到玩家可交互虚拟物品模型的无缝转换的玩法。


            图:物品交互功能示例

            虚实融合技术的广阔应用


            虚实融合技术目前正处于快速发展的阶段,在众多领域中展现出广阔的应用前景。如游戏、教育和医疗等领域,已开始积极探索虚实融合技术的应用,并取得了不错的成绩:


            • 在游戏领域,虚实融合技术赋予了游戏开发者更多创造力和想象力的空间。通过将虚拟元素与真实世界相结合,游戏能够提供更加沉浸式和交互式的体验。玩家可以与虚拟角色和游戏环境进行实时互动,增强了游戏的娱乐性和参与感。


            • 在教育领域,也可以看到虚实融合技术的巨大潜力。通过将虚拟内容融入到教学场景中,学生可以以更加生动和直观的方式进行学习,提高学习效果和兴趣。虚实融合技术可以为学生提供与实物互动的机会,使他们能够亲身体验和理解抽象概念,促进知识的深入理解和记忆。


            • 在医疗领域,虚实融合可以用于模拟手术训练、辅助手术导航和可视化诊断等方面。通过结合虚拟现实和真实世界数据,医生可以更准确地进行手术规划和操作,提高手术的安全性和成功率。此外,虚实融合还可以用于康复训练和疼痛管理等方面,为患者提供更加个性化和有效的治疗手段。


            以上内容在火山引擎视频云与 NVIDIA 团队合作推出的《云上新视界》线上课程内进行了详细解读。《云上新视界》致力于打造一档以音视频创新场景与最佳实践为核心内容的系列视频栏目,内容覆盖赛事直播、6DoF 互动体验、3D 人体重建、弹幕游戏等火爆热门场景,为行业注入新鲜力量和创新源泉。

            2023-09-26 15:495934
            用户头像
            鲁冬雪 GMI Cloud Head of China Marketing

            发布了 371 篇内容, 共 326.9 次阅读, 收获喜欢 304 次。

            关注

            评论 2 条评论

            发布
            用户头像
            效果太炫了
            2023-09-26 20:11 · 北京
            回复
            用户头像
            VR互动越来越高级了
            2023-09-26 19:39 · 上海
            回复
            没有更多了
            发现更多内容

            SpringBoot内置tomcat启动过程及原理

            京东科技开发者

            tomcat 后端 tomcat源码解读 编程‘ spring-boot

            纷繁复杂见真章,华为云产品需求管理利器CodeArts Req解读

            华为云开发者联盟

            云计算 需求管理 华为云 12 月 PK 榜

            LED电子显示屏加速在生活中的应用

            Dylan

            LED LED显示屏 led显示屏厂家

            linux高可用小知识点汇总-行云管家

            行云管家

            高可用 ha 双机热备

            想学习大数据怎么选择培训机构

            小谷哥

            多样化功能助力企业精准决策,瓴羊Quick BI数据看板解析

            对不起该用户已成仙‖

            如何利用A/B实验提升产品用户留存?看字节实战案例给你答案!

            字节跳动数据平台

            大数据 AB testing实战 12 月 PK 榜

            FL Studio正式推出全新21版首发新版DAW(数字音乐工作站)工具

            茶色酒

            FL STUDIO20.9 FL Studio 21 FL Studio21

            跟我学Python图像处理丨带你入门OpenGL

            华为云开发者联盟

            Python 人工智能 华为云 12 月 PK 榜

            云安全系列5:2023 年需要了解的 40个云安全术语

            HummerCloud

            云计算 云安全

            NFT盲盒质押分红挖矿dapp系统开发源码搭建

            开发微hkkf5566

            不足10人的创业团队,怎么在半个月内上线一个新产品?

            LigaAI

            创业 敏捷开发管理 创业公司 远程开发 12 月 PK 榜

            武汉大数据培训机构怎么样

            小谷哥

            面对庞大复杂的身份和权限管理,企业该怎么办?

            华为云开发者联盟

            后端 开发 数字化 华为云 12 月 PK 榜

            BI智慧仓储行业应用方案,让你的仓储物流不再复杂

            葡萄城技术团队

            前端 数据可视化 仓储 智慧仓储 大屏

            应用瓴羊Quick B,可以有效地提升企业的数据化分析能力

            对不起该用户已成仙‖

            java程序员培训好就业吗

            小谷哥

            企业想要提升数据分析能力,还需要选择瓴羊Quick BI

            三十

            什么是IT资产?如何保障IT资产安全?

            行云管家

            网络安全 数据安全 IT资产

            Web前端培训机构有哪些?

            小谷哥

            前端培训学习就业前景怎么样?

            小谷哥

            cleanmymac2023免费绿色版下载安装教程

            茶色酒

            CleanMyMac2023

            RTS超低延时直播技术:保障大型赛事直播零时差互动

            阿里云CloudImagine

            云计算 阿里云 世界杯

            HMS Core 6.8.0版本发布公告

            HarmonyOS SDK

            HMS Core

            “零代码”的瓴羊Quick BI即席分析,业务人员也能轻松上手

            夏日星河

            如何将传统 Web 框架迁移部署到 Serverless 架构?

            Serverless Devs

            Python 架构 前端

            功能强大的国产API管理神器 Eolink,亲测好用

            海拥(haiyong.site)

            开发工具 API API测试

            专访|开源之夏最佳质量奖 Apache RocketMQ Committer 黄章衡

            Apache RocketMQ

            #开源 消息列队

            为什么很多产品经理,做不了产品管理?

            LigaAI

            产品经理 敏捷开发 产品管理 产品功能 12 月 PK 榜

            RISC-V SIG 推出基于openEuler 的下游发行版 Eulaceura

            openEuler

            Linux 开源 操作系统 openEuler risc-v

            和德爷一起 6DoF 互动探险,火山引擎空间重建和虚实融合技术_字节跳动_InfoQ精选文章