AICon 北京站 Keynote 亮点揭秘,想了解 Agent 智能体来就对了! 了解详情
写点什么

和德爷一起 6DoF 互动探险,火山引擎空间重建和虚实融合技术

火山引擎视频云

  • 2023-09-26
    北京
  • 本文字数:3729 字

    阅读完需:约 12 分钟

和德爷一起 6DoF 互动探险,火山引擎空间重建和虚实融合技术

《跟着德爷闯东非》是 Pico 一款全新的 6DoF 互动纪录片。主角由在全球拥有 530 万粉丝的明星探险家德爷(Edward James Stafford)担任。观众以第一视角摄影师的身份陪伴德爷一起冒险,近距离观察野生动物,体验非洲大草原的野外生存之旅。


与行业内常见的不具备互动性的 3DoF 实拍纪录片以及不具备写实性的游戏引擎制作的 6DoF 纪录片不同,《跟着德爷闯东非》纪录片的拍摄采用空间重建技术及虚实融合技术,兼顾实拍和虚拟互动,以全新的 6DoF 互动体验,增强了 VR 内容的沉浸性和交互性,让用户跟随德爷的脚步沉浸式体验从城市“跃入”荒野的快感。




全新 VR 空间互动性的挑战和难点


传统 VR 实拍视频的交互通常采用不同选项触发不同结局的 AB 型互动方式,而《跟着德爷闯东非》想要实现的是全新的 VR 空间互动,用户可以抓起虚拟世界中的物体完成任务,比如和德爷一起钻木取火,也可以在场景中自由走动,在非洲草原和德爷一起追捕猎杀珍珠鸡,实现全新的交互并达到高沉浸感,突破传统视频的界限。


而想要实现全新的交互和体验高沉浸感,需要做到:

  1. 实际拍摄的 VR 视频和用于互动的场景、物品具备高度一致性,包含几何结构、纹理色彩及光影的一致性,这对于空间重建技术提出了很高的要求,需要做到高精度、高质量、真实感建模,超写实数字复原空间场景,让用户感受到原汁原味的非洲荒野。

  2. 用户在体验中,虚拟元素与实际场景相互交织,让用户在场景中难以区分哪些是真实的,哪些是虚拟的,达到了最佳的体验效果。这就要求无缝虚实融合技术,需要对重建的数字素材和实拍的视频素材进行像素级配准,这样用户才能够自然沉浸地在场景中和德爷一起探索非洲,并从实拍 3DoF 视频中德爷手里顺利接过数字重建的 6DoF 互动道具。


空间重建,复原现实世界


空间重建技术能够复原现实世界的场景和物品并转化为数字资产,是计算机视觉和摄影测量中的重要研究课题,也在智慧城市、虚拟现实、数字导航与数字遗产保护等方面有着重要的应用。


  • 火山引擎多媒体实验室团队自研改进 SFM 算法框架,实现高精度的场景稀疏重建及图像定位。

针对特征点提取、匹配算法,通过结合传统特征与深度学习方法,算法在大视角/尺度变化、暗光、弱纹理、运动模糊等多种挑战场景下仍能有效提取足量稳定的特征;通过将特征点纳入自注意力和交叉注意力网络,结合多源传感器输入检索全局最优图像特征匹配,使得算法即使在空地跨视角、鱼眼/针孔/全景跨相机等复杂数据输入的情况下,实现建图完整度、成功率均达到 100%。同时,开发支持多相机系统、多相机模型光束法平差优化算法,同时也兼容其他不同传感器的联合重建,实现高精度、多模态的位姿估计。


  • 在稀疏重建算法之后,需要进行稠密算法重建。

火山引擎多媒体实验室通过立体视觉 (Multiple View Stereo,简称 MVS)技术将二维图像信息转化为三维点云信息。团队自研基于多目立体视觉及全景图的深度估计算法,通过神经网络进行稠密深度估计,在野外大场景环境获得高精度的场景稠密几何测量。获得点云信息后,进行点云去噪和补全,并通过点云配准实现场景几何一致性。最后,通过基于 TSDF 和图像语义信息的点云融合策略,进一步滤除噪声,生成更加平滑一致的完整场景点云。


  • 获得场景点云后,进行 Mesh 重建。

火山引擎多媒体实验室自研多种网格优化算法,实现网格平滑、去噪、简化和补洞,获得更加精细、完整的高质量网格模型。得益于图像处理期间高精度的相机位姿估计以及图像超分等画质优化,结合自研贴图算法,获得更高清、拼缝更少的高质量纹理贴图。同时通过纹理重打包算法优化,实现更高的纹理利用率,降低存储资源浪费,提升纹理有效分辨率。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    目前,火山引擎视频云平台具备自动化空间建模链路,助力大场景重建,可支持采集 RGBD/RGB 数据(无人机、手持采集等)自动化上传云平台,2-4 小时后自动产出建模结果,建模精度可达 1cm~2cm。同时,火山引擎视频云的云渲染可视化系统,联合自研动态传输算法,可实现高度真实感的模型渲染。


    图:火山引擎视频云三维重建平台


    火山引擎多媒体实验室将神经辐射场技术(NeRF)与自研大场景建模技术相结合,研发行业领先的大场景光场重建方案,实现高度真实感(psnr>30)的场景重建、复现及后编辑。


    在具体实践的场景中,动态物体会使 NeRF 重建出现伪影,借助自研动静态分割、影子检测、inpainting 等算法,对场景中和几何不一致的区域进行提取、修复。同时借助自研高精度 SFM 算法框架,对场景进行高精度的几何重建,包括相机参数估计以及稀疏、稠密点云生成。另外,对场景进行拆分以减小单次训练资源消耗,并可做分布式训练、维护。在神经辐射场训练过程中,针对室外无边界大场景,团队通过优化策略以提升该场景下的新视角生成效果,比如,通过在训练中同时优化位姿提高重建精度、基于哈希编码的层次化表达提升模型训练速度、借助外观编码提升不同时间采集场景的外观一致性、借助 mvs 稠密深度信息提升几何精度等。


    以团队同毫末智行合作为例,完成单路采集以及多路合并的 NeRF 重建,相关成果已在毫末 AI Day 发布。

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        虚实融合,提升用户体验


        为提升用户沉浸式体验,火山引擎多媒体实验室自研虚实融合技术,将环境实拍全景图与场景模型进行对齐、融合。团队利用先进的人工智能技术,建立全景图图像特征与模型关键点的匹配关系,通过 PnP 算法以及光束法平差算法将全景图注册至场景模型坐标系,实现尺度、位置的统一,从而实现模型渲染与实拍全景视频渲染的统一,达到虚实融合的效果。


        同时,为扩大用户体验的自由度,团队针对该场景自研非球面天空盒渲染,克服传统的球面全景图渲染仅在图像采集中心视觉一致的缺陷,进一步提升实拍全景图渲染模型与地形模型的匹配程度,以实现更大运动范围的视觉一致性,进一步提升沉浸式体验。


        图:虚实效果对比示例


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00

            以上 2 个视频:6DoF 互动漫游

            物品重建,高精度还原细节


            在《跟着德爷闯东非》互动纪录片中,会有用户虚拟体验探险剧情的桥段,例如钻木取火,木棍训蛇等。为了带来真实的体验,道具往往是在实际拍摄过程中就地取材,有细长的树枝,薄薄的小刀,还有形态复杂的篝火堆。这些道具的重建本身是比较有挑战的,再加上整个拍摄过程比较紧张,留给扫描的时间并不充裕。为此,火山引擎视频云团队沉淀出一套采集方便,操作简单,能还原各类复杂物品的重建系统。


            为了重建形状比较复杂的道具(例如狭长的木棍、锋利的小刀)。火山引擎视频云采用符号距离场(Signed Distance Fields,简称 SDF)的技术方案来表示三维物体,结合深度学习的方法克服了以上重建难点。对于如何监督神经网络使其准确地拟合该 SDF,火山引擎视频云先用运动恢复结构(Structure from Motion,简称 SfM)算法,精确计算拍摄图像的相机姿态,再利用可微渲染的方法将 SDF 所表示的空间信息渲染到图像上,把渲染得到的图像和该视角下采集的图像做比较,不断优化神经网络,使 SDF 在各个采集视角下的渲染结果尽可能与实际采集的图像一致。为了进一步提高重建精细度,在优化 SDF 的时候加入稀疏重建得到的三维点做约束,能更好的还原物体的细节特征


            图:道具重建效果展示

            交互技术,让玩法更丰富


            采用虚实融合技术可以构造由空间重建模型和实拍 360°VR 视频两部分构成的 6DoF 互动场景,同时在《跟着德爷闯东非》项目中,多媒体实验室也实现了终端上的交互技术,同内容团队一起创造出了很多有创意性的虚实结合的玩法。

            拍照功能

            使用离屏相机管道,把从全景视频球上投影出的针孔 2D 图像重新贴在玩家手持的相机模型上,以实现出玩家可以对环境中任意角度拍照的玩法。


            图:拍照功能示例

            物品交互功能

            火山引擎多媒体实验室可以估计 VR 视频中的深度信息,结合 3D 虚拟空间中的虚拟物体的位置信息,计算出全景视频球上指定视频元素,对应于玩家在真实的 3D 空间下的位置。从而,实现视频画面上真实物品转换到玩家可交互虚拟物品模型的无缝转换的玩法。


            图:物品交互功能示例

            虚实融合技术的广阔应用


            虚实融合技术目前正处于快速发展的阶段,在众多领域中展现出广阔的应用前景。如游戏、教育和医疗等领域,已开始积极探索虚实融合技术的应用,并取得了不错的成绩:


            • 在游戏领域,虚实融合技术赋予了游戏开发者更多创造力和想象力的空间。通过将虚拟元素与真实世界相结合,游戏能够提供更加沉浸式和交互式的体验。玩家可以与虚拟角色和游戏环境进行实时互动,增强了游戏的娱乐性和参与感。


            • 在教育领域,也可以看到虚实融合技术的巨大潜力。通过将虚拟内容融入到教学场景中,学生可以以更加生动和直观的方式进行学习,提高学习效果和兴趣。虚实融合技术可以为学生提供与实物互动的机会,使他们能够亲身体验和理解抽象概念,促进知识的深入理解和记忆。


            • 在医疗领域,虚实融合可以用于模拟手术训练、辅助手术导航和可视化诊断等方面。通过结合虚拟现实和真实世界数据,医生可以更准确地进行手术规划和操作,提高手术的安全性和成功率。此外,虚实融合还可以用于康复训练和疼痛管理等方面,为患者提供更加个性化和有效的治疗手段。


            以上内容在火山引擎视频云与 NVIDIA 团队合作推出的《云上新视界》线上课程内进行了详细解读。《云上新视界》致力于打造一档以音视频创新场景与最佳实践为核心内容的系列视频栏目,内容覆盖赛事直播、6DoF 互动体验、3D 人体重建、弹幕游戏等火爆热门场景,为行业注入新鲜力量和创新源泉。

            2023-09-26 15:495501
            用户头像
            鲁冬雪 GMI Cloud Head of China Marketing

            发布了 367 篇内容, 共 298.6 次阅读, 收获喜欢 300 次。

            关注

            评论 2 条评论

            发布
            用户头像
            效果太炫了
            2023-09-26 20:11 · 北京
            回复
            用户头像
            VR互动越来越高级了
            2023-09-26 19:39 · 上海
            回复
            没有更多了
            发现更多内容

            Elasticsearch Search Options 搜索参数

            escray

            elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

            数据产品经理实战-用户运营体系搭建

            第519区

            算法 数据产品 数据运营

            云计算带来的变革将如何在2021年加速创新

            云计算

            “蚂蚁牙黑”太火,想玩就用ModelArts做一个

            华为云开发者联盟

            AI 动画 modelarts 图像

            ETL工具—Taskctl 如何搭建配置作业类型的管理

            敏捷调度TASKCTL

            大数据 kettle 运维自动化 海豚调度 ETL

            vivo 官网资源包适配多场景的应用

            vivo互联网技术

            低代码 无服务器云函数

            小心你的个人信息——GitHub 热点速览 v.21.09

            HelloGitHub

            GitHub 开源 终端工具 社交

            神经网络攻防:01.模型到底是什么?

            P小二

            神经网络 网络安全 AIPwn AI安全 P小二

            重磅!京东云自研第四代云主机发布;曝国外物理学家开发出用于量子计算机的汇编语言

            京东科技开发者

            微软 开发者 量子计算机 谷歌

            隧道建设手段结合科技能有多强大?盾构机可视化让工程化繁为简

            一只数据鲸鱼

            物联网 数据可视化 3D可视化 盾构机 隧道工程

            公安合成作战系统!智慧警务情指行一体化建设解决方案

            源中瑞-龙先生

            公安合成作战系统开发 产品解决方案 情指行一体化 公安

            Mac 下配置 Intellij IDEA + Tomcat 出现权限问题的解决办法

            少平

            tomcat

            SARIF:DevSecOps工具与平台交互的桥梁

            华为云开发者联盟

            安全 DevSecOps SARIF 自动化平台 OASIS

            一场由fork引发的超时,让我们重新探讨了Redis的抖动问题

            华为云开发者联盟

            数据库 redis 华为云 GaussDB fork

            入选SIGMOD2021的时间序列多周期检测通用框架RobustPeriod如何支撑阿里业务场景?

            阿里云大数据AI技术

            人工智能 数据库 大数据

            阿里巴巴Druid,轻松实现MySQL数据库加密!

            王磊

            Java springboot Druid

            Java 中各种DTO,POJO 等的概念

            少平

            产品训练营 - 第五周 - 作业

            邹小胖

            产品经理训练营

            FindBugs:Java 静态代码检查

            少平

            代码审查

            Linux入门篇 —— 手把手教你 Linux 三种网络配置方法

            若尘

            Linux 网络

            一个15年的架构师谈“如何成为一名优秀的解决方案架构师”

            华为云开发者联盟

            架构 软件 架构师 华为云

            产品训练营-第五周作业

            羽室

            关于 Synchronized 的一个点,网上99%的文章都错了

            yes

            Java JVM

            字节跳动力推的OKR,是未来企业发展的标配吗?

            ToB行业头条

            华为AR&VR黑科技:以“自由视角”360度尽展舞台唯美

            华为云开发者联盟

            华为 算法 视频 AR&VR 全息显示

            开工第一周,有哪些助你弯道超车的好书?

            博文视点Broadview

            跨云迁移过程中的数据同步及一致性校验实践(二)

            UCloud技术

            迁移 数据传输 数据库迁移 数据迁移

            工作日志3-1

            技术骨干

            左手画条龙右手画彩虹——认知负荷理论

            Justin

            心理学 28天写作 游戏设计

            Spring中的事务使用注意事项

            少平

            spring

            跨云迁移过程中的数据同步及一致性校验实践(一)

            UCloud技术

            迁移 数据传输 数据库迁移 数据迁移

            和德爷一起 6DoF 互动探险,火山引擎空间重建和虚实融合技术_字节跳动_InfoQ精选文章