写点什么

火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播

  • 2025-09-16
    北京
  • 本文字数:1775 字

    阅读完需:约 6 分钟

大小:946.63K时长:05:23
火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播

近日,火山引擎多媒体实验室的最新研究成果 LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splatting for Mobile Devices 成功入选计算机图形学顶会 SIGGRAPH Emerging Technologies,并于 2025 年 8 月 10 日至 8 月 14 日在加拿大温哥华对外展出。这一技术突破首次实现了移动端实时自由视角视频(FVV)直播的完整链路落地,在视觉保真度、计算效率和传输成本之间达成了前所未有的平衡,为互动直播、沉浸式娱乐等场景开辟了技术新范式。


图 1 论文主页

打破技术瓶颈:从实验室走向移动端的实时自由视角革命


自由视角视频(FVV)允许用户从任意角度探索场景,是元宇宙、沉浸式直播等前沿领域的核心技术。但长期以来,体积视频的高计算负载和高带宽传输需求一直是移动端应用的“拦路虎”。火山引擎多媒体实验室的 LiveGS 系统通过三大创新,首次实现了“端到端实时 FVV 直播”的工程化落地:

三大技术突破,重新定义移动端 FVV 标准

1. 实时 3D 高斯表示:告别离线优化,毫秒级重建逼真人体模型


传统 3D 高斯泼溅技术需要几分钟乃至几十分钟进行场景优化,无法满足直播需求。LiveGS 创新性采用前馈神经网络架构,结合 Sobel 特征自适应建模策略,对人体不同区域(如平坦肤色区与细节丰富的头发、衣物)采用粗细粒度差异化建模,在保证渲染质量的前提下,将高斯数量减少 70%,实现无需逐场景优化的实时 3D 重建。实验显示,系统可在 A10 显卡上以超过 30 FPS 的帧率运行,延迟控制在 1 秒以内。


图 2 LiveGS 前馈神经网络架构图


2. 低损耗压缩传输:500 倍压缩率下 PSNR 损失<3dB,适配标准视频链路


LiveGS 将 3D 高斯属性(尺度、不透明度、深度等)映射到 2D 视频平面,采用 YUV 4:2:0 格式结合可变位打包(VBP)技术进行量化编码。通过基于渲染重要性的比特率分配策略(深度和 RGB 区域优先编码),在实现 500 倍压缩的同时,将画质损失控制在 PSNR 3dB 以内,完美适配现有视频传输链路,带宽需求低于 20Mbps。


图 3 LiveGS 编码传输示意图

3. 移动端渲染优化:区域化高斯裁剪,算力消耗直降 70%


针对移动端算力限制,LiveGS 提出基于掩码的高斯选择策略:高频区域(如面部、手部)保留全部像素高斯,低频区域(如躯干)仅保留 1/3 像素,渲染高斯数量减少 70%。结合混合渲染技术,在 iPhone 15 等设备上实现了 30FPS 流畅的视角旋转、缩放等交互操作,推动 FVV 从 PC 端走向大众移动端。

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00

    抖音“裸眼 3D”直播


    同时,多媒体实验室还成功研发了一项创新技术,该技术能通过普通的单目视频直接生成自由视角视频,并且具备直播能力。实验室和抖音团队一起成功落地了“裸眼 3D”直播,带给用户全新的直播观看体验!


    经过云端 AI 大模型处理,2D 直播可以被实时处理为带有 3D 信息的直播流,包含深度等 3D 空间信息,然后经过编码、转码等处理,通过直播链路分发至用户设备。在移动客户端上,根据深度信息,实时对直播内容进行 3D 重建;用户通过晃动手机,可将 3D 内容实时渲染至不同的观看视角,从而实现“裸眼 3D”效果。

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00

        从技术创新到场景落地:开启沉浸式互动新体验


        LiveGS 的突破不仅是算法层面的革新,更构建了“实时采集 - 云端重建 - 压缩传输 - 移动端渲染”的完整技术闭环解决方案,其应用场景覆盖:


        • 体育赛事直播:用户可自由切换视角,360°解析运动员动作细节,如篮球扣篮的空中姿态、赛车过弯的轮胎动态;

        • 虚拟偶像演出:支持多角度实时互动,观众可自定义镜头焦点,打造「私人定制」的沉浸式观看体验;

        • 远程会议与教育:动态捕捉演讲者姿态与手势,结合自由视角切换增强跨空间沟通的临场感;

        • 电商直播:用户可 360°查看商品细节(如服饰剪裁、珠宝纹理),以沉浸式交互提升购物决策效率。


        图 4 LivsGS 直播系统架构示意图

        附录


        火山引擎多媒体实验室的前沿探索


        火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


        关于火山引擎


        火山引擎是字节跳动旗下云和 AI 服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,通过云和智能技术帮助企业构建体验创新、数据驱动和敏捷迭代等能力,推进企业 AI 转型,激发增长潜能。

        2025-09-16 17:194082

        评论

        发布
        暂无评论

        鸿蒙应用开发从入门到入行 - 篇3:ArkUI布局基础与制作可交互页面

        猫林老师

        鸿蒙 HarmonyOS 鸿蒙应用开发 鸿蒙原生应用开发 HarmonyOS NEXT

        SelfAttention在Ascend上的实现

        zjun

        Transformer 大模型 Ascend

        VMware ESXi 8.0U3c Unlocker & OEM BIOS 集成网卡驱动和 NVMe 驱动 (集成驱动版)

        sysin

        esxi

        鸿蒙Flutter之解析flutter相关的cppcrash堆栈

        flfljh

        “全球金牌敏捷课程” · 12月28-29日CSM认证课程 · Jim老师引导讨论AI & Agility话题

        ShineScrum

        Ascend Extension for PyTorch是个what?

        zjun

        PyTorch CANN Ascend

        鸿蒙next中Web的使用

        flfljh

        鸿蒙应用开发从入门到入行 - 篇7:http网络请求

        猫林老师

        鸿蒙 HarmonyOS 鸿蒙应用开发 鸿蒙原生应用开发 HarmonyOS NEXT

        0基础跟练!代码小白也能搭建自己的专属 AI 聊天助手

        TRAE.ai

        AI 聊天机器人 AI编程 聊天助手 豆包MarsCode

        还在为入门鸿蒙效率慢而困惑?不妨试试开发学习神器 - AI辅助编程

        猫林老师

        鸿蒙 HarmonyOS 鸿蒙应用开发 鸿蒙原生应用开发 HarmonyOS NEXT

        《Django 5 By Example》阅读笔记:p614-p644

        codists

        Python django

        第78期 | GPTSecurity周报

        云起无垠

        VMware ESXi 7.0U3r Unlocker & OEM BIOS 集成网卡驱动和 NVMe 驱动 (集成驱动版)

        sysin

        esxi

        Splunk Enterprise 9.4 发布,新增功能概览

        sysin

        Splunk Enterprise

        VMware ESXi 8.0U3c Unlocker & OEM BIOS 标准版和厂商定制版

        sysin

        esxi

        反向海淘与反向代购的盈利之道及代购系统建站挑战

        代码忍者

        代购系统 跨境独立站

        鸿蒙Flutter性能调优之滑动响应时延

        flfljh

        鸿蒙开发:前端页面调用 ArkTS 函数全解析

        flfljh

        深度学习的下一站:解锁人工智能的新边界

        天津汇柏科技有限公司

        深度学习 AI 人工智能

        Ascend Extension for PyTorch的源码解析

        zjun

        模型 PyTorch Ascend

        uniapp开发鸿蒙,是前端新出路吗?

        猫林老师

        前端 HarmonyOS

        msprofiler前置知识:如何看懂tracing profile文件?

        zjun

        性能 debug Trace

        Ascend上的PageAttention

        zjun

        大模型 Ascend PagedAttention

        智谱清言英特尔酷睿Ultra专享版发布,离线模型玩转AIPC

        E科讯

        Ascend上的FlashAttention实现

        zjun

        Transformer 大模型 Ascend

        VMware Fusion 13.6.2 OEM BIOS 2.7

        sysin

        VMware Fusion 虚拟机

        VMware ESXi 7.0U3r Unlocker & OEM BIOS 标准版和厂商定制版

        sysin

        esxi

        鸿蒙应用开发从入门到入行 - 篇6:数据监听器、滚动、侧滑功能

        猫林老师

        鸿蒙 HarmonyOS 鸿蒙应用开发 鸿蒙原生应用开发 HarmonyOS NEXT

        鸿蒙JSON对象里面的Map类型的数据如何接收

        flfljh

        安全架构师的自我修炼:从原则到实践

        I

        安全架构师 信息安全 安全设计 企业安全 安全架构设计

        VMware Workstation 17.6.2 Pro Unlocker & OEM BIOS 2.7 for Windows & Linux

        sysin

        Workstation

        火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播_生成式 AI_字节跳动技术团队_InfoQ精选文章