10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播

  • 2025-09-16
    北京
  • 本文字数:1775 字

    阅读完需:约 6 分钟

大小:946.63K时长:05:23
火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播

近日,火山引擎多媒体实验室的最新研究成果 LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splatting for Mobile Devices 成功入选计算机图形学顶会 SIGGRAPH Emerging Technologies,并于 2025 年 8 月 10 日至 8 月 14 日在加拿大温哥华对外展出。这一技术突破首次实现了移动端实时自由视角视频(FVV)直播的完整链路落地,在视觉保真度、计算效率和传输成本之间达成了前所未有的平衡,为互动直播、沉浸式娱乐等场景开辟了技术新范式。


图 1 论文主页

打破技术瓶颈:从实验室走向移动端的实时自由视角革命


自由视角视频(FVV)允许用户从任意角度探索场景,是元宇宙、沉浸式直播等前沿领域的核心技术。但长期以来,体积视频的高计算负载和高带宽传输需求一直是移动端应用的“拦路虎”。火山引擎多媒体实验室的 LiveGS 系统通过三大创新,首次实现了“端到端实时 FVV 直播”的工程化落地:

三大技术突破,重新定义移动端 FVV 标准

1. 实时 3D 高斯表示:告别离线优化,毫秒级重建逼真人体模型


传统 3D 高斯泼溅技术需要几分钟乃至几十分钟进行场景优化,无法满足直播需求。LiveGS 创新性采用前馈神经网络架构,结合 Sobel 特征自适应建模策略,对人体不同区域(如平坦肤色区与细节丰富的头发、衣物)采用粗细粒度差异化建模,在保证渲染质量的前提下,将高斯数量减少 70%,实现无需逐场景优化的实时 3D 重建。实验显示,系统可在 A10 显卡上以超过 30 FPS 的帧率运行,延迟控制在 1 秒以内。


图 2 LiveGS 前馈神经网络架构图


2. 低损耗压缩传输:500 倍压缩率下 PSNR 损失<3dB,适配标准视频链路


LiveGS 将 3D 高斯属性(尺度、不透明度、深度等)映射到 2D 视频平面,采用 YUV 4:2:0 格式结合可变位打包(VBP)技术进行量化编码。通过基于渲染重要性的比特率分配策略(深度和 RGB 区域优先编码),在实现 500 倍压缩的同时,将画质损失控制在 PSNR 3dB 以内,完美适配现有视频传输链路,带宽需求低于 20Mbps。


图 3 LiveGS 编码传输示意图

3. 移动端渲染优化:区域化高斯裁剪,算力消耗直降 70%


针对移动端算力限制,LiveGS 提出基于掩码的高斯选择策略:高频区域(如面部、手部)保留全部像素高斯,低频区域(如躯干)仅保留 1/3 像素,渲染高斯数量减少 70%。结合混合渲染技术,在 iPhone 15 等设备上实现了 30FPS 流畅的视角旋转、缩放等交互操作,推动 FVV 从 PC 端走向大众移动端。

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00

    抖音“裸眼 3D”直播


    同时,多媒体实验室还成功研发了一项创新技术,该技术能通过普通的单目视频直接生成自由视角视频,并且具备直播能力。实验室和抖音团队一起成功落地了“裸眼 3D”直播,带给用户全新的直播观看体验!


    经过云端 AI 大模型处理,2D 直播可以被实时处理为带有 3D 信息的直播流,包含深度等 3D 空间信息,然后经过编码、转码等处理,通过直播链路分发至用户设备。在移动客户端上,根据深度信息,实时对直播内容进行 3D 重建;用户通过晃动手机,可将 3D 内容实时渲染至不同的观看视角,从而实现“裸眼 3D”效果。

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00

        从技术创新到场景落地:开启沉浸式互动新体验


        LiveGS 的突破不仅是算法层面的革新,更构建了“实时采集 - 云端重建 - 压缩传输 - 移动端渲染”的完整技术闭环解决方案,其应用场景覆盖:


        • 体育赛事直播:用户可自由切换视角,360°解析运动员动作细节,如篮球扣篮的空中姿态、赛车过弯的轮胎动态;

        • 虚拟偶像演出:支持多角度实时互动,观众可自定义镜头焦点,打造「私人定制」的沉浸式观看体验;

        • 远程会议与教育:动态捕捉演讲者姿态与手势,结合自由视角切换增强跨空间沟通的临场感;

        • 电商直播:用户可 360°查看商品细节(如服饰剪裁、珠宝纹理),以沉浸式交互提升购物决策效率。


        图 4 LivsGS 直播系统架构示意图

        附录


        火山引擎多媒体实验室的前沿探索


        火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


        关于火山引擎


        火山引擎是字节跳动旗下云和 AI 服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,通过云和智能技术帮助企业构建体验创新、数据驱动和敏捷迭代等能力,推进企业 AI 转型,激发增长潜能。

        2025-09-16 17:196

        评论

        发布
        暂无评论

        如何在Java、C、Ruby语言中使用Newscatcher API

        幂简集成

        ruby C语言 API java

        天润融通助力车企做好战败线索分析,实现商机转化最大化

        天润融通

        人工智能

        蚌埠住了!我把斯坦福大牛的Web安全开发指南给分享出来了!

        我再BUG界嘎嘎乱杀

        黑客 网络安全 信息安全 WEB安全 网安

        MelosBoom 智能硬件音响:推动全民 DePIN 的全新时代

        股市老人

        工程化实践:工程配置化设计

        XIAOJUSURVEY

        开源 配置化 工程化

        基于Golang实现Kubernetes边车模式

        俞凡

        golang 架构 微服务

        唯品会商品列表数据接口详解与实战应用(VIP.item_search)

        tbapi

        唯品会商品列表数据接口 唯品会API接口 唯品会

        123131

        一鸣(Ming)

        工程架构简析

        XIAOJUSURVEY

        开源 全栈 问卷架构

        Milvus 向量数据库进阶系列丨构建 RAG 多租户/多用户系统 (上)

        Zilliz

        人工智能 AI Milvus 向量数据库 大语言模型

        TapData 信创数据源 | 国产信创数据库 OceanBase 数据同步指南,加速国产化进程,推进自主创新建设

        tapdata

        制造业数字化转型创新思路 |《数智新时代制造业数字化创新实践白皮书》上线!

        tapdata

        物联网时代的数据库盘点

        Greptime 格睿科技

        sqlite 数据库 IoT 数据存储

        活动回顾 | 2024 搜索客社区 Meetup 首期线上直播活动圆满结束,附 PPT 下载

        极限实验室

        elasticsearch Meetup 极限科技 搜索客社区

        适配器模式在 Go 语言中的应用

        江湖十年

        Go 面试 设计模式 适配器模式 后端、

        聊聊JVM如何优化

        京东科技开发者

        开放签电子签章系统终于支持docker部署方式了

        开放签开源电子签章

        Docker 镜像 电子签章

        某黑产最新免杀攻击样本详细分析

        我再BUG界嘎嘎乱杀

        黑客 网络安全 安全 网安

        前端常用的几个工具网站

        源字节1号

        开源

        开启智能屏跃级体验,天猫精灵「哇哦闺蜜机」首发 4999 元起

        新消费日报

        中国AI长卷(三):算法生根

        脑极体

        mac单机游戏推荐:仙剑奇侠传3 for mac(支持M1)

        你的猪会飞吗

        Mac游戏下载 mac单机游戏

        极光大数据:百度文库智能PPT市场份额已达八成,用户增速远超行业水平

        极客天地

        火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播_生成式 AI_字节跳动技术团队_InfoQ精选文章