2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播

  • 2025-09-16
    北京
  • 本文字数:1775 字

    阅读完需:约 6 分钟

大小:946.63K时长:05:23
火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播

近日,火山引擎多媒体实验室的最新研究成果 LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splatting for Mobile Devices 成功入选计算机图形学顶会 SIGGRAPH Emerging Technologies,并于 2025 年 8 月 10 日至 8 月 14 日在加拿大温哥华对外展出。这一技术突破首次实现了移动端实时自由视角视频(FVV)直播的完整链路落地,在视觉保真度、计算效率和传输成本之间达成了前所未有的平衡,为互动直播、沉浸式娱乐等场景开辟了技术新范式。


图 1 论文主页

打破技术瓶颈:从实验室走向移动端的实时自由视角革命


自由视角视频(FVV)允许用户从任意角度探索场景,是元宇宙、沉浸式直播等前沿领域的核心技术。但长期以来,体积视频的高计算负载和高带宽传输需求一直是移动端应用的“拦路虎”。火山引擎多媒体实验室的 LiveGS 系统通过三大创新,首次实现了“端到端实时 FVV 直播”的工程化落地:

三大技术突破,重新定义移动端 FVV 标准

1. 实时 3D 高斯表示:告别离线优化,毫秒级重建逼真人体模型


传统 3D 高斯泼溅技术需要几分钟乃至几十分钟进行场景优化,无法满足直播需求。LiveGS 创新性采用前馈神经网络架构,结合 Sobel 特征自适应建模策略,对人体不同区域(如平坦肤色区与细节丰富的头发、衣物)采用粗细粒度差异化建模,在保证渲染质量的前提下,将高斯数量减少 70%,实现无需逐场景优化的实时 3D 重建。实验显示,系统可在 A10 显卡上以超过 30 FPS 的帧率运行,延迟控制在 1 秒以内。


图 2 LiveGS 前馈神经网络架构图


2. 低损耗压缩传输:500 倍压缩率下 PSNR 损失<3dB,适配标准视频链路


LiveGS 将 3D 高斯属性(尺度、不透明度、深度等)映射到 2D 视频平面,采用 YUV 4:2:0 格式结合可变位打包(VBP)技术进行量化编码。通过基于渲染重要性的比特率分配策略(深度和 RGB 区域优先编码),在实现 500 倍压缩的同时,将画质损失控制在 PSNR 3dB 以内,完美适配现有视频传输链路,带宽需求低于 20Mbps。


图 3 LiveGS 编码传输示意图

3. 移动端渲染优化:区域化高斯裁剪,算力消耗直降 70%


针对移动端算力限制,LiveGS 提出基于掩码的高斯选择策略:高频区域(如面部、手部)保留全部像素高斯,低频区域(如躯干)仅保留 1/3 像素,渲染高斯数量减少 70%。结合混合渲染技术,在 iPhone 15 等设备上实现了 30FPS 流畅的视角旋转、缩放等交互操作,推动 FVV 从 PC 端走向大众移动端。

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00

    抖音“裸眼 3D”直播


    同时,多媒体实验室还成功研发了一项创新技术,该技术能通过普通的单目视频直接生成自由视角视频,并且具备直播能力。实验室和抖音团队一起成功落地了“裸眼 3D”直播,带给用户全新的直播观看体验!


    经过云端 AI 大模型处理,2D 直播可以被实时处理为带有 3D 信息的直播流,包含深度等 3D 空间信息,然后经过编码、转码等处理,通过直播链路分发至用户设备。在移动客户端上,根据深度信息,实时对直播内容进行 3D 重建;用户通过晃动手机,可将 3D 内容实时渲染至不同的观看视角,从而实现“裸眼 3D”效果。

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00

        从技术创新到场景落地:开启沉浸式互动新体验


        LiveGS 的突破不仅是算法层面的革新,更构建了“实时采集 - 云端重建 - 压缩传输 - 移动端渲染”的完整技术闭环解决方案,其应用场景覆盖:


        • 体育赛事直播:用户可自由切换视角,360°解析运动员动作细节,如篮球扣篮的空中姿态、赛车过弯的轮胎动态;

        • 虚拟偶像演出:支持多角度实时互动,观众可自定义镜头焦点,打造「私人定制」的沉浸式观看体验;

        • 远程会议与教育:动态捕捉演讲者姿态与手势,结合自由视角切换增强跨空间沟通的临场感;

        • 电商直播:用户可 360°查看商品细节(如服饰剪裁、珠宝纹理),以沉浸式交互提升购物决策效率。


        图 4 LivsGS 直播系统架构示意图

        附录


        火山引擎多媒体实验室的前沿探索


        火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


        关于火山引擎


        火山引擎是字节跳动旗下云和 AI 服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,通过云和智能技术帮助企业构建体验创新、数据驱动和敏捷迭代等能力,推进企业 AI 转型,激发增长潜能。

        2025-09-16 17:194023

        评论

        发布
        暂无评论

        如何快速构建企业级数据湖仓?

        字节跳动数据平台

        大数据 湖仓一体 12 月 PK 榜

        一个随手就能画出小程序的工具

        Towify

        微信小程序 编辑器 无代码

        2023年上海等保测评机构名单看这里!

        行云管家

        等保 等级保护 等保测评 上海

        网站等保三级怎么做?手续是怎样的?

        行云管家

        等保 等级保护 过等保 等保三级

        您有一封来神州云科冬季发布会的邀请函,请查收!

        通明湖

        Zebec正在以流支付的方式,推动加密资产支付走上正轨

        西柚子

        降本增效: 蚂蚁在 Sidecarless 的探索和实践

        SOFAStack

        如何配置悬浮层滑动进入动画?

        Towify

        微信小程序 编辑器 无代码

        YOLOv5全面解析教程①:网络结构逐行代码解读

        OneFlow

        人工智能 深度学习 代码

        能让Java开发者提高效率的10个工具

        千锋IT教育

        直播 | 新一代极速云原生湖仓的技术内核,StarRocks PMC 今天下午为你揭秘!

        StarRocks

        #数据库

        详解视频中动作识别模型与代码实践

        华为云开发者联盟

        人工智能 图像识别 华为云 12 月 PK 榜

        超赞!阿里大牛熬夜纯手写的微服务架构笔记,肝完面试犹如开挂

        钟奕礼

        Java 程序员 java面试 java编程

        精彩纷呈!亚信科技深度参与2022中国移动全球合作伙伴大会

        亚信AntDB数据库

        AntDB 国产数据库 AntDB数据库

        Chaos 测试下的若干 NebulaGraph Raft 问题分析

        NebulaGraph

        分布式 分布式系统 raft 分布式图数据库

        [1.2.0新功能系列:一] Apache Doris 1.2.0 版本 Light Schema Change

        张家锋

        [1.2.0新功能系列:二] Apache Doris 1.2.0 JDBC外表 及 Mutil Catalog

        张家锋

        不愧是阿里资深架构师,这本“分布式架构笔记”写得如此透彻明了

        钟奕礼

        程序员 java面试 java编程 #java

        [1.2.0新功能系列:三]Apache doris 1.2.0 Java UDF 函数开发及使用

        张家锋

        有奖征文 | “用 TDengine,写 TDengine”,万元大奖等你来瓜分!

        TDengine

        tdengine TDengine征文

        产品负责人 VS 产品经理

        ShineScrum

        产品经理 产品负责人

        星河璀璨 | 2022大数据“星河”案例入选公示

        亚信AntDB数据库

        AntDB 国产数据库 AntDB数据库

        阿里巴巴技术官墙裂推荐,鸟哥的Linux私房菜,你是否吃过?

        钟奕礼

        Java 程序员 java面试 java编程

        kali linux忘记密码如何重置|在kali上重置密码

        Sher10ck

        kali Linux

        面对复杂中国式报表,哪款BI商业智能工具适合你?

        小偏执o

        裸辞美团花两月吃透这Java岗798道真题解析,定级阿里P7

        钟奕礼

        Java 程序员 java面试 java编程

        可以保存ins照片的软件~距离实现ins图片下载自由只差这一个步骤!

        frank

        ins图片下载

        ubuntu18.04编译webrtc_android库

        Geek_pwdeic

        android WebRTC

        多线程安全问题原理和4种解决办法

        华为云开发者联盟

        开发 华为云 12 月 PK 榜

        软件测试丨只需学会Docker,环境问题再也不是测开路上的「坑」

        测试人

        Docker 容器 软件测试 自动化测试 测试开发

        火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播_生成式 AI_字节跳动技术团队_InfoQ精选文章