写点什么

火山引擎多媒体实验室 AIGC 视频画质理解大模型 VQ-Insight 入选 AAAI 2025 Oral

  • 2025-11-28
    北京
  • 本文字数:1995 字

    阅读完需:约 7 分钟

大小:999.36K时长:05:41
火山引擎多媒体实验室 AIGC 视频画质理解大模型 VQ-Insight 入选 AAAI 2025 Oral

会议背景


近日,AAAI 2026 公布了录用结果,该会议是是人工智能领域极具影响力的国际顶级学术会议之一。据悉本次会议共有 23680 篇投稿进入审稿阶段,最终 4167 篇论文被录用,录取率为 17.6%。


火山引擎多媒体实验室和北京大学合作的论文 VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning 被选为本次会议口头汇报文章。

VQ-Insight:AIGC 视频画质理解大模型

论文背景


随着视频生成模型的涌现,仅凭一句提示词或一张图片生成逼真、生动的高质感视频正逐渐成为现实。随着 AIGC 视频技术加速演进,如何在后训练阶段进一步提升模型的生成质量变得尤为关键。可靠的质量评估与偏好选择不仅是评价工具,更是后训练的重要驱动力,它们能够精确引导视频生成模型向人眼感知对齐,从而显著提升画面质量与时序一致性。


此前,北京大学与火山引擎多媒体实验室联合提出了首个基于强化学习训练的多模态大模型图像画质理解方案 Q-Insight。该方法摆脱了对大规模文本标注的依赖,充分挖掘大模型的推理潜力,使其能够深入思考图像质量背后的本质因素。然而,将这一思路扩展到 AIGC 视频评估仍面临新的挑战,即:1)如何更有效地激发大模型的时序感知能力与多维度画质理解能力;2)如何建立评估模型与生成模型的反馈互动,使两者在优化过程中获得动态增强,相互促进。

渐进式视觉质量强化学习框架


图像只捕捉视频的一个切片,用户真实的视频观看体验还取决于时间维度,例如运动是否自然?色彩是否在动态中稳定?因此,我们把 Q-Insight 的“推理式+强化学习”思路,拓展到自然视频和 AIGC 视频中,提出了推理式 AIGC 视频画质理解大模型 VQ-Insight。该方法使用渐进式的视觉质量强化学习框架,包括图像打分预热阶段、任务驱动的通用时序学习阶段以及与视频生成模型的联合微调阶段。通过由易到难、由通用到具体的视频质量打分学习,仅使用少量数据就能教会 AIGC 视频偏好比较,AIGC 视频多维度打分,自然视频打分等多项任务,并最终建立和下游生成模型的专项评估能力。同时,该方法引入时序建模奖励函数和长度控制奖励函数,鼓励大模型探索视频帧间的相关性和连贯性,并提供对于视频质量线索的丰富分析,增强偏好比较和分数回归的准确性。


进一步,该方法提出了一种生成模型与质量评估模型“共同进化”的联合训练方式:生成模型每一轮都会产生一批新视频,VQ-Insight 自动从中挑选出更好的和更差的样本,构建高质量偏好数据;这些偏好数据既用于继续优化视频生成模型(如 DPO),也用于反向加强 VQ-Insight 的偏好理解能力,使其逐步适配并引导当前的生成模型。通过这种闭环式的协同优化,生成模型和评估模型会随着迭代不断变强,实现“越生成越懂、越懂越能生”的持续提升效果。


实验结果


实验结果充分验证了 VQ-Insight 在 AIGC 视频偏好比较,多维度打分和自然视频打分任务中的卓越表现。


  • 在 AIGC 偏好比较任务上,VQ-Insight 在多个公开数据集上的表现均超过当前最先进的方法,并能够从视觉质量、时序一致性、动态程度和视频真实性方面提供完整详细的推理过程。




  • 在 AIGC 多维度打分任务上,VQ-Insight 能够在空间质量、时序质量和文本视频一致性打分上都取得最优性能。



  • 在自然视频打分任务上,VQ-Insight 同样表现出出色的分数拟合精确度,特别是在域外数据集上泛化能力突出。




  • VQ-Insight 强大的 AIGC 视频偏好比较能力,可直接应用于视频生成模型的直接偏好优化(DPO)。如图所示,基于 VQ-Insight 的方案相比于生成模型基线和对比方法,有效地缓解了错误生成的问题,并有着更鲜艳的色彩和动态。

总结


VQ-Insight 将“推理式+强化学习”思路应用于 AIGC 视频画质理解任务中,在偏好比较、多维度画质打分与自然视频质量评估等任务上均取得了突破性表现。通过渐进式视觉质量强化学习框架与创新的时序奖励机制,VQ-Insight 能够以极少的数据实现强泛化和强解释性,精准捕捉视频的空间清晰度、动态一致性、内容真实性等多维度质量特征。更重要的是,VQ-Insight 已能直接用于生成模型的后训练,成为生成视频训练的可插拔奖励与偏好模块,把“看得准”转化为“生成得更好”,为未来的视频生成模型带来更稳定、更符合人眼感知的画面质量,为下一代 AIGC 视频生成技术的发展奠定了关键基础。

相关链接


📄VQ-Insight: 

📄Q-Insight: 

⭐️训练与推理代码:

🤗开源模型:

团队介绍


多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

2025-11-28 16:424994

评论

发布
暂无评论

大语言模型提示词工程

测试人

人工智能 软件测试

大语言模型提示词工程

测吧(北京)科技有限公司

测试

阿里巴巴1688 API接口深度探索:商品详情获取与按图搜索商品(拍立淘)实战指南

代码忍者

1688API接口 关键词搜索1688API

使用 TiDB Vector 构建 LightRAG 知识库

TiDB 社区干货传送门

实践案例 应用适配 数据库前沿趋势

在基于华为云Flexus云服务器X部署的CRMEB商城系统中进行二次开发

轶天下事

望来路,启新程:皮阿诺2024卓越时刻

新消费日报

华为云Flexus X实例全面杜绝DDoS、XSS、CSRF与SQL注入攻击,为企业部署无懈可击的跨境电商独立站

轶天下事

云服务器Flexus X实例,Docker集成搭建Gitea私有仓库

轶天下事

管报经分,助力企业构筑管理大脑

用友智能财务

财务 会计 政策解读

Web3软件开发需要注意的问题

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

MySQL遇到瓶颈怎么办?GaiaDB 支撑「账三丰·代账业务」服务数万家企业

Baidu AICLOUD

数据库 :MySQL 数据库

云服务器Flexus X实例,Docker集成搭建Mysql集群

轶天下事

主从同步从Binlog切换到Ticdc,性能提升巨大

TiDB 社区干货传送门

7.x 实践

WebGL软件开发注意事项

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

使用华为云Flexus云服务器X安装搭建crmeb多门店商城教程

轶天下事

华为云Flexus X实例下的场景体验——小企业使用Python语言——超迅速搭建简单公网API接口服务

轶天下事

华为云Flexus X服务器推荐公司、企事业单位及生产环境使用,特别注重安全和稳定性

轶天下事

枫清科技荣膺“2024 中国大数据产业年度最具投资价值企业”

Fabarta

#人工智能 企业数智化转型 #大模型

华为云Flexus X轻松实现Redis一主多从高效部署

轶天下事

部署轻量级任务管理工具DooTask

轶天下事

云服务器Flexus X实例,Docker集成搭建Jenkins CI/CD平台

轶天下事

抖音运营:解锁流量增长密码

科普小能手

数据分析 短视频 抖音引流 抖音接口

在线CAD绘制墙体(WEB CAD开发室内设计软件)

WEB CAD SDK

华为云服务器Flexus X搭建BTC虚拟币质押投资理财系统(仅测试学习)

轶天下事

什么样的MES系统能够让制造业IT部门省事省心呢?

万界星空科技

数字化 制造业 mes 万界星空科技mes 生产管理MES系统

深度评测,华为云Flexus X实例在Sysbench性能测试中的亮眼表现

轶天下事

构建高效搜索解决方案,Elasticsearch & Kibana的完美结合

轶天下事

DApp开发的安全设计

北京木奇移动技术有限公司

区块链技术 dapp开发 软件外包公司

隔断设计这样做,瞬间提升家居颜值!跟着皮阿诺抄作业就对了

新消费日报

华为云Flexus X搭建借贷管理系统、二次开发借贷小程序 前端源码uniapp

轶天下事

火山引擎多媒体实验室 AIGC 视频画质理解大模型 VQ-Insight 入选 AAAI 2025 Oral_AI&大模型_字节跳动多媒体实验室_InfoQ精选文章