写点什么

火山引擎多媒体实验室画质理解大模型 Q-Insight 入选 NeurIPS 2025 Spotlight

作者:字节跳动多媒体实验室

  • 2025-10-13
    北京
  • 本文字数:1941 字

    阅读完需:约 6 分钟

大小:953.90K时长:05:25
火山引擎多媒体实验室画质理解大模型 Q-Insight 入选 NeurIPS 2025 Spotlight

近日,NeurIPS 2025 公布了录用结果,该会议是机器学习与人工智能领域最具影响力的国际顶级学术会议之一。据悉本次会议共有 21575 篇投稿进入审稿阶段,最终 5290 篇论文被录用,录用论文中共有 688 篇论文(入选比例 3%)被选为亮点文章(Spotlight)。


火山引擎多媒体实验室和北京大学合作的论文 Q-Insight: Understanding Image Quality via Visual Reinforcement Learning 被选为本次会议亮点文章。

Q-Insight:首个推理式画质理解大模型

论文背景


在音视频链路中,采集、压缩、处理、传输、播放等环节大多都基于一个核心问题展开,即人眼的画质感知。多模态大模型的快速发展为新时代的音视频技术带来了新的机遇,面对人眼感知的画质理解提供了一种全新的解决方案。


以往的画质理解的方法主要分为两类:(1)评分型方法,这类方法通常只能提供单一的数值评分,缺乏明确的解释性,难以深入理解图像质量背后的原因;(2)描述型方法,这类方法严重依赖于大规模文本描述数据进行监督微调,对标注数据的需求巨大,泛化能力和灵活性不足。


多任务群组相对策略优化


针对上述问题,北京大学与火山引擎多媒体实验室的研究人员联合提出了基于强化学习训练的多模态大模型图像画质理解方案 Q-Insight。与以往方法不同的是,Q-Insight 不再简单地让模型拟合人眼打分,而是将评分视作一种引导信号,创造性地运用了“群组相对策略优化”(GRPO)算法,不再依赖大量的文本监督标注,而是挖掘大模型自身的推理潜力,促使模型深度思考图像质量的本质原因。Q-Insight 在质量评分、退化感知、多图比较、原因解释等多个任务上均达到业界领先水平,具备出色的准确性和泛化推理能力,并且不依赖大量高成本的文本数据标注。如图所示,Q-Insight 不仅输出单纯的得分、退化类型或者比较结果,而是提供了从多个角度综合评估画质的详细推理过程。



在实际训练过程中,我们发现单独以评分作为引导无法充分实现良好的画质理解,原因是模型对图像退化现象不够敏感。为了解决这一问题,我们创新性地引入了多任务 GRPO 优化,设计了可验证的评分奖励、退化分类奖励和强度感知奖励,联合训练评分回归与退化感知任务。这种多任务联合训练的策略,显著提高了各个任务的表现,证明了任务之间存在的强互补关系。


实验结果


实验结果充分验证了 Q-Insight 在图像质量评分、退化检测和零样本推理任务中的卓越表现:在图像质量评分任务上,Q-Insight 在多个公开数据集上的表现均超过当前最先进的方法,特别是在域外数据上的泛化能力突出,并能够提供完整详细的推理过程。


  • 在图像质量评分任务上,Q-Insight 在多个公开数据集上的表现均超过当前最先进的方法,特别是在域外数据上的泛化能力突出,并能够提供完整详细的推理过程;




  • 在退化感知任务上,Q-Insight 的表现显著优于现有的退化感知模型,尤其是在噪声(Noise)和 JPEG 压缩退化类型识别的准确性上;



  • 在图像比较推理任务上,Q-Insight 可只需少量数据,即可超越当前最先进的图像比较方法;



从 Q-Insight 到 VQ-Insight:AIGC 视频画质理解大模型


图像只捕捉视频的一个切片,用户真实的视频观看体验还取决于时间维度:运动是否自然?色彩是否在动态中稳定?因此,我们把 Q-Insight 的“推理式 + 强化学习”思路,拓展到自然视频和 AIGC 视频的评估和偏好比较中,提出了 VQ-Insight。



VQ-Insight 强大的 AIGC 视频偏好比较能力,可直接应用于视频生成模型的直接偏好优化(DPO)。如图所示,基于 VQ-Insight 的方案相比于生成模型基线和对比方法,有效地缓解了错误生成的问题,并有着更鲜艳的色彩和动态。


相关链接


📄Q-Insight: https://arxiv.org/pdf/2503.22679

📄VQ-Insight: https://arxiv.org/pdf/2506.18564

⭐️训练与推理代码:https://github.com/bytedance/Q-Insight

🤗开源模型:https://huggingface.co/ByteDance/Q-Insight

总结


Q-Insight 将“感知-打分—比较—推理”统一到一个可解释的学习框架中,既给出可靠评分,也产出问题分析和可执行的改进线索;VQ-Insight 在此基础上把理解从帧内拓展到时域,支持真实/生成视频的连贯性与人类偏好一致性评估。未来,我们将进一步深度耦合强化学习与多模态推理——一方面,让 Q-Insight 走向更广任务(如图像美学评估),作为强判别信号驱动图像增强/重建,作为“质量评估中枢”联动各类重建工具;另一方面,让 VQ-Insight 成为生成视频训练的可插拔奖励与偏好模块,把“看得准”转化为“变得更好”。

团队介绍


多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

2025-10-13 18:464495

评论

发布
暂无评论

征程 6E/M|多 camera 场景示例

地平线开发者

自动驾驶 算法工具链 地平线征程6

设备点检 设备维护经验总结(6)

万里无云万里天

工业 设备维护 工厂运维 设备点检

2023年十大最佳游戏引擎指南:从Unity到Bevy全面解析

qife122

编程 游戏开发

恶性疟原虫检测系统基于YOLOv8的高效识别系统分享

申公豹

人工智能

Claude 封禁中国?为啥我觉得是个好消息

Immerse

qKnow 知识平台【开源版】发布 1.0.0 版本,全面落地知识管理与智能抽取能力

千桐科技

知识图谱 大模型 知识库 qKnow Java知识图谱

Kaggle Grandmaster 的价值:不止于竞赛,更在于引领破局

咕泡科技

人工智能 Kaggle 咕泡ai 咕泡科技

黑龙江等保流程深度指南:助力企业合规与安全运营

等保测评

理想汽车智驾方案介绍 4 | World model + 强化学习重建自动驾驶交互环境

地平线开发者

自动驾驶 端到端 地平线征程6

零压力了解 LoRA 微调原理

蛋先生DX

AI LoRa LLM 大模型微调 FineTuning

首个AI教育实训基地落地无锡惠山,摩尔线程携手科大讯飞等合作伙伴赋能未来人才

新消费日报

天猫商品视频API数据解析(附代码)

tbapi

天猫API 天猫商品视频API 天猫商品视频数据采集 天猫视频API 淘宝视频采集

天猫图片搜索相似商品API开发指南

tbapi

天猫API 天猫图片搜索接口 天猫拍立淘接口 天猫图片搜索API 天猫图片API

在AI技术快速实现创意的时代,挖掘专业文档处理新需求成为关键突破点

qife122

AI技术 需求挖掘

在AI技术快速实现创意的时代,挖掘新需求成为核心竞争力——某知名AI框架需求洞察

qife122

AI开发框架 技术演进

第十四届中国智能产业大会,藏着AI落地的答案

脑极体

AI

智能体(AI Agent)开发实战之【LangChain】(八)核心模块:代理(Agents),ReAct Agent

我和AI的成长

智能体 langchain AI Agent

MIAOYUN | 每周AI新鲜事儿(08.28-09.05)

MIAOYUN

人工智能 AI大模型 AI for Science 大语言模型 AI API

网络信息收集脚本详解

qife122

PowerShell 系统管理

大数据-90 Spark RDD容错机制:Checkpoint原理、场景与最佳实践 容错机制详解

武子康

Java 大数据 flink spark 分布式

基于YOLOv8的电瓶车/电动车识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!

申公豹

人工智能

元模型驱动(五)AI幻觉的解决

KaYa

大庆等保测评:企业信息安全的坚实护盾

等保测评

工业数字化 信息化经验总结(7)

万里无云万里天

数字化转型 信息化 工业 工厂运维

人体跌倒识别检测项目|全流程源码+数据集+可视化界面+一键训练部署

申公豹

人工智能

智能体(AI Agent)开发实战之【LangChain】(七)核心模块:链(Chains),手把手教你搞定工作流(1)

我和AI的成长

智能体 #LangChain AI Agent

基于YOLOv8的铁轨旁的危险行为识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!

申公豹

人工智能

大庆等保测评流程:企业合规运营的关键保障

等保测评

大数据-91 Spark广播变量:高效共享只读数据的最佳实践 RDD+Scala编程

武子康

Java 大数据 flink spark 分布式

区块链DeFi 项目的开发

北京木奇移动技术有限公司

defi 区块链开发 软件外包公司

火山引擎多媒体实验室画质理解大模型 Q-Insight 入选 NeurIPS 2025 Spotlight_AI&大模型_InfoQ精选文章