写点什么

两度入选 CVPR,海量视频数据 +AI 大模型加持,快手 KVQ 打造视频质量评价“黄金眼”

快手StreamLake

  • 2024-06-13
    北京
  • 本文字数:2738 字

    阅读完需:约 9 分钟

大小:1.41M时长:08:11
两度入选CVPR,海量视频数据+AI大模型加持,快手KVQ打造视频质量评价“黄金眼”

当前,人类每天创造出约 1.77 亿 TB 的视频数据,累计时长足以从史前时代连续播放到现在。如何准确评判视频质量,并兼顾成本和体验,让有限的带宽和算力真正用在“刀刃”上,成为行业的一大难题。同时,视频从生产到消费的链路很长,编码、处理、传输等环节都会对画质造成影响,行业也亟需有的放矢,为改善用户体验找到有效依据


快手自研的图像/视频质量评估方法 KVQ(Kuaishou Visual Quality)的问世,让复杂的画质指标可以被准确量化,在全链路、全场景实现精准的视频质量评估。快手 KVQ 基于海量的视频数据+AI 大模型训练而成,是针对视频质量的科学量化的衡量手段。快手丰富海量的视频内容和数据积累训练,让 KVQ 具备极强泛化性。


据悉,KVQ 在视频质量评估的过程中,可以综合感知视频的质量、内容、场景、美学、编码、音频等特征,执行多维度评价。相比传统的视频质量评价方法,KVQ 更适合内容、编码和处理手段更多样的平台,其准确率超过传统画质评价算法,可以媲美人眼主观评价。


由此,KVQ 不仅将复杂的视频质量评价体系进行科学量化,实现全链路任一节点的视频质量评估,并辅助归因与调整,指导画质处理与编码,还帮助确定成本与体验的均衡点,实现质效统一。



应用落地场景广泛,KVQ 成为视频质量“判卷人”


在应用落地场景中,快手 KVQ 广泛覆盖音视频及运营、分发、搜索等场景。一方面,在音视频场景中,KVQ 作为画质的准绳,在“生产-处理增强-编码-消费”全链路均发挥重要作用。


具体而言,在生产环节,KVQ 在拍摄/编辑/推流等环节进行监测,能够提前诊断画质隐患,从生产源头发现画质风险。同时基于画质问题的原因,KVQ 可以更针对性地给出改善画质的举措建议,如擦镜头、开灯等,或是开启端侧画质增强来进一步修复。


在处理增强环节,处理前,KVQ 是画质增强算法(去模糊、去噪声、去块效应等)的“判卷人”,每一次处理增强算法的迭代都可交给 KVQ“判卷”,验证效果,提升研发效率;处理中,基于 KVQ 基础特征给出的视频损伤检测结果,更具针对性地触发不同类型的增强算法,对算力进行靶向规划,减少算力浪费;在增强处理后,KVQ 的分数可用来判断是否出现 badcase,进而决策是否重新优化算法。


编码环节,基于 KVQ 对“编码码率-质量曲线”的实时预测(不同码率档位,对应的质量曲线斜率不同),去保障带宽的合理控制,和画质体验的最佳水平。而 KVQ 在转码压缩后的画质监督,可以有效防止“省了带宽但丢了画质”。



消费环节,KVQ 实现多码率决策,能够将清晰度量化,在保障流畅播放的前提下,下发清晰度最高档位。同时在触发端侧后处理上,基于 KVQ 的判断,可以分析一个作品是否适合做端侧超分等后处理,进而提升低质作品清晰度。


此外,在点直播全链路,KVQ 可以做到清晰度长期监控,视频点直播全链路定期巡检,通过 KVQ 分数,判断大盘清晰度是否正常,进而辅助归因与干预。而在点直播全链路中,基于 KVQ 分数判断,也可辅助快速定位造成清晰度明显损失的环节,提升排障效率。


另一方面,在运营、分发、搜索场景中,针对审核风控,KVQ 在机审环节,实现劣质(无意义、黑屏)过滤,以及低质(模糊、噪声过高)限权;在人审环节,作品在获得热度之后,KVQ 辅助审核人员,判断视频画质是否适合继续享有更高流量。


针对推荐分发,KVQ 不仅将低质视频降权,保证消费侧生态体验,还让精品视频池“蓄水”,保障精品作品清晰,并促进新作品冷启动,准确识别画质层面的潜力,帮助热度快速爬坡。针对搜索排序,基于 KVQ 给出的画质评价,实现对搜索结果重排,同时提升优质作品排序。


目前,KVQ 已经全面应用于快手的点直播的生产、转码、消费全链路,同时也已经面向头部客户开放技术支持。

 

海量数据与大模型加持,KVQ 突破传统评价方法瓶颈


综合来看,传统的视频质量评价方法主要分为主观方法和客观方法。其中,主观方法以人工方式评估视频质量,虽然准确度高,但人力成本巨大,缺乏时效性,不适合规模投入


而客观方法基于设计出的算法模型,在机器上自动执行视频质量评估,如 SSIM、VMAF、PSNR 等传统业界标杆方法。这类方法依据人工对视频失真的理解来设计,容易因考虑不周或难以实现,使得模型对视频质量表示不充分,特别是在面对海量 UGC 视频时,可能出现误判。


例如,一个源视频在处理阶段经过了过度的锐化,在人眼主观看来会觉得观感不佳,但在传统评价方法看来,可能反而觉得效果不错。



UGC 的视频种类繁杂,而且源视频质量、平台对源视频的处理,编码的压缩档位都参差不齐。各种环节叠加,加剧了画质问题的复杂性。对传统的评价模式来说,严重超纲,容易失灵。

在训练过程中,KVQ 又是如何摆脱传统方法的种种瓶颈?一是数据融合训练,“大力出奇迹”。基于快手海量、丰富的视频标注数据,KVQ 在训练过程中“见多识广”,足以应对复杂的 UGC 短视频特征,实现准确评价。



二是大模型训练,创造“代差优势”。快手在音视频技术领域始终坚持前沿探索与技术验证,率先投入大模型预训练实践。在大模型预训练方面,快手基于海量 UGC 视频和 Transformer 架构实现 AI 推理,让 KVQ 在面对不同类型视频时可以“触类旁通”,理性评价,并实现多维的失真感知,即空间感知(图像内容本身的失真感知)、时间感知(视频播放过程中,连续时域上的失真变化感知)。


三是迭代飞轮,快速优化表现。KVQ 在应用场景中持续收集 badcase 反馈,不断迭代,同时针对线上消费侧视频大盘进行巡检,定期捞取检测,发现问题。针对内容多样性、处理多样性、编解码多样性等问题,KVQ 持续调优,目前已迭代至第五代,多个场景均达到 Golden Eye(人眼的最佳主观评价)水平。

 

能力指标达业界标杆级水平,KVQ 赋能客户平衡成本与体验


当前,无论是和学术界众多 SOTA 领先方法的效果比对,还是和 SSIM、AVQT、VMAF 等工业界的标杆方法比对,KVQ 都展示了出众的技术优势,在各数据集性能表现以及主观一致性指标等方面,处于明显领先地位。



同时,KVQ 的保序性表现也十分优秀。保序性作为视频质量评估重点依赖的指标,与终极目标“是否与人眼主观感受质量一致”挂钩。其逻辑在于,在同源视频对的清晰度区分中,评估“机器预测顺序”与“人眼主观顺序”的一致性,包含点播/直播多档位、分辨率、多码率等测试场景。KVQ 在多个场景维度的保序性指标,均达到 Golden Eye 水平。



在已经拉开帷幕的计算机视觉顶会 CVPR 2024 中,快手KVQ相关论文被正式收录,展示了 KVQ 在短视频平台上进行视频质量评估的重要作用。


据了解,基于快手的海量用户反馈迭代,KVQ 的泛化性越来越高,目前已经服务多家头部互联网客户,有效帮助客户实现高效准确的视频质量评估。


纵观互联网行业发展可见,视频平台的成本和体验,始终是天平上难以取舍的两端,在短视频直播时代这一两难抉择情况愈加白热化。快手 KVQ 这把“尺子”,经过千锤百炼,为打造极致的音视频体验而生,将持续帮助更多行业伙伴,在天平上找到最优解。


2024-06-13 15:415792

评论

发布
暂无评论

哪款多任务管理系统适合你?2024年10大选择

易成管理学

多任务管理系统

哪些工作计划管理软件适合团队协作?10款详解

易成管理学

工作计划管理软件

安卓AI虚拟女友项目开发之智能语音-语音唤醒应用功能开发

陆通

FinOps三人行:云计算时代的FinOps 反模式和SRE(文字+视频版)

雅菲奥朗

云计算 SRE FinOps FinOps 认证 FinOps 培训

spring-kafka中ContainerProperties.AckMode详解

百度搜索:蓝易云

Ubuntu中设置代理的方式

百度搜索:蓝易云

征程6 NV12 理论与代码详解

地平线开发者

自动驾驶; 算法、

哪些工作管理系统适合团队协作?9款工具推荐

易成管理学

工作管理系统

为什么JWT要结合Redis使用

百度搜索:蓝易云

这款产品连续三年被选为“未来你想使用的数据库”第一名

TiDB 社区干货传送门

数据库架构选型 数据库前沿趋势

全面图解Docker架构设计:掌握Docker全链路思维/实战/优化(小白到大师篇[2])

肖哥弹架构

Docker DevOps

如何选择工作日程管理系统?9款工具指南

易成管理学

工作日程管理工具

AI大模型技术前沿:人工智能大模型应用工程师如何塑造行业未来?

雅菲奥朗

人工智能 大模型 人工智能工程师 人工智能工程师培训 人工智能大模型应用工程师

从0到1:培训机构排课小程序开发笔记一

CC同学

centos下Makefile独立模块编译ko

百度搜索:蓝易云

全面图解Docker架构设计:掌握Docker全链路思维/实战/优化(小白到大师篇[1])

肖哥弹架构

Docker DevOps 效能

TiDB排行再升5位;盘点平凯数据库的发明专利(2024上半年公布)

TiDB 社区干货传送门

数据库架构选型

ICT项目系统全解析:选型、使用与优势大对比

易成管理学

项目管理 ICT

yolov5模型s,l,m,x的区别

百度搜索:蓝易云

你不知道的Requests进阶技巧:用Retry实现完美重试

LLLibra146

python 爬虫 requests urllib retry

Tomcat服务启动失败:java.lang.OutOfMemoryError: Java heap space

百度搜索:蓝易云

Linux之yum/git的使用

百度搜索:蓝易云

Debian安装Docker环境

百度搜索:蓝易云

三节点TiDB 集群内存控制文档

TiDB 社区干货传送门

2024年9月文章一览

codists

编程人

Nacos改为MySQL数据源报错:No DataSource set

百度搜索:蓝易云

FinOps现状分析:行业趋势与未来展望

雅菲奥朗

FinOps 云成本管理 FinOps 认证 云财务管理

解决sass问题:npm ERR! node-sass@9.0.0 postinstall: `node scripts/build.js`

百度搜索:蓝易云

通过curl命令分析http接口请求各阶段的耗时等

百度搜索:蓝易云

征程6 工具链常用工具和API 整理

地平线开发者

自动驾驶 算法

Centos7安装chrome+chromedriver以便实现selenium自动化详细教程

百度搜索:蓝易云

两度入选CVPR,海量视频数据+AI大模型加持,快手KVQ打造视频质量评价“黄金眼”_AI&大模型_InfoQ精选文章