时隔16年Jeff Barr重返10.23-25 QCon上海站,带你看透AI如何重塑软件开发! 了解详情
写点什么

CVPR 2022 论文速递 | OPPO& 西电提出个性化美学评价新范式,发布 PARA 数据集

  • 2022-04-02
  • 本文字数:3313 字

    阅读完需:约 11 分钟

CVPR 2022 论文速递 | OPPO&西电提出个性化美学评价新范式,发布PARA数据集

导语:在「个性化图像美学评价」领域,现有方法主要基于图像中所呈现的客观内容进行个性化建模。然而个性化图像美学评价的本质是度量图像所呈现的客观内容被不同的用户主体感知时所激发的美学感受。


因此,图像的客观内容与用户的主观特性共同作用,进而产生差异化的美学评价结果。相应地,理想的个性化图像美学评价模型,也需要同时使用图像内容和用户的主观信息。然而,由于缺乏标注丰富且包含主观信息的数据集,个性化美学评价算法研究进展缓慢。


近日,OPPO 研究院联合西安电子科技大学李雷达教授,结合美学、心理学、用户画像信息等知识,提出了主客观信息融合的个性化美学评价新范式,并开源了带有丰富属性标注的个性化美学评价数据集 PARA,为建模个性化审美偏好提供了崭新的思路和数据可能。


目前,该论文已被 CVPR 2022 接收。美与美感一直是人类追求精神生活的重要部分,也是 OPPO 一直在追逐的理念。图像作为人类社会信息记录与传递的重要媒介之一,广泛存在于多种移动终端和互联网上。因此,图像美学也成为当前计算机视觉与情感计算领域的重要研究课题之一。


图像美学的研究目的是利用人工智能(AI)有效地模拟人类的审美过程,对图像美感进行自动化评估,使得用户获得的图像质量更高,内容更美。该领域不仅涉及计算机,还需要心理学、美学等多个交叉学科的支持。


与一般的计算机视觉任务不同,美学评价具有较强的主观性。受到用户性别、年龄、职业、性格、教育背景等多样化主观因素的影响,即使对相同的图像,不同的用户也会产生不同的美学感受。因此,想要构建准确的个性化图像美学评价方法,需要从图像所呈现的客观内容和用户的主观特性两个维度,共同进行评价算法的设计。


然而,现有的个性化图像美学评价模型往往仅从图像的角度进行个性化美学建模,在研究方法上存在固有的缺陷。近日,OPPO 研究院和西安电子科技大学对个性化图像美学评价进行了全方位的研究,并发表了题为 “Personalized Image Aesthetics Assessment with Rich Attributes”的论文。


论文针对个性化图像美学评价中的客观图像内容与用户的主观属性进行了全面的探索和分析,提出的带条件的 PIAA 算法(Conditional Personalized Image Aesthetics Assessment),是业界首次探讨“用户主观偏好与图像美学相互作用,如何产生个性化品味”的相关工作。


此外,随该算法一并提出的带有丰富属性信息的个性化图像美学数据集也一并开源,打破了学科方面的数据限制。论文已被 CVPR 2022 收录,数据集地址:https://cv-datasets.institutecv.com/#/data-sets

突破学科限制,利用心理学知识设计 AI 数据库


图像美学评价旨在通过计算机对图片的“美丽程度”进行打分。根据审美是否考虑个性偏好,业界将图像美学评价的分为两类:通用和个性化。前者依赖「平均」概念,反映大众美学审美;后者需要考虑到个人独特的审美特点,反映个人的“千人千面”。


与通用图像美学评价相比,个性化图像美学评价也需考虑主观特性、客观属性等更全面的因素,覆盖不同用户审美感知的多样性,具有更加直接的应用价值。但由于当前该领域数据集的标注维度缺乏多样性,个性化图像美学评价的研究面临一定程度的科研挑战性。



图注:PIAA 数据集之间的比较。此前的主流数据集缺乏主观信息的标签,标注维度和数据规模相对较小。


为了解决上述难题,OPPO 研究院和西安电子科技大学的研究人员利用“跨学科、先验知识”等思维设计了相关数据集和模型。

本文任务


通过丰富的属性标注,实现更加全面的个性化图像美学评价。

本文创新


1.使用跨学科的思维设计了包含主观和客观属性的数据集;


2.通过数据分析探讨主观和客观标注维度的关联性;


3.利用用户画像作为“先验知识” ,提出条件 PIAA 建模方法。

回答业界关心问题

1.数据集如何保证多样性以及解决偏差?


从健康状况、工作经历、个体性格、个人画像四个方面来选择标注人员,保证人员多样性;在从 Flickr 下载约 28,000 张 CC0 图片的基础上,从 Unsplash 网站和 SPAQ、KonIQ-10K 等主流图像质量评估数据集添加大约 3,000 张具有明确美学共识的图像,保证语义和分数分布相对平衡。

2.主观信息中的个人性格特征如何确定?


使用心理学领域权威的 BFI-10 人格调查问卷进行用户摸底,然后计算大五人格特征分数,并添加到标注维度中。

3.如何证明数据库的可用性和优越性?


可用性:baseline 模型的个性化美学评价结果比较准确,测试指标较好。


优越性:设计两种基准模型:有条件和无条件的 PIAA。实验结果显示:加入用户画像信息一组的实验结果高于对照组,证明通过加辅助信息可以超越仅利用美学分数学习的模型。

4.“先验知识”在个性化图像美学评估中能起到什么作用?


建模时加入了三种条件信息,包括个人性格、美学经验以及摄影经验。实验结果显示:利用主观属性信息进行 PIAA 建模可以提高模型性能。

强调主观信息,探究美学评价与个性化之间的相互作用

数据集设计原则


数据集制作分为四步:图片收集、标签设计、人员选择以及主观实验。


图片收集过程中,使用了场景识别模型预测每张图片的场景标签,然后人工修正保证标签质量;随后根据场景标签采样收集了 31,220 张图像。



图注:单张图片的标签信息。分为主观、客观两类,通过 User ID 识别。


在参考已有美学评价主流数据集的基础上,设计的标签如上表所示,每张图片的一条“打分”记录都包含 13 个属性标签以及相关联的用户画像信息。13 个属性标签包含 9 个客观属性(例如图像美学、情感等),4 个主观属性(例如内容偏好、分享意愿等)。


人员选择的原则是保证被试人员的质量和多样性,研究员从健康状况、标注经历、用户画像以及培训考核等方面选择“入库人群”。例如,只有具有一定标注经验,身心健康的个体,且通过每日的标注培训和考核后,才可以进行数据标注。



图注:数据库统计分布信息


主观实验遵循心理学主观实验规范。研究员将整个数据库分成 446 个标注会话,每个标注会话包含 70 张待标记的图像,5 张有标记的图像(提前多人标注作为标准图校验标注是否符合通用标准),以及 5 张重复的图像(需要打两次标注的,从而测试标注的一致性)。

数据分析结果


通过分析数据集,研究员发现,每个美学属性的分布是相似的,但也存在微小的差异,这表明各个美学属性相互关联的同时,每个维度仍然能够提供独特的信息。如美学评分(4,5)区间比其他区间有更低的方差,这意味着对 "什么是美 "有共同的认知,但存在不同的审美观点。



图注:(左)标签分数的分布;(右)美学得分箱线图


同时,进一步分析发现,个体性格、美学评分和美学属性之间具有相关性。例如具有 "神经质(Neuroticism)"性格的受试者倾向于对外部刺激作出过度反应;“内容偏好”和“分享意愿”维度高度相关,证明人们在喜好图片内容时更容易分享照片。



图注:属性维度之间的相关系数

基准模型设计


最后,为了证明数据集的可用性和优越性,研究员对数据集进行了基准模型研究。包括有条件和无条件的 PIAA 两种建模方法,训练方式如下图所示。



PIAA 模型产生于通用美学评价模型(GIAA),区别之处在于:使用个人数据微调,强调学习个性化偏好。相比无条件的 PIAA 模型,条件 PIAA 建模时分别添加了三种条件信息,包括个体性格、美学经验和摄影经验。由于 PIAA 是一个典型的小样本问题,研究员们参考 零样本学习以及之前的相关工作进行实验设置,例如分为三组:无微调组(“对照组”)、10-shot 组、100-shot 组。



图注:在 PARA 上提出的有条件和无条件 PIAA 的实验结果


实验结果显示,通过对 10-shot 组和 100-shot 组的个性化数据进行微调,PIAA 的表现可以超过对照组;更多的个性化训练数据可以进一步提高微调的性能;与无条件的 PIAA 组相比,利用主观信息进行 PIAA 建模可以提高模型性能。

结语


美学评价类相关研究任务具有很强的主观性,不同的个体有不同的美感认知,通用的美学评价在建模时忽略了个体审美主观性。针对个性化图像美学目前存在的主观性问题,本文提出了结合用户画像信息以及丰富的标注维度的个性化美学评价算法,并开源了所使用的个性化图像美学评价数据集 PARA,打破个性化美学评价学术研究的思路和数据壁垒。


未来,OPPO 研究员会将该数据集以及相关技术应用到相册、相机、互联网内容理解等实际场景中,从而为用户打造更极致的个性化体验。


Project Page: https://cv-datasets.institutecv.com/#/data-

2022-04-02 11:456928
用户头像
王一鹏 InfoQ 总经理

发布了 194 篇内容, 共 142.5 次阅读, 收获喜欢 488 次。

关注

评论

发布
暂无评论
发现更多内容

稳定币迎来ChatGPT 时刻,如何驱动DeCloud?

PowerVerse

defi 稳定币 DeCloud

金仓数据库:在网信领域持续打造有竞争力的产业生态

科技热闻

云交易技术对接全景

京东科技开发者

龙蜥大讲堂浪潮信息专场精彩预告来袭,解锁AI解决方案、安全、eBPF等技术新进展

OpenAnolis小助手

操作系统 龙蜥社区 龙蜥大讲堂 OpenAnolis

谷歌云 | AI驱动医疗健康变革:智能代理、增强搜索与关键平台深度解读

Cloud Ace 云一

人工智能 生命科学 谷歌云 健康医疗

最佳实践:RunnerGo API性能测试实战与高并发调优

数据追梦人

深入解析 Spring AI 系列:解析函数调用

不在线第一只蜗牛

人工智能 spring

企业级私有化部署,内部聊天软件

BeeWorks

即时通讯 IM 私有化部署 企业级应用

iVX 引领软件开发进入 “可视化逻辑时代”

代码制造者

SQLShift 全新上线:Oracle→OceanBase 迁移利器

爱可生开源社区

oracle dba 存储过程 oceanbase

Taro on Harmony :助力业务高效开发纯血鸿蒙应用

京东科技开发者

局域网视频会议软件BeeWorks Meet

BeeWorks

即时通讯 IM 私有化部署 局域网视频软件

文献解读-The chromosome-scale genome of the raccoon dog: Insights into its evolutionary characteristics

INSVAST

生物信息学 Sentieon 变异检测 全基因组测序 生物信息分析服务

数据可溯破局!iVX 可视化调试如何改写 AI 编程规则

代码制造者

AI编程

A2A与MCP:理解它们的区别以及何时使用

数据追梦人

蚂蚁数科发布金融智能体开发平台Agentar 内测上线超百个金融MCP服务

Lily

呼声超高的 TiDB 性能调优最佳实践来啦,这些“绝招”让你事半功倍!5 月 29 日,TiDB vs MySQL 线上 Meetup 第四期,欢迎 TiDBer 们参与!转发海报参与 TiDB Chaos Mesh 马克杯抽奖!

TiDB 社区干货传送门

MySQL 数据库 SQL优化 TiDB

45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务

GPUStack

大模型 模型推理 Qwen GPU集群 Qwen3

点面结合发展 龙蜥社区第 32 次运营委员会会议圆满结束

OpenAnolis小助手

开源 操作系统 龙蜥社区 OpenAnolis

Msty一键搞定:让Qwen3带着知识库在你的电脑上奔跑

JustYan

人工智能 本地部署 RAG知识库 Qwen3

Java 开发效率天花板被打破!飞算 JavaAI 如何做到「代码生成即生产级」?

飞算JavaAI开发助手

什么是DNS缓存?怎么清理DNS缓存?

防火墙后吃泡面

通义灵码 CCF 算法大会首秀,解码研发智能落地「黄金三角」| 文末领取PPT

阿里云云效

阿里云 云原生 通义灵码

怎么用drawio一键生成图表?drawio必备的使用技巧盘点!

职场工具箱

人工智能 drawio 办公软件 AIGC Ai绘图

国内首个「混合推理模型」Qwen3深夜开源,盘点它的N种对接方式!

王磊

实力 “出圈”:龙蜥新增多个行业标杆,富滇银行、小红书、国网蒙东电力等在列

OpenAnolis小助手

操作系统 龙蜥社区 OpenAnolis

详细剖析Java动态线程池的扩容以及缩容操作

电子尖叫食人鱼

Java

中国联通网络资源湖仓一体应用实践

Apache Flink

大数据 flink 实时计算 实时湖仓 实时分析

通义灵码 CCF 算法大会首秀,解码研发智能落地「黄金三角」| 文末领取PPT

阿里巴巴云原生

阿里云 云原生 通义灵码

自己写插件-实现时间戳自由

京东科技开发者

一文搞懂国际化:架构设计

量贩潮汐·WholesaleTide

架构 国际化

CVPR 2022 论文速递 | OPPO&西电提出个性化美学评价新范式,发布PARA数据集_AI&大模型_OPPO研究院_InfoQ精选文章