写点什么

ECCV2024 | 京东零售广告创意:基于人类反馈的可信赖图像生成

  • 2024-12-05
    北京
  • 本文字数:2591 字

    阅读完需:约 9 分钟

大小:1.30M时长:07:33
ECCV2024 | 京东零售广告创意:基于人类反馈的可信赖图像生成



ECCV2024: Towards Reliable Advertising Image Generation Using Human Feedback

链接:https://arxiv.org/abs/2408.00418



摘要:在电商领域,吸引顾客注意力的广告图片至关重要。尽管生成模型可以自动生成图像,但它们往往会产生不符合广告标准的图片,可能误导顾客,并需要大量人工成本进行检查。本文探讨了如何提高可用生成图像的比例。我们首先引入了一种多模态可信赖反馈网络(RFNet),用于自动检查生成的图像。将 RFNet 整合到一个循环过程——循环生成中,可以提高可用广告图像的数量。为了进一步提升生产效率,我们通过一种创新的一致性条件正则化方法,利用 RFNet 的反馈来微调扩散模型(RFFT)。这显著提高了生成图像的可用率,减少了循环生成中的尝试次数,并提供了一种高效的生产过程,同时不牺牲视觉效果。我们还构建了一个包含超过一百万张由人工标注的生成广告图像的可信赖反馈一百万(RF1M)数据集,这有助于训练 RFNet 准确评估生成图像的可用性,并真实反映人工反馈。总的来说,我们的方法为广告图像生成提供了一个可信赖的解决方案。



一、背景及现状

吸引人的广告图片对于电子商务的成功至关重要。由于手动设计图片需要大量的人工成本,因此对自动广告图像生成的需求正在上升。最近,通过结合先进的扩散模型(Stable Diffusion)和 ControlNet,可以为产品生成和谐的背景,同时保持商品细节不变。

尽管生成模型有潜力创造出吸引人的背景,但我们观察到其经常会生成质量欠佳的广告图片,如下图所示,这些图片存在空间和尺寸不匹配、不显著以及形状幻觉等问题。





这些有缺陷的图片可能导致顾客对产品产生误解,进而带来不佳的购物体验,因此需要大量人工来检查生成的图像。这些缺陷限制了生成模型在广告图像生产中的广泛应用。因此,我们要解决的问题是如何建立一个可信赖的广告图像生成流程,以高可用率生成图像。



二、信赖反馈模型

一个自然的解决方案是利用生成过程中的随机性,反复生成图像直到获得可用的图像(循环生成)。为了替代人工检查,我们提出了一种新颖的信赖反馈网络(RFNet),充当人工检查员来评估生成的广告图像的可用性。由于仅依赖单一生成的图像,模型无法有效获得进行精确检查所需的关键知识,例如产品是什么以及产品如何出现在背景中。因此,RFNet 整合了多种辅助模态,以提供对判断不同不可用情况至关重要的信息。RFNet 的结构如下所示:





通过使用 RFNet 判别生成结果,可利用随机性提升可用率。我们将这种提升可用率的方法称之为循环生成,伪代码如下所示:





三、可信赖人类反馈

虽然循环生成大大增加了可用图像的数量,但因为生成模型本身能力有限,多次尝试会显著延长生成过程。利用人类反馈(RLHF)来增强扩散模型的能力提供了一种可行的选择,这些方法在提高生成图像的视觉质量方面已经取得显著结果。类似的,在训练完信赖反馈模型后,我们将其输出看作人类对于生成图片的评价,通过将其结果反传回生成模型来提升生成图片中可用的比例。该流程如下所示:







其中,yd 为一个 one-hot 向量,其中合格类别的概率为 1,而其他类别的概率为 0。oi 为生成图像输入给信赖反馈模型后得到的概率,N 为一次训练中样本的总数。所得到的梯度被反传至生成模型中,来使其朝着更高概率生成合格图像的方向优化。沿用 ControlNet 原有的设定,只有 ControlNet 部分参与梯度更新,而 Stable Diffusion 部分是不更新参数的。



尽管通过梯度反传微调能够提升合格样本出现的概率,然而由于图像可用率和美观度是对抗的目标,这使得提升图片的可用率会导致美观度的下降。例如,直接将商品放置于空白背景中将获得极低的 bad case 比例,然而这种方式将严重破坏图片的美感。如下图(a)所示,随着模型达到极高的图片可用率,商品的背景区域将产生美学崩塌的结果。





为了实现提升图片的可用比例并保持图片的美观,简单的方式是训练中加入 KL 损失约束,该损失可以保证模型的分布不偏离目标分布。利用该约束,可以使得模型在微调后的输出分布和微调前近似,从而达到不影响美观的结果。该过程可写作:





KL 损失约束的目的是为了保持图像不变,而 F_AC 是希望图像朝着可用率更高的方向改变,这样的对抗的目标难以产生双赢的结局。为了解决该问题,我们将重点从保持图像本身不变,迁移至输入文本条件的指导不变。由于在文生图模型中,文本内容和图像内容是高度相关的,因此我们提出了一种条件一致约束来保证文本条件不变。根据 classifier-free 的训练方法,可以推导出文本条件对图像生成过程的影响方向为:





为了保证图像可用率的梯度方向不影响文本条件的影响方向,我们提出了条件约束损失 L_CC 如下:





上图(b)显示了 L_CC 相对于 L_KL 的优势,其中 L_KL 希望逆转 F_AC 的梯度方向,而 L_CC 提供了一个双赢的策略,它保持了文本条件的梯度,同时允许模型朝着可用率更高的方向更新梯度。因此,最终微调生成模型的损失可以写作:





四、实验结果

(1)广告图像审核性能

如表 1 显示,RFNet 在所有指标上表现更优,突出了整合多模态信息和其有效结构的优势。我们进一步评估 RFNet 中各个组件的影响,结果如表 2 所示。实验表明,RFNet 中每个组件对最终 AP 有显著影响。





(2)广告图像可信赖性能

如表 3 所示,我们的 RFFT 相较其他方法获得了更高的可用率。“Ava”和“Human Ava”的相同趋势进一步证明了 RFNet 能够忠实反映人类反馈。如图 6 所示,循环生成(RG)通过多次尝试可以大幅提高可用图像的比例。由于我们模型拥有更强的生成能力,它需要更短的生产时间,这证明我们的方法提供了可靠且高效的解决方案。





如下图所示,我们对不同方法的美学质量进行了评估,所提出的方法在美学质量上可以与原始模型相媲美,这受益于所提出的条件一致约束。





(3)定性对比

下图展示了部分例子来说明我们的方法在提高可用率和生产效率方面的增强能力,同时保持视觉表现的稳定性。





(4)泛化性

为了评估我们方法的灵活性,我们考察了微调后的 ControlNet 在与各种 LoRA 和扩散模型权重整合时的通用能力。如表 4 所示,经过微调的 ControlNet 显著提高了不同 LoRA 和扩散模型权重的可用率。





Note:

欢迎大家交流与探讨,如有任何问题或建议,请随时联系:fengwei25@jd.com。

京东广告创意部门诚邀 AIGC/大模型领域人才加入,共同推动技术的进步和创新。欢迎大家踊跃投递简历,期待与您在京东相遇!


2024-12-05 11:307113

评论

发布
暂无评论
发现更多内容

快过年了,用五种不同的JS特效带你看烟花

海拥(haiyong.site)

大前端 js 28天写作 前端特效 1月月更

通过 Amazon CloudWatch 配合 Amazon ElastiCache for Redis 遵循监控最佳实践

亚马逊云科技 (Amazon Web Services)

计算

开源操作系统年度技术会议演讲PPT下载来啦!

鉴释

开源 操作系统

移动数字化平台如何让企业生态协同更高效?

BeeWorks

零数科技入选毕马威中国“2021领先金融科技50企业”

科技热闻

共建龙蜥社区,支撑商业建设

OpenAnolis小助手

Linux 开源 开发者

武汉智慧城市建设新名片 一城一云打造数字经济新引擎

InfoQ_967a83c6d0d7

微帧ROI视频智能编码:基于人眼感兴趣区域,实现极致观感体验

微帧Visionular

视频编码

面试官: Flink双流JOIN了解吗? 简单说说其实现原理

华为云开发者联盟

sql flink join 双流join 数据库SQL

Go Error 嵌套到底是怎么实现的?

AlwaysBeta

Go 源码 源码阅读 Go 语言 源码学习

详解数据湖:概念、特征与架构

五分钟学大数据

数据湖 1月月更

【伙伴故事】一盏智能灯,点亮家庭和工业照明的新未来

华为云开发者联盟

物联网 华为云 AIOT PLC 智能照明

🍃【Spring专题】「技术原理」为大家介绍一下Spring中的Ant路径匹配工具组件AntPathMatcher

洛神灬殇

spring 1月月更 SpringFramework AntPathMatcher

【等保小知识】等级保护工作是指等保测评吗?意思一样吗?

行云管家

网络安全 等保 等保测评

关于减碳你是否有很多问号?施家碳中和咨询服务来了!

ToB行业头条

构建面向异构算力的边缘计算云平台

火山引擎边缘云

gpu 云原生 边缘计算 算力

【Frontend Focus #532】前端性能优化

道道里

前端 性能 浏览器

做网络安全竟然不了解ATT&CK?这篇文章的介绍详细到令人尖叫

博文视点Broadview

利用 Amazon Batch 来为容器化负载调用海量云端算力

亚马逊云科技 (Amazon Web Services)

计算

Hoo虎符研究院 | 币圈后浪——Osmosis一种高级AMM协议

区块链前沿News

Hoo 虎符交易所 虎符研究院

产业协同,助力数转 | 鲸鲮正式加入中国电信5G产业创新联盟

鲸鲮JingOS

Linux 5G 操作系统 信创 电信

【Node Weekly #417】你需要了解的Node.js内存限制

道道里

前端 Node

如何构建智能湖仓架构?亚马逊工程师的代码实践来了

亚马逊云科技 (Amazon Web Services)

计算

研究完PagerDuty,我发现一款好用的国产告警管理软件

睿象云

DevOps 运维

中小型企业过等保困难有哪些?如何解决?

行云管家

网络安全 企业 过等保

MASA Framework - EventBus设计

MASA技术团队

C# .net 微软 框架 Framework

MobTech观察 | CSDN:企业数字化转型如何提升段位?杨冠军畅谈企业数字化前世今生

MobTech袤博科技

数据分析 数字化转型 数据治理 企业 数据可视化

4种Spring Boot 实现通用 Auth 认证方式

华为云开发者联盟

拦截器 spring-boot Auth 传统AOP 参数解析器

喜讯!Apache APISIX Committer 张晋涛当选「中国开源先锋 33 人」

API7.ai 技术团队

云原生 微服务网关 APISIX 网关

零数科技入选毕马威中国“2021领先金融科技50企业”

科技热闻

“云联邦”构建连云成片、无缝混合的一朵云

华为云开发者联盟

混合云 多云 华为云Stack 云联邦 联邦认证

ECCV2024 | 京东零售广告创意:基于人类反馈的可信赖图像生成_AI&大模型_京东零售技术_InfoQ精选文章