2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

ECCV2024 | 京东零售广告创意:基于人类反馈的可信赖图像生成

  • 2024-12-05
    北京
  • 本文字数:2591 字

    阅读完需:约 9 分钟

大小:1.30M时长:07:33
ECCV2024 | 京东零售广告创意:基于人类反馈的可信赖图像生成



ECCV2024: Towards Reliable Advertising Image Generation Using Human Feedback

链接:https://arxiv.org/abs/2408.00418



摘要:在电商领域,吸引顾客注意力的广告图片至关重要。尽管生成模型可以自动生成图像,但它们往往会产生不符合广告标准的图片,可能误导顾客,并需要大量人工成本进行检查。本文探讨了如何提高可用生成图像的比例。我们首先引入了一种多模态可信赖反馈网络(RFNet),用于自动检查生成的图像。将 RFNet 整合到一个循环过程——循环生成中,可以提高可用广告图像的数量。为了进一步提升生产效率,我们通过一种创新的一致性条件正则化方法,利用 RFNet 的反馈来微调扩散模型(RFFT)。这显著提高了生成图像的可用率,减少了循环生成中的尝试次数,并提供了一种高效的生产过程,同时不牺牲视觉效果。我们还构建了一个包含超过一百万张由人工标注的生成广告图像的可信赖反馈一百万(RF1M)数据集,这有助于训练 RFNet 准确评估生成图像的可用性,并真实反映人工反馈。总的来说,我们的方法为广告图像生成提供了一个可信赖的解决方案。



一、背景及现状

吸引人的广告图片对于电子商务的成功至关重要。由于手动设计图片需要大量的人工成本,因此对自动广告图像生成的需求正在上升。最近,通过结合先进的扩散模型(Stable Diffusion)和 ControlNet,可以为产品生成和谐的背景,同时保持商品细节不变。

尽管生成模型有潜力创造出吸引人的背景,但我们观察到其经常会生成质量欠佳的广告图片,如下图所示,这些图片存在空间和尺寸不匹配、不显著以及形状幻觉等问题。





这些有缺陷的图片可能导致顾客对产品产生误解,进而带来不佳的购物体验,因此需要大量人工来检查生成的图像。这些缺陷限制了生成模型在广告图像生产中的广泛应用。因此,我们要解决的问题是如何建立一个可信赖的广告图像生成流程,以高可用率生成图像。



二、信赖反馈模型

一个自然的解决方案是利用生成过程中的随机性,反复生成图像直到获得可用的图像(循环生成)。为了替代人工检查,我们提出了一种新颖的信赖反馈网络(RFNet),充当人工检查员来评估生成的广告图像的可用性。由于仅依赖单一生成的图像,模型无法有效获得进行精确检查所需的关键知识,例如产品是什么以及产品如何出现在背景中。因此,RFNet 整合了多种辅助模态,以提供对判断不同不可用情况至关重要的信息。RFNet 的结构如下所示:





通过使用 RFNet 判别生成结果,可利用随机性提升可用率。我们将这种提升可用率的方法称之为循环生成,伪代码如下所示:





三、可信赖人类反馈

虽然循环生成大大增加了可用图像的数量,但因为生成模型本身能力有限,多次尝试会显著延长生成过程。利用人类反馈(RLHF)来增强扩散模型的能力提供了一种可行的选择,这些方法在提高生成图像的视觉质量方面已经取得显著结果。类似的,在训练完信赖反馈模型后,我们将其输出看作人类对于生成图片的评价,通过将其结果反传回生成模型来提升生成图片中可用的比例。该流程如下所示:







其中,yd 为一个 one-hot 向量,其中合格类别的概率为 1,而其他类别的概率为 0。oi 为生成图像输入给信赖反馈模型后得到的概率,N 为一次训练中样本的总数。所得到的梯度被反传至生成模型中,来使其朝着更高概率生成合格图像的方向优化。沿用 ControlNet 原有的设定,只有 ControlNet 部分参与梯度更新,而 Stable Diffusion 部分是不更新参数的。



尽管通过梯度反传微调能够提升合格样本出现的概率,然而由于图像可用率和美观度是对抗的目标,这使得提升图片的可用率会导致美观度的下降。例如,直接将商品放置于空白背景中将获得极低的 bad case 比例,然而这种方式将严重破坏图片的美感。如下图(a)所示,随着模型达到极高的图片可用率,商品的背景区域将产生美学崩塌的结果。





为了实现提升图片的可用比例并保持图片的美观,简单的方式是训练中加入 KL 损失约束,该损失可以保证模型的分布不偏离目标分布。利用该约束,可以使得模型在微调后的输出分布和微调前近似,从而达到不影响美观的结果。该过程可写作:





KL 损失约束的目的是为了保持图像不变,而 F_AC 是希望图像朝着可用率更高的方向改变,这样的对抗的目标难以产生双赢的结局。为了解决该问题,我们将重点从保持图像本身不变,迁移至输入文本条件的指导不变。由于在文生图模型中,文本内容和图像内容是高度相关的,因此我们提出了一种条件一致约束来保证文本条件不变。根据 classifier-free 的训练方法,可以推导出文本条件对图像生成过程的影响方向为:





为了保证图像可用率的梯度方向不影响文本条件的影响方向,我们提出了条件约束损失 L_CC 如下:





上图(b)显示了 L_CC 相对于 L_KL 的优势,其中 L_KL 希望逆转 F_AC 的梯度方向,而 L_CC 提供了一个双赢的策略,它保持了文本条件的梯度,同时允许模型朝着可用率更高的方向更新梯度。因此,最终微调生成模型的损失可以写作:





四、实验结果

(1)广告图像审核性能

如表 1 显示,RFNet 在所有指标上表现更优,突出了整合多模态信息和其有效结构的优势。我们进一步评估 RFNet 中各个组件的影响,结果如表 2 所示。实验表明,RFNet 中每个组件对最终 AP 有显著影响。





(2)广告图像可信赖性能

如表 3 所示,我们的 RFFT 相较其他方法获得了更高的可用率。“Ava”和“Human Ava”的相同趋势进一步证明了 RFNet 能够忠实反映人类反馈。如图 6 所示,循环生成(RG)通过多次尝试可以大幅提高可用图像的比例。由于我们模型拥有更强的生成能力,它需要更短的生产时间,这证明我们的方法提供了可靠且高效的解决方案。





如下图所示,我们对不同方法的美学质量进行了评估,所提出的方法在美学质量上可以与原始模型相媲美,这受益于所提出的条件一致约束。





(3)定性对比

下图展示了部分例子来说明我们的方法在提高可用率和生产效率方面的增强能力,同时保持视觉表现的稳定性。





(4)泛化性

为了评估我们方法的灵活性,我们考察了微调后的 ControlNet 在与各种 LoRA 和扩散模型权重整合时的通用能力。如表 4 所示,经过微调的 ControlNet 显著提高了不同 LoRA 和扩散模型权重的可用率。





Note:

欢迎大家交流与探讨,如有任何问题或建议,请随时联系:fengwei25@jd.com。

京东广告创意部门诚邀 AIGC/大模型领域人才加入,共同推动技术的进步和创新。欢迎大家踊跃投递简历,期待与您在京东相遇!


2024-12-05 11:307311

评论

发布
暂无评论
发现更多内容

全过程的区块链项目包装孵化都包含啥?

区块链项目一站式包装孵化

智能制造背景下的低代码平台助力企业生产流程优化

不在线第一只蜗牛

低代码 制造业 智能化

服务端性能测试:行业流行性能监控工具介绍

测吧(北京)科技有限公司

测试

区块链项目如何包装?点击查看详细流程

区块链项目一站式包装孵化

阿里云 SAE 助力修正商城 3 周内提升系统承载能力 20 倍,轻松应对春晚流量

阿里巴巴云原生

阿里云 Serverless 云原生

英特尔至强处理器助力Aible优化AI解决方案,大幅降低生成式AI成本

E科讯

彻底解决大模型训练集群的网络哈希冲突,百度百舸的高性能网络 HPN 落地实践

Baidu AICLOUD

哈希冲突 网络加速 大模型训练 GPU通信

TapData 医疗美容行业数字化白皮书上线

tapdata

医疗美容机构数字化 医疗美容运营数据分析 医疗美容白皮书 医疗美容大数据中心

1688商品详情数据接口

tbapi

1688 1688API 1688商品详情数据接口 1688商品数据采集

文本生成模型API比拼!KimiGPT 和 GLM-4 哪个更适合你?

幂简集成

AI API

成为海量数据管理支柱:天谋科技与中科驭数完成兼容性互认证

Apache IoTDB

ai工具有哪些?国内外40款主流AI软件速览!

彭宏豪95

人工智能 职场 在线白板 AIGC AI生成PPT

手把手教你玩转 Nginx 配置

伤感汤姆布利柏

WAIC2024 | 澳鹏Appen期待与您共襄盛会!

澳鹏Appen

世界人工智能大会 WAIC

MobPush扩展业务功能设置

MobTech袤博科技

Java 开发者 产品动态

区块链项目包装孵化都包含哪些东西,一站式了解不迷路!

区块链项目一站式包装孵化

败诉的爱奇艺,又引起了网友的不满?

趣解商业

优酷 爱奇艺 腾讯视频

看电影,学项目管理

凌晞

项目管理 项目经理

StarRocks 3.3 重磅发布,Lakehouse 架构发展进入快车道!

StarRocks

代币怎么上头像logo图标?TP钱包怎么上头像?技术帖扫盲(ave头像tp头像)

区块链项目一站式包装孵化

MobPush 安卓推送消息数据解析推荐实现

MobTech袤博科技

Java 开发者 产品动态

公开课 | 提高测试用例编写效率,掌握经典用例设计技巧!

测吧(北京)科技有限公司

测试

新能源汽车车载充电机仿真技术,实验误差5%以内

Altair RapidMiner

汽车 仿真 altair 人工智能、

AR没前景?我不相信!

AR玩家

AR Rokid Vision pro 炬目AR

2024年ONLYOFFICE插件开发大赛已启动!

科技汇

战略资讯 | TapData 牵手思想科技,开启数据管理新篇章!

tapdata

Tapdata 现代数据栈 思想科技 数字化解决方案

快手Vision Pro版实测体验!沉浸模式,刷视频绝了!

快手技术

客户端 快手 Vision pro

ECCV2024 | 京东零售广告创意:基于人类反馈的可信赖图像生成_AI&大模型_京东零售技术_InfoQ精选文章