阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

今日头条推出强化学习新成果:首次改进 DQN 网络,解决推荐中的在线广告投放问题

  • 2019-10-15
  • 本文字数:2086 字

    阅读完需:约 7 分钟

今日头条推出强化学习新成果:首次改进DQN网络,解决推荐中的在线广告投放问题

本文来自“深度推荐系统”专栏,这个系列将介绍在深度学习的强力驱动下,给推荐系统工业界所带来的最前沿的变化。本文主要介绍今日头条推出的强化学习应用在推荐的最新论文[1],首次改进 DQN 网络以解决推荐中的在线广告投放问题。

背景介绍

随着最近 RL 研究的火热,在推荐平台上在线广告投放策略中如何利用 RL 引起了大家极大的兴趣。然而,大部分基于 RL 的在线广告投放算法只聚焦于如何使广告收益最大化,却忽略了广告对推荐列表的用户体验可能会带来的负面影响。在推荐列表中不适当地插入广告或者插入广告太频繁都会损害推荐列表的用户体验,与此同时插入太少的广告又会减少广告收入。


因此本文提出了一种全新的广告投放策略来平衡推荐用户体验以及广告的收入。在给定推荐列表前提下,本文提出了一种基于 DQN 的创新架构来同时解决三个任务:是否插入广告;如果插入,插入哪一条广告;以及插入广告在推荐列表的哪个位置。实验也在某短视频平台上验证了本文算法的效果。


DQN 架构

在深入本文具体的算法架构前,我们先来简单回顾下 DQN 的两种经典结构:


  • 图 a 的 DQN 接受的输入是 state,输出是所有可能 action 对应的 Q-value;

  • 图 b 的 DQN 接受的输入是 state 以及某一个 action,输出是对应的 Q-value。


这两种经典架构的最主要的问题是只能将 action 定义为插入哪一条广告,或者插入广告在列表的哪个位置,无法同时解决上述提到的三个任务。



当然,从某种程度上来说将插入位置与插入哪一条广告通过某种表示形式譬如 one-hot 编码来建模 action 是一种使用上述经典 DQN 的方式,这样的话 action 的空间会变成 O(A*L),其中 A 是广告的空间,L 是插入列表的位置空间。这样的复杂度对于实际线上的广告系统是不太能够接受的。

改进的 DEAR 架构

因此,本文提出了一种改进的 DQN 框架 DEAR 用来解决上述推荐系统中在线广告投放问题。该框架试图同时解决上述提到的三个任务。也就是说,本框架会同时针对所有可能的插入位置的 Q-value 进行预估。


如下左图所示,其实是融合了上述提到了两种经典 DQN 结构的结合,输入层包含 State 以及 Action(插入哪条广告),输出层则是广告插入推荐列表的 L+1 位置对应的 Q-value(假设推荐列表长度为 L,则可以插入广告的位置为 L+1 种可能)。与此同时,使用一个特殊插入位置 0 用来表示不进行广告插入,因此输出层的长度扩展成为 L+2。


DEAR 框架详细的架构如下右图所示,输出层 Q 函数被拆解成两部分:只由 state 决定的 V 函数;以及由 state 和 action 同时决定的 A 函数。其中,


  • state 包含了使用 GRU 针对推荐列表和广告进行用户序列偏好建模的 p;当前用户请求的上下文信息 c;以及当前请求展示的推荐列表 item 的特征进行拼接转换形成的低维稠密向量 rec;

  • action 则包含两部分:一部分是候选插入广告 ad 的特征;另一部分则是广告插入的位置;其中这里的前半部分会被当做输入层。



  • reward 函数。Reward 函数也包含两部分:一部分是广告的的收入 r^ad;另一部分则是用户是否继续往下刷的奖励。基于下图的 reward 函数,最优的 Q 函数策略便可以通过 Bellman 等式求得。


Off-Policy 训练

本文基于用户交互历史的离线日志,采用 Off-policy 的方式进行训练得到最优的投放策略。如下图所示,针对每一次迭代训练:


  • (第 6 行)针对用户请求构建 state;

  • (第 7 行)根据标准的 off-policy 执行 action,也就是选取特定 ad;

  • (第 8 行)根据设计好的 reward 函数,计算 reward;

  • (第 10 行)将状态转移信息(s_t,a_t,r_t,s_t+1)存储到 replay buffer;

  • (第 11 行)从 replay buffer 中取出 mini-batch 的状态转移信息,来训练得到最优的 Q 函数参数。


实验

由于没有同时包含推荐列表和广告 item 的公开数据集,本文基于从某短视频网站获取的自 2019 年 3 月的数据集训练得到模型,该数据集包含两种视频:正常推荐列表的视频和广告视频。正常视频的特征包含:id、点赞数、播放完成率、评论数等;广告视频的特征包含:id、图片大小、定价等。


实验对比上本文主要挑选了如下的几个代表性的 baseline 进行效果对比,为了实验对比的公正性,所有对比算法使用的特征完全一致。


  • W&D。本文稍微针对 W&D 进行了扩展来预估是否插入广告以及预估插入广告的 CTR。

  • DFM。DeepFM 是在 W&D 基础上改进而来的一种可以额外学习特征间低阶交互的一种架构。本文的实验也表明 DFM 的表现好于 W&D。

  • GRU。GRU4Rec 使用 GRU 来建模用户的历史行为针对用户是否点击进行预估,本文同样也进行了扩展支持实验场景。本文的实验表明 GRU4Rec 效果好于 W&D 和 DFM。

  • HDQN。HQN 是一个层级 DQN 结构,高阶 DQN 决定插入位置;低阶 DQN 选择特定 ad 进行插入。本文的实验表明 HDQN 效果好于 GRU,因为 GRU 只是最大化当前请求的 immediate 奖励,而 HDQN 则是最大化长期收益。

  • DEAR。本文提出的 DEAR 框架效果好于 HDQN,因为层级的 RL 架构在使用 off-policy 方式进行联合训练时有稳定性问题。详细的效果对比,如下图所示。


参考

  1. Deep Reinforcement Learning for Online Advertising in Recommender Systems


本文授权转载自知乎专栏“深度推荐系统”。原文链接:https://zhuanlan.zhihu.com/p/85417314


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-10-15 08:002989

评论

发布
暂无评论
发现更多内容

Chat Towards Data Science|如何用个人数据知识库构建 RAG 聊天机器人?

Zilliz

chatbot Zilliz zillizcloud rag

1024程序员节|是时候,展示真正的实力了!

Openlab_cosmoplat

1024 1024程序员节

关于数据库分片你需要知道的

遥遥知识库

Java 分布式数据库 后端 数据库分片 关于XX你应该知道的

运维:MySQL常用的服务器状态命令

这我可不懂

MySQL 数据库

幸福里基于 Flink & Paimon 的流式数仓实践

字节跳动云原生计算

flink paimon

如何区分特权账号管理系统PAM和堡垒机

尚思卓越

网络安全 堡垒机 特权账号管理

特权账号管理系统简述

尚思卓越

特权账号管理 特权账号 PAM

揭示Lombok的代码设计缺陷:探索封装问题

树上有只程序猿

lombok Java 开发

产品经理的效率利器:揭秘提升工作效率的10大神器!

彭宏豪95

项目管理 产品经理 在线白板 办公软件 在线协作

设计一套评论系统

Kevin_913

Java 数据库设计 评论系统

低代码助力软件开发

互联网工科生

软件开发 低代码

Microsoft Remote Desktop for Mac 10.9.4中文版

iMac小白

microsoft remote desktop

苹果Mac电脑思维导图软件XMind for mac中文破解版

iMac小白

XMind下载 XMind2023 XMind破解版 XMind中文版 XMind Pro

灵活、可用、高扩展,EasyMR 带来全新 Yarn 的队列管理功能及可视化配置

袋鼠云数栈

hadoop YARN CDH 资源调度 hdp

如何确定Apache Kafka的大小和规模

互联网工科生

kafka

Op丨ARB链dapp代币合约质押项目系统开发

l8l259l3365

低代码让软件开发更快捷、简单

高端章鱼哥

低代码

Acrobat Pro DC 2023中文直装版 专业PDF编辑

iMac小白

Acrobat Pro DC 2023 Adobe Acrobat Pro DC下载 Adobe Acrobat Pro DC破解

第11期 | GPTSecurity周报

云起无垠

协同发展,生态聚合丨1024程序员节暨「源聚一堂」开源技术沙龙(北京站)成功举办

开放原子开源基金会

【有奖体验】AIGC小说创作大赛开启!通义千问X函数计算部署AI助手

Serverless Devs

阿里云 Serverless AI

挑战吧,HarmonyOS应用开发工程师

HarmonyOS开发者

HarmonyOS

EndNote 21 for mac破解版 EndNote 21激活安装

iMac小白

EndNote 21下载 EndNote 21破解版 EndNote 21 mac

如何使用透明贴图实现火焰效果

3D建模设计

材质 纹理 贴图

特权账号的功能

尚思卓越

网络安全 堡垒机 特权账号

最好的私有云桌面解决方案

青椒云云电脑

云桌面

多款国产操作系统安装数据库干货文档汇总(含Oracle/MySQL/国产数据库等)

墨天轮

MySQL 数据库 oracle 国产操作系统 麒麟软件

焕新升级!新一代云原生可观测平台

华为云原生团队

云计算 容器 云原生 边缘计算

HarmonyOS多音频播放并发政策及音频管理解析

HarmonyOS开发者

HarmonyOS

如何为3D模型设置自发光材质?

3D建模设计

材质 纹理 贴图

Meetup 回顾|Data Infra 研究社第十六期(含资料发布)

Databend

今日头条推出强化学习新成果:首次改进DQN网络,解决推荐中的在线广告投放问题_AICon_深度传送门_InfoQ精选文章