NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

今日头条推出强化学习新成果:首次改进 DQN 网络,解决推荐中的在线广告投放问题

  • 2019-10-15
  • 本文字数:2086 字

    阅读完需:约 7 分钟

今日头条推出强化学习新成果:首次改进DQN网络,解决推荐中的在线广告投放问题

本文来自“深度推荐系统”专栏,这个系列将介绍在深度学习的强力驱动下,给推荐系统工业界所带来的最前沿的变化。本文主要介绍今日头条推出的强化学习应用在推荐的最新论文[1],首次改进 DQN 网络以解决推荐中的在线广告投放问题。

背景介绍

随着最近 RL 研究的火热,在推荐平台上在线广告投放策略中如何利用 RL 引起了大家极大的兴趣。然而,大部分基于 RL 的在线广告投放算法只聚焦于如何使广告收益最大化,却忽略了广告对推荐列表的用户体验可能会带来的负面影响。在推荐列表中不适当地插入广告或者插入广告太频繁都会损害推荐列表的用户体验,与此同时插入太少的广告又会减少广告收入。


因此本文提出了一种全新的广告投放策略来平衡推荐用户体验以及广告的收入。在给定推荐列表前提下,本文提出了一种基于 DQN 的创新架构来同时解决三个任务:是否插入广告;如果插入,插入哪一条广告;以及插入广告在推荐列表的哪个位置。实验也在某短视频平台上验证了本文算法的效果。


DQN 架构

在深入本文具体的算法架构前,我们先来简单回顾下 DQN 的两种经典结构:


  • 图 a 的 DQN 接受的输入是 state,输出是所有可能 action 对应的 Q-value;

  • 图 b 的 DQN 接受的输入是 state 以及某一个 action,输出是对应的 Q-value。


这两种经典架构的最主要的问题是只能将 action 定义为插入哪一条广告,或者插入广告在列表的哪个位置,无法同时解决上述提到的三个任务。



当然,从某种程度上来说将插入位置与插入哪一条广告通过某种表示形式譬如 one-hot 编码来建模 action 是一种使用上述经典 DQN 的方式,这样的话 action 的空间会变成 O(A*L),其中 A 是广告的空间,L 是插入列表的位置空间。这样的复杂度对于实际线上的广告系统是不太能够接受的。

改进的 DEAR 架构

因此,本文提出了一种改进的 DQN 框架 DEAR 用来解决上述推荐系统中在线广告投放问题。该框架试图同时解决上述提到的三个任务。也就是说,本框架会同时针对所有可能的插入位置的 Q-value 进行预估。


如下左图所示,其实是融合了上述提到了两种经典 DQN 结构的结合,输入层包含 State 以及 Action(插入哪条广告),输出层则是广告插入推荐列表的 L+1 位置对应的 Q-value(假设推荐列表长度为 L,则可以插入广告的位置为 L+1 种可能)。与此同时,使用一个特殊插入位置 0 用来表示不进行广告插入,因此输出层的长度扩展成为 L+2。


DEAR 框架详细的架构如下右图所示,输出层 Q 函数被拆解成两部分:只由 state 决定的 V 函数;以及由 state 和 action 同时决定的 A 函数。其中,


  • state 包含了使用 GRU 针对推荐列表和广告进行用户序列偏好建模的 p;当前用户请求的上下文信息 c;以及当前请求展示的推荐列表 item 的特征进行拼接转换形成的低维稠密向量 rec;

  • action 则包含两部分:一部分是候选插入广告 ad 的特征;另一部分则是广告插入的位置;其中这里的前半部分会被当做输入层。



  • reward 函数。Reward 函数也包含两部分:一部分是广告的的收入 r^ad;另一部分则是用户是否继续往下刷的奖励。基于下图的 reward 函数,最优的 Q 函数策略便可以通过 Bellman 等式求得。


Off-Policy 训练

本文基于用户交互历史的离线日志,采用 Off-policy 的方式进行训练得到最优的投放策略。如下图所示,针对每一次迭代训练:


  • (第 6 行)针对用户请求构建 state;

  • (第 7 行)根据标准的 off-policy 执行 action,也就是选取特定 ad;

  • (第 8 行)根据设计好的 reward 函数,计算 reward;

  • (第 10 行)将状态转移信息(s_t,a_t,r_t,s_t+1)存储到 replay buffer;

  • (第 11 行)从 replay buffer 中取出 mini-batch 的状态转移信息,来训练得到最优的 Q 函数参数。


实验

由于没有同时包含推荐列表和广告 item 的公开数据集,本文基于从某短视频网站获取的自 2019 年 3 月的数据集训练得到模型,该数据集包含两种视频:正常推荐列表的视频和广告视频。正常视频的特征包含:id、点赞数、播放完成率、评论数等;广告视频的特征包含:id、图片大小、定价等。


实验对比上本文主要挑选了如下的几个代表性的 baseline 进行效果对比,为了实验对比的公正性,所有对比算法使用的特征完全一致。


  • W&D。本文稍微针对 W&D 进行了扩展来预估是否插入广告以及预估插入广告的 CTR。

  • DFM。DeepFM 是在 W&D 基础上改进而来的一种可以额外学习特征间低阶交互的一种架构。本文的实验也表明 DFM 的表现好于 W&D。

  • GRU。GRU4Rec 使用 GRU 来建模用户的历史行为针对用户是否点击进行预估,本文同样也进行了扩展支持实验场景。本文的实验表明 GRU4Rec 效果好于 W&D 和 DFM。

  • HDQN。HQN 是一个层级 DQN 结构,高阶 DQN 决定插入位置;低阶 DQN 选择特定 ad 进行插入。本文的实验表明 HDQN 效果好于 GRU,因为 GRU 只是最大化当前请求的 immediate 奖励,而 HDQN 则是最大化长期收益。

  • DEAR。本文提出的 DEAR 框架效果好于 HDQN,因为层级的 RL 架构在使用 off-policy 方式进行联合训练时有稳定性问题。详细的效果对比,如下图所示。


参考

  1. Deep Reinforcement Learning for Online Advertising in Recommender Systems


本文授权转载自知乎专栏“深度推荐系统”。原文链接:https://zhuanlan.zhihu.com/p/85417314


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-10-15 08:002994

评论

发布
暂无评论
发现更多内容

mysql进阶(十七)Cannot Connect to Database Server问题分析

No Silver Bullet

MySQL 数据库 7月月更

算法题每日一练---第5天:星系炸弹

知心宝贝

算法 前端 后端 7月月更

如何做好研发精益需求管理

思码逸研发效能

研发管理 研发效能 科技

实时计算基本概念解析

五分钟学大数据

实时计算 7月月更

干货分享-作为Lead 接手一个新的数据团队一 问题盘点 与Insights的发现

松子(李博源)

经验分享 数据分析师 成长笔记 带团队

面向高性能计算场景的存储系统解决方案

Baidu AICLOUD

异构计算 云原生存储 AI加速

C# 窗体应用DataGridView,使用数据库(Sql和MySQl)对DataGridView绑定数据源,获取数据

IC00

C# 7月月更

关于数据产品经理的三个小的知识点

松子(李博源)

数据中台 数据产品经理 数据产品

在 Kyma 云原生平台上开发并部署 Node.js 应用

Jerry Wang

Kubernetes 云原生 SAP Kyma 7月月更

NFT数字藏品系统搭建—app开发

开源直播系统源码

软件开发 数字藏品 NFT数字藏品系统

开幕在即 | “万物互联,使能千行百业”2022开放原子全球开源峰会OpenAtom OpenHarmony分论坛

OpenHarmony开发者

OpenHarmony

多商户系统的直播功能用过吗?用过的朋友扣个 666!

CRMEB

strncpy() 复制字符串(受长度限制)

謓泽

7月月更

图文并茂,讲解TCP和UDP协议的原理以及区别

程序知音

程序员 网络 TCP/IP 后端技术 底层原理

LeetCode-88. 合并两个有序数组(java)

bug菌

Leet Code 7月月更

优博讯助力深圳打造全球“鸿蒙欧拉之城”

Geek_2d6073

CSS 炫酷文本过渡动画

南城FE

CSS css3 前端 7月月更

STM32+ESP8266+MQTT协议连接OneNet物联网平台

DS小龙哥

7月月更

敏捷 ? DevOps ?

FunTester

TIME的新封面:元宇宙将改变一切

智捷云

元宇宙 Metaverse 智捷云 智捷云科技

SeekTiger的Okaleido有大动作,生态通证STI会借此爆发?

鳄鱼视界

一文读懂Elephant Swap的LaaS方案的优势之处

西柚子

Android 开发遇到的Exception

沃德

android 7月月更

java零基础入门-java8新特性(上篇)

喵手

Java 7月月更

NFT卡牌链游系统Dapp开发搭建

薇電13242772558

NFT 链游

阿里JAVA架构师面试136题含答案:JVM+spring+分布式+并发编程!

程序知音

Java 程序员 java面试 后端技术 八股文

NFT挖矿分红系统开发模式定制

开发微hkkf5566

JAVA编程规范之日志规约

源字节1号

后端技术

面试突击67:说一下 TCP/IP 协议?以及每层的作用?

王磊

Java 面试

SENSORO 付刘伟:创新技术服务为基层政府筑造数字底座

SENSORO

人工智能 大数据 物联网 城市大脑 数字政府

妙啊!美团 OCTO 分布式服务治理系统,这描述也太清晰了

冉然学Java

Java 分布式 美团 #技术干货# Java 开发

今日头条推出强化学习新成果:首次改进DQN网络,解决推荐中的在线广告投放问题_AICon_深度传送门_InfoQ精选文章