写点什么

解构阿里深度兴趣网络(DIN):如何将注意力机制引入推荐系统?

  • 2019 年 1 月 21 日
  • 本文字数:2265 字

    阅读完需:约 7 分钟

解构阿里深度兴趣网络(DIN):如何将注意力机制引入推荐系统?

本文授权转载自王喆的机器学习笔记(https://zhuanlan.zhihu.com/wangzhenotes ),每隔一到两周作者会站在算法工程师的角度讲解一些计算广告、推荐系统相关的文章。本文以阿里的深度兴趣网络(DIN)为例讲解了推荐系统中的注意力机制。


选择文章的标准有三个:


  • 一是工程导向的;

  • 二是阿里、facebook、google 等一线互联网公司出品的;

  • 三是前沿或者经典的。


我们从阿里的深度兴趣网络(Deep Interest Network)开始。很多同学已经非常熟悉这篇文章了,但我觉得一篇优秀的文章多强调几遍也不为过。说这篇文章好,主要有三个原因:


  1. 一是因为这篇文章的工程性很强。工程性很强的文章首先是便于实现的,其次你可以从字里行间看到很多实践出真知的影子,比如 DIN 这篇文章中 GAUC 这样的 metric 的改进,以及 Dice 这样的激活函数的创新,都是对经典知识在实践中改进的例子。

  2. 第二个原因是因为这篇文章对用户行为的观察非常精准。有句话说做推荐其实就是“揣摩人心”,你把用户的行为和习惯揣摩好了,才能够以此出发,从技术上映射用户的习惯。DIN 这篇文章有效的利用了用户兴趣多样性以及当前候选商品仅与用户一部分兴趣有关这一特点,引入注意力机制,这是非常精准的动机。

  3. 第三个原因是模型的微创新,从低维到高维是创新,从离散到连续是创新,从单一到融合也是创新,这篇文章把 NLP 大行其道的注意力机制引入推荐领域,当然是典型并且有效的创新手段,也是所有算法工程师应该学习的地方。


好了,废话讲完了,我们看看这篇文章到底做了什么。


用户场景很简单,就是在一个电商网站或 APP 中给用户推荐广告,当然对于阿里妈妈来说,广告也是商品,所以这篇文章的广告场景其实也是一个经典的推荐场景。


好,既然要推荐,我们当然需要利用用户的历史数据了,对于一个电商来说,历史数据当然就是点击,添加购物车,下单这些行为了。论文中给了一位用户的行为序列。



用户的行为序列


显然是一个女生的行为历史啦,从最左边的手套,鞋子到右边的杯子,睡衣。要被推荐的候选商品是一件女式大衣。我们应该如何计算这件大衣的 CTR 呢?


如果按照之前的做法,我们会一碗水端平的考虑所有行为记录的影响,对应到模型中就是我们会用一个 average pooling 层把用户交互过的所有商品的 embedding vector 平均一下形成这个用户的 user vector,机灵一点的工程师最多加一个 time decay,让最近的行为产生的影响大一些,那就是在做 average pooling 的时候按时间调整一下权重。


但是我们仔细想一想我们自己的购买过程,其实每个用户的兴趣都是多样的,女生喜欢买衣服包包,也喜欢化妆品,甚至还为自己男朋友挑选过球衣球鞋,那么你在买大衣的时候,真的要把给男朋友买球鞋的偏好考虑进来么?具体到本文的例子中,在预测大衣的 CTR 这件事情上,用户浏览过杯子,跟用户浏览过另一件大衣这两个行为的重要程度是一样的吗?


这事不用问算法工程师,你就回家问问你老妈估计答案都是一定的,肯定是浏览过另一件大衣这件事的参考价值高啊。好了,就是这件你老妈都知道的事情,让阿里妈妈的算法工程师们加上了 attention 机制。


注意力机制顾名思义,就是模型在预测的时候,对用户不同行为的注意力是不一样的,“相关”的行为历史看重一些,“不相关”的历史甚至可以忽略。那么这样的思想反应到模型中也是直观的。



上式中, V_u 是用户的 embedding 向量, V_a 是候选广告商品的 embedding 向量, V_i 是用户 u 的第 i 次行为的 embedding 向量,因为这里用户的行为就是浏览商品或店铺,所以行为的 embedding 的向量就是那次浏览的商品或店铺的 embedding 向量。


因为加入了注意力机制, V_u 从过去 V_i 的加和变成了 V_i 的加权和, V_i 的权重 w_i 就由 V_i 与 V_a 的关系决定,也就是上式中的 g(V_i,V_a) ,不负责任的说,这个 g(V_i,V_a) 的加入就是本文 70% 的价值所在。


那么 g(V_i,V_a) 这个函数到底采用什么比较好呢?看完下面的架构图自然就清楚了。



相比原来这个标准的深度推荐网络(Base model),DIN 在生成用户 embedding vector 的时候加入了一个 activation unit 层,这一层产生了每个用户行为 V_i 的权重,下面我们仔细看一下这个权重是怎么生成的,也就是 g(V_i,V_a) 是如何定义的。


传统的 Attention 机制中,给定两个 item embedding,比如 u 和 v,通常是直接做点积 uv 或者 uWv,其中 W 是一个|u|x|v|的权重矩阵,但这篇 paper 中阿里显然做了更进一步的改进,着重看上图右上角的 activation unit,首先是把 u 和 v 以及 u v 的 element wise 差值向量合并起来作为输入,然后喂给全连接层,最后得出权重,这样的方法显然损失的信息更少。但如果你自己想方便的引入 attention 机制的话,不妨先从点积的方法做起尝试一下,因为这样连训练都不用训练。


再稍微留意一下这个架构图中的红线,你会发现每个 ad 会有 good_id, shop_id 两层属性,shop_id 只跟用户历史中的 shop_id 序列发生作用,good_id 只跟用户的 good_id 序列发生作用,这样做的原因也是显而易见的。


好了,到这里为止我们基本讲完了这篇文章的重点部分,如果说上面的部分是文 70% 的价值所在,那么余下 30% 应该还有这么几点:


  • 用 GAUC 这个离线 metric 替代 AUC

  • 用 Dice 方法替代经典的 PReLU 激活函数

  • 介绍一种 Adaptive 的正则化方法

  • 介绍阿里的 X-Deep Learning 深度学习平台


上面几项介绍起来略显繁琐,大家有兴趣的可以参考原文。对于广大算法工程师来说,知道如何引入 attention 机制应该是最实用的收获。


参考文献:


https://arxiv.org/abs/1706.06978https://github.com/wzhe06/Ad-papers


原文链接:


https://zhuanlan.zhihu.com/p/51623339


2019 年 1 月 21 日 10:166863

评论

发布
暂无评论
发现更多内容

ConcurrentHashMap JDK1.8 源码分析

黄敏

java

docker 系列:实践工具

yuexin_tech

第一周作业

沐风

ZooKeeper分布式配置——看这篇就够了

牧小农

zookeeper 分布式配置

【LeetCode】加一Java题解

HQ数字卡

算法 LeetCode 10月日更

【新】虚拟机深层系列「GC本质底层机制」SafePoint的深入分析和底层原理探究指南

浩宇天尚

JVM safepoint JVm虚拟机 10月日更

音视频:播放器与H.265播放探索

程序员架构进阶

视频流 播放器 10月日更 H.265

pygame 二次 hello world 项目感知

梦想橡皮擦

10月日更

数字货币期权交易软件系统开发内容(源码搭建)

技术分析| WebRTC开源服务器商业化过程中遇到的问题及挑战

anyRTC开发者

开源 音视频 WebRTC 服务器 实时通信

模块一的命题作业

月影之臣

架构实战营

Java 面试八股文之数据库篇(三)

Dobbykim

【Flutter 专题】23 图解自定义 Dialog 对话框

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 10月日更

Vue进阶(幺肆叁):如何用绝对定位(position:absolute)完美定位布局及其注意事项

No Silver Bullet

Vue 10月日更 绝对定位

把握数字经济发展趋势和规律 推动我国数字经济健康发展

CECBC

一文读懂公共部门、区块链和数字太空竞赛三者之间的角色关系

CECBC

理解 std::declval 和 decltype

hedzr

算法 元编程 C++11 c++17 纯虚函数

对自己深度学习方向的论文有idea,可是工程实践能力跟不上,实验搞不定怎么办?

Giant

自然语言处理 机器学习 深度学习 算法 论文

数字货币合约交易APP系统开发介绍(案例)

在线字符串转列表工具

入门小站

工具

揭秘!探访百度AI反诈第一线

白洞计划

永续合约软件系统开发源码搭建

区块链的监管架构基本成型

CECBC

架构营模块一作业

GTiger

架构实战营

代码质量管理:SonarQube + Jenkins Pipeline配置

看山

DevOps 10月日更

持续测试、持续集成、持续交付、持续部署和DevOps

FunTester

持续集成 持续交付 持续测试 FunTester 持续构建

Prometheus 查询操作符(四) 示例合集

耳东@Erdong

Prometheus 10月日更

Go 中如何写注释

baiyutang

golang 10月日更

数字货币合约交易系统开发内容(源码)

👊 【Spring技术特性】采用protostuff和kryo高性能序列化框架实现RestTemplate的序列化组件

浩宇天尚

spring 序列化协议 10月日更 序列化机制

期货合约系统APP开发简介(搭建)

解构阿里深度兴趣网络(DIN):如何将注意力机制引入推荐系统?-InfoQ