东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

解构阿里深度兴趣网络(DIN):如何将注意力机制引入推荐系统?

  • 2019-01-21
  • 本文字数:2265 字

    阅读完需:约 7 分钟

解构阿里深度兴趣网络(DIN):如何将注意力机制引入推荐系统?

本文授权转载自王喆的机器学习笔记(https://zhuanlan.zhihu.com/wangzhenotes ),每隔一到两周作者会站在算法工程师的角度讲解一些计算广告、推荐系统相关的文章。本文以阿里的深度兴趣网络(DIN)为例讲解了推荐系统中的注意力机制。


选择文章的标准有三个:


  • 一是工程导向的;

  • 二是阿里、facebook、google 等一线互联网公司出品的;

  • 三是前沿或者经典的。


我们从阿里的深度兴趣网络(Deep Interest Network)开始。很多同学已经非常熟悉这篇文章了,但我觉得一篇优秀的文章多强调几遍也不为过。说这篇文章好,主要有三个原因:


  1. 一是因为这篇文章的工程性很强。工程性很强的文章首先是便于实现的,其次你可以从字里行间看到很多实践出真知的影子,比如 DIN 这篇文章中 GAUC 这样的 metric 的改进,以及 Dice 这样的激活函数的创新,都是对经典知识在实践中改进的例子。

  2. 第二个原因是因为这篇文章对用户行为的观察非常精准。有句话说做推荐其实就是“揣摩人心”,你把用户的行为和习惯揣摩好了,才能够以此出发,从技术上映射用户的习惯。DIN 这篇文章有效的利用了用户兴趣多样性以及当前候选商品仅与用户一部分兴趣有关这一特点,引入注意力机制,这是非常精准的动机。

  3. 第三个原因是模型的微创新,从低维到高维是创新,从离散到连续是创新,从单一到融合也是创新,这篇文章把 NLP 大行其道的注意力机制引入推荐领域,当然是典型并且有效的创新手段,也是所有算法工程师应该学习的地方。


好了,废话讲完了,我们看看这篇文章到底做了什么。


用户场景很简单,就是在一个电商网站或 APP 中给用户推荐广告,当然对于阿里妈妈来说,广告也是商品,所以这篇文章的广告场景其实也是一个经典的推荐场景。


好,既然要推荐,我们当然需要利用用户的历史数据了,对于一个电商来说,历史数据当然就是点击,添加购物车,下单这些行为了。论文中给了一位用户的行为序列。



用户的行为序列


显然是一个女生的行为历史啦,从最左边的手套,鞋子到右边的杯子,睡衣。要被推荐的候选商品是一件女式大衣。我们应该如何计算这件大衣的 CTR 呢?


如果按照之前的做法,我们会一碗水端平的考虑所有行为记录的影响,对应到模型中就是我们会用一个 average pooling 层把用户交互过的所有商品的 embedding vector 平均一下形成这个用户的 user vector,机灵一点的工程师最多加一个 time decay,让最近的行为产生的影响大一些,那就是在做 average pooling 的时候按时间调整一下权重。


但是我们仔细想一想我们自己的购买过程,其实每个用户的兴趣都是多样的,女生喜欢买衣服包包,也喜欢化妆品,甚至还为自己男朋友挑选过球衣球鞋,那么你在买大衣的时候,真的要把给男朋友买球鞋的偏好考虑进来么?具体到本文的例子中,在预测大衣的 CTR 这件事情上,用户浏览过杯子,跟用户浏览过另一件大衣这两个行为的重要程度是一样的吗?


这事不用问算法工程师,你就回家问问你老妈估计答案都是一定的,肯定是浏览过另一件大衣这件事的参考价值高啊。好了,就是这件你老妈都知道的事情,让阿里妈妈的算法工程师们加上了 attention 机制。


注意力机制顾名思义,就是模型在预测的时候,对用户不同行为的注意力是不一样的,“相关”的行为历史看重一些,“不相关”的历史甚至可以忽略。那么这样的思想反应到模型中也是直观的。



上式中, V_u 是用户的 embedding 向量, V_a 是候选广告商品的 embedding 向量, V_i 是用户 u 的第 i 次行为的 embedding 向量,因为这里用户的行为就是浏览商品或店铺,所以行为的 embedding 的向量就是那次浏览的商品或店铺的 embedding 向量。


因为加入了注意力机制, V_u 从过去 V_i 的加和变成了 V_i 的加权和, V_i 的权重 w_i 就由 V_i 与 V_a 的关系决定,也就是上式中的 g(V_i,V_a) ,不负责任的说,这个 g(V_i,V_a) 的加入就是本文 70% 的价值所在。


那么 g(V_i,V_a) 这个函数到底采用什么比较好呢?看完下面的架构图自然就清楚了。



相比原来这个标准的深度推荐网络(Base model),DIN 在生成用户 embedding vector 的时候加入了一个 activation unit 层,这一层产生了每个用户行为 V_i 的权重,下面我们仔细看一下这个权重是怎么生成的,也就是 g(V_i,V_a) 是如何定义的。


传统的 Attention 机制中,给定两个 item embedding,比如 u 和 v,通常是直接做点积 uv 或者 uWv,其中 W 是一个|u|x|v|的权重矩阵,但这篇 paper 中阿里显然做了更进一步的改进,着重看上图右上角的 activation unit,首先是把 u 和 v 以及 u v 的 element wise 差值向量合并起来作为输入,然后喂给全连接层,最后得出权重,这样的方法显然损失的信息更少。但如果你自己想方便的引入 attention 机制的话,不妨先从点积的方法做起尝试一下,因为这样连训练都不用训练。


再稍微留意一下这个架构图中的红线,你会发现每个 ad 会有 good_id, shop_id 两层属性,shop_id 只跟用户历史中的 shop_id 序列发生作用,good_id 只跟用户的 good_id 序列发生作用,这样做的原因也是显而易见的。


好了,到这里为止我们基本讲完了这篇文章的重点部分,如果说上面的部分是文 70% 的价值所在,那么余下 30% 应该还有这么几点:


  • 用 GAUC 这个离线 metric 替代 AUC

  • 用 Dice 方法替代经典的 PReLU 激活函数

  • 介绍一种 Adaptive 的正则化方法

  • 介绍阿里的 X-Deep Learning 深度学习平台


上面几项介绍起来略显繁琐,大家有兴趣的可以参考原文。对于广大算法工程师来说,知道如何引入 attention 机制应该是最实用的收获。


参考文献:


https://arxiv.org/abs/1706.06978https://github.com/wzhe06/Ad-papers


原文链接:


https://zhuanlan.zhihu.com/p/51623339


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-01-21 10:167269

评论

发布
暂无评论
发现更多内容

Don't judge others, Work on yourself

escray

学习 极客时间 5月日更 朱赟的技术管理课

🎙️ 如何写好一篇新闻资讯稿?(时事政治篇)

洛神灬殇

写作技巧 5月日更 新闻资讯 案例分析 时事政治

无人驾驶汽车有望持牌上路!这些公司称已经布局

容光

AI

架构师实战营-模块4-设计千万级学生管理系统的考试试卷存储方案

吴建中

架构实战营

由云入端:一场云计算巨头的闯关游戏

脑极体

Spring 是什么?如何去了解spring?

???

Java spring 程序员 编程语言 spring M

🔎【Java 源码探索】深入浅出的分析ClassLoader

洛神灬殇

Java ClassLoader 类加载器 5月日更 双亲委托模型

解析如程688免费住民宿的商业模式

石云升

商业模式 5月日更

架构训练营模块 5 作业

Geek_649372

架构实战营

一篇文章弄清磁盘的里里外外及访问特性

SunnyZhang的IT世界

梯度下降法2

Qien Z.

5月日更

Mysql 常见概念

water

星石深度:如何看待近期人民币汇率走强?

容光

iOS打包签名,你真的懂吗

Geen练

ios 打包 签名 iOS Developer

ubuntu64位搭建OpenVINO系统(上篇)

IT蜗壳-Tango

5月日更

区块链早报|拜登的2022年预算包括新的加密货币报告提案

容光

加密货币

记录:28天拿到字节offer的全过程(Java岗)

Java架构师迁哥

废物,我TMD一个985却斗不过专科生(大厂java开发2年被裁)

Java架构师迁哥

网络攻防学习笔记 Day29

穿过生命散发芬芳

5月日更 网络攻防

业界大佬跨界造车底气何来?

容光

AI

喜讯!腾讯团队Redis技术笔记,下载量已突破30W;附下载方式

Java架构师迁哥

IDEA中request获取不到getParameter方法

咿呀呀

javaWeb Request getParameter

架构实战营 - 模块 5- 作业

泄矢的呼啦圈

架构实战营

探索科技手段下的食品安全,区块链冷链追溯平台建设解决方案

源中瑞-龙先生

微服务注册中心:Consul——服务发现

程序员架构进阶

微服务 Consul API网关 28天写作 5月日更

证监会最新政策重点来了!

容光

监管合规

Java面试基础:面向对象和面向过程的区别

三掌柜

5月日更

Java岗熬了6年,终成P8,只因搞懂了这七件事

Java架构师迁哥

Github上“Java面试考点大全”被我扒下来了,20+互联网公司,应有尽有

Java架构师迁哥

太顶了!阿里大牛离职带出来的这份“Java架构核心宝典”学习笔记,差距不是一点点

Java 程序员 架构 面试

算法训练营 - 学习笔记 - 第七周

心在飞

解构阿里深度兴趣网络(DIN):如何将注意力机制引入推荐系统?_AI&大模型_王喆_InfoQ精选文章