Embedding向量作为推荐算法中必不可少的部分，主要有四个运用方向（前3个引用于王喆老师）：

在深度学习网络中作为Embedding层，完成从高维稀疏特征向量到低维稠密特征向量的转换（比如wide&deep，DIN等模型）；
作为预训练的Embedding特征向量，与其他特征向量连接后一同输入深度学习网络进行训练，比如FNN模型；
通过计算用户和物品的Embedding相似度，Embedding可以直接作为推荐系统或计算广告系统的召回层或者召回方法之一（比如Youtube推荐模型）
通过计算用户和物品的Embedding，将其作为实时特征输入到推荐或者搜索模型中（比如Airbnb的embedding应用）。
本文将着重梳理一下embedding在3和4上的应用。

1.Item2vec: Neural Item Embedding for Collaborative Filtering
基本上参照google的word2vec方法，把item视为word，用户的行为序列视为一个集合，item间的共现为正样本，并按照item的频率分布进行负样本采样。缺点就是没有建模用户对不同item的喜欢程度高低。

Airbnb： Real-time Personalization using Embeddings for Search Ranking at Airbnb

共训练了三个embedding，包括Listing Embedding、User Type Embedding 和 Listing Type Embedding，这里Listing 可理解为一个商品item。其中Listing Embedding对应的是用户的短期兴趣偏好，通过用户在Session中的点击序列训练得到。其中用到了一些trick，比如在有预定的session中，在loss函数中加入预定listing；另外可以随机加入几个同目的地的房源作为负样本。最终的目标函数为：

那么怎么解决冷启动问题呢？对于新加入的房源，可以从已有embedding的房源中，选择3个同种类且距离最近(但是要在半径10miles以内)的3个房源，并用其embedding的平均值来作为新房源的embedding。

另外为了建模用户的长期兴趣，可以拿用户长期的booking session序列，但是booking session数据是很稀疏的。解决方案是将listing和用户进行分类。就可以产生如下的序列：

然后基于word2vec方法去训练得到user type和item type的embedding表示。

Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

可看作是deep-walk算法的改进，deep-walk对于出现次数很少甚至没有用户交互过的商品是学习不到很好的embedding表示的。本文使用基于side information（比如商品品牌、店铺名、类别）的图嵌入学习方法。

首先介绍的是base的Graph Embedding方法，过程如下图：

然后是Graph Embedding with Side information，主要就是加入了side information来解决冷启动问题。在加入Side information之后，商品表示为一种aggregated embeddings：

其中W0代表item embedding，W1,Wn代表每种Side information对应的embedding。

最后介绍的是Enhanced Graph Embedding with Side information ，不同的side information在最终的aggregated embeddings中所占的权重应该是不同的，比如一个购买了iphone的用户，倾向于查看mac或者ipad，这是因为苹果这个品牌的影响力很大。此时aggregated embeddings计算公式为：

Deep Neural Networks for YouTube Recommendations

主要在候选集生成阶段使用了下面的模型。

在上面模型进行serving的过程中，没有直接使用整个模型去做inference，而是直接使用user embedding和item embedding去做相似度的计算。其中user embedding是模型最后一层mlp的输出，vedio embedding则直接使用的是softmax的权重。

相关文章：
https://zhuanlan.zhihu.com/p/24339183?refer=deeplearning-surfing
https://zhuanlan.zhihu.com/p/55149901
https://zhuanlan.zhihu.com/p/57313656
https://www.jianshu.com/p/229b686535f1
https://zhuanlan.zhihu.com/p/52169807

本文转载自Alex-zhai知乎账号。

原文链接：
https://zhuanlan.zhihu.com/p/78144408

创作场景

Embedding 在推荐算法中的应用总结