“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

Embedding 在推荐算法中的应用总结

  • 2019-11-29
  • 本文字数:1586 字

    阅读完需:约 5 分钟

Embedding在推荐算法中的应用总结

Embedding 向量作为推荐算法中必不可少的部分,主要有四个运用方向(前 3 个引用于王喆老师):


  • 在深度学习网络中作为 Embedding 层,完成从高维稀疏特征向量到低维稠密特征向量的转换(比如 wide&deep,DIN 等模型);

  • 作为预训练的 Embedding 特征向量,与其他特征向量连接后一同输入深度学习网络进行训练,比如 FNN 模型;

  • 通过计算用户和物品的 Embedding 相似度,Embedding 可以直接作为推荐系统或计算广告系统的召回层或者召回方法之一(比如 Youtube 推荐模型)

  • 通过计算用户和物品的 Embedding,将其作为实时特征输入到推荐或者搜索模型中(比如 Airbnb 的 embedding 应用)。

  • 本文将着重梳理一下 embedding 在 3 和 4 上的应用。


1.Item2vec: Neural Item Embedding for Collaborative Filtering


基本上参照 google 的 word2vec 方法,把 item 视为 word,用户的行为序列视为一个集合,item 间的共现为正样本,并按照 item 的频率分布进行负样本采样。缺点就是没有建模用户对不同 item 的喜欢程度高低。


  1. Airbnb: Real-time Personalization using Embeddings for Search Ranking at Airbnb


共训练了三个 embedding,包括 Listing Embedding、User Type Embedding 和 Listing Type Embedding,这里 Listing 可理解为一个商品 item。其中 Listing Embedding 对应的是用户的短期兴趣偏好,通过用户在 Session 中的点击序列训练得到。其中用到了一些 trick,比如在有预定的 session 中,在 loss 函数中加入预定 listing;另外可以随机加入几个同目的地的房源作为负样本。最终的目标函数为:



那么怎么解决冷启动问题呢?对于新加入的房源,可以从已有 embedding 的房源中,选择 3 个同种类且距离最近(但是要在半径 10miles 以内)的 3 个房源,并用其 embedding 的平均值来作为新房源的 embedding。


另外为了建模用户的长期兴趣,可以拿用户长期的 booking session 序列,但是 booking session 数据是很稀疏的。解决方案是将 listing 和用户进行分类。就可以产生如下的序列:



然后基于 word2vec 方法去训练得到 user type 和 item type 的 embedding 表示。


  1. Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba


可看作是 deep-walk 算法的改进,deep-walk 对于出现次数很少甚至没有用户交互过的商品是学习不到很好的 embedding 表示的。本文使用基于 side information(比如商品品牌、店铺名、类别)的图嵌入学习方法。


首先介绍的是 base 的 Graph Embedding 方法,过程如下图:



然后是 Graph Embedding with Side information,主要就是加入了 side information 来解决冷启动问题。在加入 Side information 之后,商品表示为一种 aggregated embeddings:



其中 W0 代表 item embedding,W1,Wn 代表每种 Side information 对应的 embedding。


最后介绍的是 Enhanced Graph Embedding with Side information ,不同的 side information 在最终的 aggregated embeddings 中所占的权重应该是不同的,比如一个购买了 iphone 的用户,倾向于查看 mac 或者 ipad,这是因为苹果这个品牌的影响力很大。此时 aggregated embeddings 计算公式为:



  1. Deep Neural Networks for YouTube Recommendations


主要在候选集生成阶段使用了下面的模型。



在上面模型进行 serving 的过程中,没有直接使用整个模型去做 inference,而是直接使用 user embedding 和 item embedding 去做相似度的计算。其中 user embedding 是模型最后一层 mlp 的输出,vedio embedding 则直接使用的是 softmax 的权重。


相关文章:


https://zhuanlan.zhihu.com/p/24339183?refer=deeplearning-surfing


https://zhuanlan.zhihu.com/p/55149901


https://zhuanlan.zhihu.com/p/57313656


https://www.jianshu.com/p/229b686535f1


https://zhuanlan.zhihu.com/p/52169807


本文转载自 Alex-zhai 知乎账号。


原文链接:


https://zhuanlan.zhihu.com/p/78144408


2019-11-29 08:001942

评论

发布
暂无评论
发现更多内容

测试开发 | 人工智能与分布式计算:驱动智能时代的强力结合

测吧(北京)科技有限公司

测试

用 Tekton 来构建镜像并推送到极狐GitLab 私有仓库

极狐GitLab

用友BIP全球司库助力央国企统一资金结算,更可控更高效

用友BIP

全球司库 资金结算

HarmonyOS实践之应用状态变量共享

HarmonyOS开发者

HarmonyOS

治理要从数据建模抓起 | 京东云技术团队

京东科技开发者

Excel可编辑PDF转化软件 PDF to Excel 最新激活版

胖墩儿不胖y

Mac软件 好用的办公软件推荐

Havenask分布式索引构建服务--Build Service

阿里技术

分布式 Havenask 分布式索引 Build Service

深入探索服装网商品详情API:实时数据获取、安全与隐私保护及商业价值实践

Noah

以数据指标穿透企业经营,优化业务流程,加速企业运转

用友BIP

人才管理

鞍钢集团共和国钢铁工业长子的财务转型之路

用友BIP

财务数智化

模块一作业

大鹏

#架构实战营

官答|初始化GreatSQL报错无法找到数据目录或初始化数据字典失败

GreatSQL

故障排查 greatsql 官答

方太厨电,在创新科技中看见烟火人间

脑极体

方太

湖南等保测评3家叫什么名字?分别在哪里?

行云管家

等级保护 等保测评 湖南

朋友们注意啦!破解脱壳接单了

Geek_7f3f61

小程序开发 定制开发 破解脱壳

中粮、中交、云投等众多央国企携手用友打造世界一流人才管理体系

用友BIP

人才管理

测试开发 | 人工智能在大规模数据分析中的崭新征程

测吧(北京)科技有限公司

测试

软件测试/测试开发丨Pytest测试框架-跳过用例或预期用例失败

测试人

软件测试 测试开发

淘宝商品评论数据接口(Taobao.item_review)

tbapi

天猫商品评论接口 天猫评论接口 淘宝商品评论数据接口 淘宝评论接口 淘宝评论API接口

QCA9880: A multi-dimensional engine driving wireless communications

wallysSK

概念回顾:REST API 和 GraphQL

NGINX开源社区

微服务 Rest API graphql REST API

顺丰科技:打造智慧物流数据管理平台

新消费日报

多功能音频处理工具:Sound Siphon最新激活版

mac大玩家j

Mac软件 音频处理工具 音频管理 音频工具

低代码平台:多引擎、多应用,灵活构建企业数字化生态

天津汇柏科技有限公司

低代码

一起学Elasticsearch系列-索引管理

Java随想录

Java 大数据 Elastic Search

堡垒机的类型分类

尚思卓越

运维 堡垒机

测试开发 | 优化智能决策的前提——人工智能数据清洗与预处理

测吧(北京)科技有限公司

测试

让你的创意在EdgeView 4 for Mac上绽放

影影绰绰一往直前

Java多线程系列9:读写锁

BigBang!

Java多线程

数栈UI5.0设计实战|B端表单这样设计,不仅美观还提效

袋鼠云数栈

数据中台 设计 表单 表单设计

测试开发 | 人工智能数据可视化:揭示数据之美、洞察智慧之源

测吧(北京)科技有限公司

测试

Embedding在推荐算法中的应用总结_文化 & 方法_Alex-zhai_InfoQ精选文章