基于深度学习的推荐模型已广泛应用于各种电商平台中，为用户提供推荐。目前常用的方法通常会将用户和商品 embedding 向量连接起来输入多层感知器（ multilayer perceptron ）以生成最终的预测。但是，这些方法无法捕获实时用户行为信号，并且没有考虑到重要的情景特征（例如时间和位置等）的影响，以致最终的推荐不能准确地反映用户的实时偏好，这个问题在快餐推荐的应用场景中更为重要，因为：

如果当用户的购物车中已经添加了饮料时，用户不太可能再购买其他饮料。
用户的购买偏好会在给定的地点、时间和当前的天气条件下发生很大变化。例如，人们几乎从不在半夜给孩子们买食物，也不太可能在寒冷的雨天购买冰镇饮料。

在此文章中，我们介绍了 Transformer Cross Transformer （ T x T ）模型，该模型可以利用到实时用户点餐行为以及情景特征来推断用户的当前偏好。该模型的主要优点是，我们应用了多个 Transformer编码器来提取用户点单行为和复杂的情景特征，并通过点积的方法将 Transformer输出组合在一起以生成推荐。

此外，我们利用 Analytics Zoo提供的 RayOnSpark功能，使用 Ray, Apache Spark和 Apache MXNet 构建了一个完整的端到端的推荐系统。它将数据处理（使用 Spark ）和分布式训练（使用 MXNet 和 Ray ）集成到一个统一的数据分析和 AI 流水线中，并直接运行在存储数据的同一个大数据集群上。我们已经在 Burger King成功部署了这套推荐系统，并且已经在生产环境中取得了卓越的成果。

T x T 推荐模型

我们提出了 Transformer Cross Transformer （ T x T ）模型，该模型使用 Sequence Transformer 对客户订单行为进行编码，使用 Context Transformer 对情景特征（例如天气，时间和位置等）进行编码，然后使用点积的方式将它们组合（“ cross ”部分）以产生最终输出，如图 1 所示。我们利用 MXNet API 实现了我们的模型代码。

图 1: T x T 模型结构

Sequence Transformer 我们基于 Transformer架构创建了一个 Sequence Transformer ，用于学习客户购物车中包含每件产品加入顺序信息的 embedding 向量，如图 1 的左下部分所示。为了确保商品位置信息可以在其原始的购物行为中得到考虑，除了商品特征 embedding 之外，我们还对商品进行基于位置的 embedding 。两个 embedding 的输出加在一起，输入到一个 multi-head self-attention神经网络中。

为了从每个商品的隐藏向量中提取客户整个购物车信息的向量表示，我们将 mean-pooling 和 max-pooling 分别与最终 Sequence Transformer 的输出连接起来。通过这种方式， pooling 层的输出既考虑到了在购物车中包含的所有产品，同时又专注提取了少数关键产品的显著特征。

Sequence Transformer 可以使用 Analytics Zoo 中的 API 直接构建，如下：

from zoo.models.recommendation import SequenceTransformer
sequence_transformer = SequenceTransformer(                   
               num_items=num_items, 
               item_embed= 200 , 
               item_hidden_size= 200 , 
               item_max_length= 10 , 
               item_num_heads= 4 , 
               item_num_layers= 2 , 
               item_transformer_dropout= 0.1 ,                
               item_pooling_dropout= 0.1 ,
               cross_size= 100 )
item_outs = sequence_transformer(input_items, padding_mask)

Context Transformer 合并情景特征的一种常见方法是将它们与带时间序列的输入特征直接连接起来。但是简单地将非时间序列的特征与时间序列的特征连接起来的意义不大。以前的一些解决方案使用相加来处理多个情景特征，然而简单的相加只能综合多个情景特征对输出做出的贡献，但大多数情况下，这些情景特征对用户最终决策的贡献并不相等。

因此，我们使用 Context Transformer 对情景特征进行编码，如图 1 右下方所示。使用 Transformer 的 multi-head self-attention ，我们不仅可以捕获每一个情景特征的影响，还可以捕获不同情景特征之间的内部关系和复杂的交互作用。

Context Transformer 可以使用 Analytics Zoo 中的 API 直接构建，如下：

context_transformer = ContextTransformer(                
              context_dims=context_dims,
              context_embed= 100 ,  
              context_hidden_size= 200 , 
              context_num_heads= 2 ,                
              context_transformer_dropout= 0.1 , 
              context_pooling_dropout= 0.1 , 
              cross_size= 100 )
context_outs = context_transformer(input_context_features)

Transformer Cross Transformer 为了联合训练 Sequence Transformer 和 Context Transformer ，我们在这两个 transformer 输出之间做点积进行联合训练，同时优化商品的 embedding ，情景特征的 embedding 及其交互的所有参数。最后我们使用 LeakyRelu 作为激活函数，使用 softmax 层来预测每个候选商品的概率。

T x T 由 Sequence Transformer 和 Context Transformer 组成，可以使用 Analytics Zoo 中的 API 直接构建，如下：

from zoo.models.recommendation import TxT
net = TxT(num_items, context_dims, item_embed= 100, context_embed= 100 , 
          item_hidden_size= 256 , item_max_length= 8 , item_num_heads= 4 , 
          item_num_layers= 2 , item_transformer_dropout= 0.0 ,           
          item_pooling_dropout= 0.1 , context_hidden_size= 256 , 
          context_max_length= 4 , context_num_heads= 2 ,           
          context_num_layers= 1 , context_transformer_dropout= 0.0 ,           
          context_pooling_dropout= 0.0 , activation= "leakyRelu" ,          
          cross_size= 100 ) 

net .hybridize(static_alloc=True, static_shape=True) 
output = net(sequence, valid_length, context)

端到端的系统架构 通常情况下，构建一个完整的推荐系统会建立两个单独的集群，一个集群用于大数据处理，另一个集群用于深度学习（例如，使用 GPU 集群）。但这不仅会带来跨集群数据传输的巨大开销，而且还需要在生产环境中去管理独立的系统和工作流。为了应对这些挑战，我们在 Analytics Zoo的 RayOnSpark之上构建了我们的推荐系统，将 Spark 数据处理和使用 Ray的分布式 MXNet 训练集成到一个统一的流水线中，直接运行在数据存储的集群上。

图2展示了我们系统的总体架构。Spark的程序中，在Driver节点上会创建一个SparkContext对象去负责启动多个Spark Executor来运行Spark任务。 RayOnSpark 会在 Spark Driver上另外创建一个 RayContext 对象，去自动把 Ray 进程和Spark Executor 一起启动，并在每个 Spark Executor里创建一个 RayManager 来管理 Ray 进程（例如，在Ray程序退出时自动关闭进程）。

图 2: 基于 RayOnSpark 的推荐系统流水线架构

在我们的推荐系统中，我们首先启动 Spark 任务去读取存储在分布式文件系统上的餐厅交易数据，然后使用 Spark对这些数据进行数据清理， ETL 和预处理。 Spark 任务完成后，我们将处理后在内存中的 Spark RDD通过 Plasma直接输入给 Ray 进行分布式训练。

参考 RaySGD的设计，我们实现了 MXNet Estimator，它提供了一个轻量级的 wrapper ，可以在 Ray 上自动地部署分布式 MXNet 训练。 MXNet worker和parameter server都是用Ray actor实现和运行的，它们之间通过 MXNet 提供的分布式key-value store 来相互通信，每个 MXNet worker从Plasma 中拿取本地节点上的部分数据来训练模型。通过这种方式，用户就可以使用下面简单的 scikit-learn 风格的 API，通过 Ray 无缝地将 MXNet的模型训练代码从单个节点扩展到生产集群：

from zoo.orca.learn.mxnet import Estimator

mxnet_estimator = Estimator(train_config, model, loss, <br>metrics, num_workers, num_servers)

mxnet_estimator.fit(train_rdd, validation_rdd, epochs, batch_size)

这种统一的设计架构将基于 Spark的数据处理和基于 Ray 的分布式 MXNet 训练集成到一个端到端的、基于内存的流水线中，能够在存储大数据的同一集群上直接运行。因此，构建整个推荐系统的流水线我们只需要维护一个集群，避免了不同集群之间额外的数据传输，也不需要额外的集群维护成本。这样充分地利用了现有的集群资源，并且显著地提升了整个系统的端到端性能。

模型评估 我们使用了过去 12 个月中汉堡王客户的交易记录进行了离线的实验，其中前 11 个月的历史数据用于训练，最后一个月的数据用于验证。我们用这些数据对模型进行训练，让模型能够预测客户下一个最有可能购买的产品。从图表 1 中，我们可以看到我们的 T x T 优于其他用于推荐的基准模型（包括 Association Rule Learning和 GRU4Rec）。相比 GRU4Rec ，我们可以看到， T x T能利用各种情景特征大大提高了预测的准确性（Top1和Top3准确率分别提升了约 5.65 ％和 7.32 ％）。

	选用的模型	Top1准确率	Top3准确率
1	Association Rule Learning	20.14%	35.04%
2	GRU4Rec	30.65%	45.72%
3	Transformer Cross Transformer (T x T)	35.03%	53.04%

图表 1: 不同推荐模型的离线训练结果

为了评估我们的模型在实际生产环境中的有效性，我们在 Burger King 的手机客户端上同时对比了 T x T 模型和 Google Recommendation AI*提供的推荐模型。我们从推荐转化率和附加销售额的提升这两个方面评估了不同模型的在线效果，在生产环境做了 4 周的 A/B 测试。我们随机选择了 20 ％的用户作为对照组，为他们提供之前在生产环境使用的基于规则（ Rule Based ）的推荐系统。如图表 2 ，与对照组相比， T x T 将下单页面上的推荐转化率提高了 264 ％，附加销售额提高了 137 ％。与运行 Google Recommendation AI 的测试组相比， T x T 进一步提高了 100 ％的转换收益和 73 ％的附加销售收益。

推荐系统	转化率提升	附加销售额提升
Rule Based Recommendation (Control)	0%	0%
Google Recommendation AI	+164%	+64%
Transformer Cross Transformer (T x T)	+264%	+137%

图表 2: 不同推荐解决方案的在线结果

结论这篇文章描述了我们如何在 Burger King的生产环境中构建一个端到端的推荐系统。我们通过 Transformer Cross Transformer （ T x T ）模型成功地捕获了用户订单行为和复杂的情景特征为用户做合适的推荐，并且使用 RayOnSpark 实现了统一的数据处理（使用 Spark ）和深度学习模型训练（使用 Ray ）的流水线。 T x T模型和 RayOnSpark均已在 Analytics Zoo项目中开源。

其他名称和品牌可能是其他所有者的财产

作者简介：
Luyang Wang (lwang1@rbi.com), Kai Huang (kai.k.huang@intel.com), Jiao Wang (jiao.wang@intel.com), Shengsheng Huang (shengsheng.huang@intel.com), Jason Dai (jason.dai@intel.com)

创作场景

Burger King 使用 RayOnSpark 进行基于实时情景特征的快餐食品推荐