写点什么

eBay 开发新的推荐模型,从数据中挖掘商机

作者:Claudio Masolo

  • 2023-03-02
    北京
  • 本文字数:1109 字

    阅读完需:约 4 分钟

eBay开发新的推荐模型,从数据中挖掘商机

eBay 基于自然语言处理(NLP)技术,特别是BERT模型开发了一个新的推荐模型。这个被称为“Ranker”的新模型使用词袋之间的距离得分作为特征,从语义角度分析商品标题信息。与之前的模型相比,Ranker 帮助 eBay 将原生应用(Android 和 iOS)和 Web 平台上的购买、点击和广告指标分别提升了 3.76%、2.74%和 4.06%。

 

eBay Promoted Listing Similar Reccomendation Model(PLSIM)由三个阶段组成。其中获取 Promoted Listing Similar,也就是所谓的“召回集”,是最为相关的。应用使用离线历史数据训练过的 Ranker,根据购买的可能性对召回集进行排序,通过合并卖家广告率对列表进行重新排序。这个模型的特征包括:推荐商品历史数据、推荐商品与种子商品的相似性、产品类别、国家和用户个性化特征。使用梯度提升树对模型进行连续训练,根据相对购买概率对商品进行排序。在相似度检测中加入基于深度学习的特征显著提升了性能。

 

之前的推荐排名模型使用 Term Frequency-Inverse Document Frequency(TF-IDF)和Jaccard相似度来评估产品标题。这种基于节点标记的方法存在最基本的局限性,并且它不会考虑句子的上下文和同义词。相反,基于深度学习的 BERT 在语言理解方面表现出色。由于 eBay 语料库不同于书籍和维基百科,eBay 工程师引入了 eBERT,一种 BERT 变体,使用 eBay 商品标题数据进行了预训练。它使用维基百科的 2.5 亿个句子和 eBay 的 30 亿个多语言标题进行了训练。在离线评估中,这个 eBERT 模型在 eBay 的一组标记任务上的表现显著优于开箱即用的 BERT 模型,F1 得分为 88.9。

 

eBERT 架构对于高吞吐量推断来说太重了,可能无法及时推送推荐结果。为了解决这个问题,eBay 开发了另一个模型 microBERT,它是 BERT 的另一个轻量级版本,并针对 CPU 推理进行了优化。microBERT 将 eBERT 作为训练阶段的老师,使用了知识蒸馏过程。通过这种方式,microBERT 保留了相当于 eBERT 95%到 98%的推理质量,而时间减少了 300%。

 

最后,microBERT 使用了叫作InfoNCE的对比损失函数进行微调。商品标题被编码成词袋向量,模型的训练目标为增加已知彼此相关的这些向量(表示标题的词袋)之间主题距离的余弦相似度,同时降低迷你批次中所有其他商品标题对的余弦相似度。

 

这种新的排名模型在购买排名(售出商品的平均排名)方面有 3.5%的改进,但其复杂性导致难以进行实时的推荐。这就是为什么要通过日批处理作业生成标题词袋,并存储在 NuKV(eBay 的云原生键值存储)中,将商品标题作为键,词袋作为值。通过这种方法,eBay 能够满足其在延迟方面的要求。

 

原文链接

https://www.infoq.com/news/2023/01/ebay-recommendations-odel/


相关阅读:

构建生产可用的推荐系统需要注意哪些问题?

京东电商推荐系统的应用实践|InfoQ 公开课

推荐系统的未来发展

2023-03-02 08:002829

评论

发布
暂无评论
发现更多内容

表答-开启数据分析新范式

梦数技术团队

人工智能 AI 数据分析 爬虫 分析

北森酷学院发布新一代AI Learning平台,企业学习开启Agents时代

ToB行业头条

AI SaaS

HarmonyOS5云服务技术分享--云函数预加载文章整理

莓创技术

什么是SDK集成,与API有什么区别?白板SDK集成攻略分享!

职场工具箱

sdk 在线白板 办公软件 SDK 教程 AIGC

HarmonyOS5云服务技术分享--应用预加载提速指南

莓创技术

全球第一 AI 录音笔品牌,如何搭建运营与客服系统?

NocoBase

开源 AI 低代码 无代码 客服系统

电脑浓雾之上,一轮鸿蒙之火

脑极体

AI

HarmonyOS5云服务技术分享--云数据库使用指南

莓创技术

HarmonyOS5云服务技术分享--云缓存快速上手指南

莓创技术

释放生产力潜能 AI-Hub智能数据中枢引领企业数字化转型

郑州埃文科技

AI 极客低代码平台快速上手 --生成Python代码

华哥的全栈次元舱

Java Python vuetify 纯血鸿蒙 AIGC低代码平台

AI 极客低代码平台快速上手 -- 生成Vuetify代码

华哥的全栈次元舱

Java Python 低代码平台 vuetify 纯血鸿蒙

HarmonyOS5云服务技术分享--云存储SDK文章整理

莓创技术

HarmonyOS5云服务技术分享--Serverless抽奖模板部署

莓创技术

征程 6 J6E/M linear 双int16量化支持替代方案

地平线开发者

自动驾驶; 算法工具链 地平线征程6

从概念走向落地,深圳率先给出新质互联网城市建设路线图

Alter

采用XIRAID引擎和Kioxia PCIe5驱动器的虚拟环境中PostgreSQL的高性能存储解决方案

Sergey Platonov

性能测试 高性能计算, 数据库· 安装指南

Arthas vmoption(查看和修改 JVM里诊断相关的option)

刘大猫

JVM 监控 Arthas 监控工具 vmoption

数据要素如何重构人力资本升级

郑州埃文科技

AI 极客低代码平台快速上手 -- 生成Java代码

华哥的全栈次元舱

Java Python vuetify 纯血鸿蒙 AIGC低代码平台

【AI流程应用】智能知识库搭建与实战应用

JEECG低代码

AI应用 流程编排 JeecgBoot #AIGC AI 大模型

HarmonyOS 如何实现传输中的数据加密

网罗开发

鸿蒙 开发工具 HarmonyOS HarmonyOS NEXT 实践分享

2025 年 6 个最佳开源工单系统推荐

NocoBase

开源 低代码 无代码 工单系统 IT工单管理

通过群聊、文档、会议等内容即可生成答案,飞书发布AI功能知识问答

ToB行业头条

飞书

构建安全护盾:HarmonyOS 应用的数据安全审计与日志管理实战

网罗开发

鸿蒙 HarmonyOS HarmonyOS NEXT

HarmonyOS5云服务技术分享--Serverless搭建抽奖

莓创技术

安全可控的AI底座:灯塔大模型应用开发平台全面实现国产信创兼容适配认证

中烟创新

Spring AI 1.0 正式发布!核心内容和智能体详解

王磊

数据要素配置如何驱动城市经济韧性的多元模式

郑州埃文科技

数据要素

HarmonyOS5云服务技术分享--云存储指南

莓创技术

AI 极客低代码平台快速上手 -- 生成鸿蒙代码

华哥的全栈次元舱

低代码平台 vuetify 纯血鸿蒙 AI极客 AIGC低代码平台

eBay开发新的推荐模型,从数据中挖掘商机_AI&大模型_InfoQ精选文章