【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

eBay 开发新的推荐模型,从数据中挖掘商机

作者:Claudio Masolo

  • 2023-03-02
    北京
  • 本文字数:1109 字

    阅读完需:约 4 分钟

eBay开发新的推荐模型,从数据中挖掘商机

eBay 基于自然语言处理(NLP)技术,特别是BERT模型开发了一个新的推荐模型。这个被称为“Ranker”的新模型使用词袋之间的距离得分作为特征,从语义角度分析商品标题信息。与之前的模型相比,Ranker 帮助 eBay 将原生应用(Android 和 iOS)和 Web 平台上的购买、点击和广告指标分别提升了 3.76%、2.74%和 4.06%。

 

eBay Promoted Listing Similar Reccomendation Model(PLSIM)由三个阶段组成。其中获取 Promoted Listing Similar,也就是所谓的“召回集”,是最为相关的。应用使用离线历史数据训练过的 Ranker,根据购买的可能性对召回集进行排序,通过合并卖家广告率对列表进行重新排序。这个模型的特征包括:推荐商品历史数据、推荐商品与种子商品的相似性、产品类别、国家和用户个性化特征。使用梯度提升树对模型进行连续训练,根据相对购买概率对商品进行排序。在相似度检测中加入基于深度学习的特征显著提升了性能。

 

之前的推荐排名模型使用 Term Frequency-Inverse Document Frequency(TF-IDF)和Jaccard相似度来评估产品标题。这种基于节点标记的方法存在最基本的局限性,并且它不会考虑句子的上下文和同义词。相反,基于深度学习的 BERT 在语言理解方面表现出色。由于 eBay 语料库不同于书籍和维基百科,eBay 工程师引入了 eBERT,一种 BERT 变体,使用 eBay 商品标题数据进行了预训练。它使用维基百科的 2.5 亿个句子和 eBay 的 30 亿个多语言标题进行了训练。在离线评估中,这个 eBERT 模型在 eBay 的一组标记任务上的表现显著优于开箱即用的 BERT 模型,F1 得分为 88.9。

 

eBERT 架构对于高吞吐量推断来说太重了,可能无法及时推送推荐结果。为了解决这个问题,eBay 开发了另一个模型 microBERT,它是 BERT 的另一个轻量级版本,并针对 CPU 推理进行了优化。microBERT 将 eBERT 作为训练阶段的老师,使用了知识蒸馏过程。通过这种方式,microBERT 保留了相当于 eBERT 95%到 98%的推理质量,而时间减少了 300%。

 

最后,microBERT 使用了叫作InfoNCE的对比损失函数进行微调。商品标题被编码成词袋向量,模型的训练目标为增加已知彼此相关的这些向量(表示标题的词袋)之间主题距离的余弦相似度,同时降低迷你批次中所有其他商品标题对的余弦相似度。

 

这种新的排名模型在购买排名(售出商品的平均排名)方面有 3.5%的改进,但其复杂性导致难以进行实时的推荐。这就是为什么要通过日批处理作业生成标题词袋,并存储在 NuKV(eBay 的云原生键值存储)中,将商品标题作为键,词袋作为值。通过这种方法,eBay 能够满足其在延迟方面的要求。

 

原文链接

https://www.infoq.com/news/2023/01/ebay-recommendations-odel/


相关阅读:

构建生产可用的推荐系统需要注意哪些问题?

京东电商推荐系统的应用实践|InfoQ 公开课

推荐系统的未来发展

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-03-02 08:002334

评论

发布
暂无评论
发现更多内容

NFTScan 正式推出「NFTScan as a Service」NaaS 服务

NFT Research

NFT 数据基础设施

阿里云存储负责人吴结生:重新定义下一代云存储

云布道师

云存储 云栖大会

【Git实战】协同开发,如何紧急修复线上bug?

王中阳Go

git 高效工作 学习方法 git 学习 11月月更

ITSM | 企业如何管理变更、响应事件以及创立知识库——专访龙智技术专家与顾问

龙智—DevSecOps解决方案

BI工具中哪一种使用体验更好?

夏日星河

现在啥软件都有开源,BI 呢?

陈橘又青

数据库

JAVA面试基础经典百问,拿下大厂offer

钟奕礼

Java java程序员 java面试 java编程

云原生安全系列2:提升镜像安全的10条建议

HummerCloud

云原生 镜像安全 云原生安全

智慧屏也常用常新,华为智慧屏V98等6款设备可升级HarmonyOS 3正式版

Geek_2d6073

再见 Fred Brooks

Journeyman

IT 新闻

100+款AI产品薅羊毛攻略(中)——1年节省大几百万

夏夜许游

AI 视觉智能 阿里云视觉智能开放平台 薅羊毛

本地开发完成的 Fiori Elements 应用,部署到远端 ABAP 服务器上的详细步骤

Jerry Wang

web开发 abap Fiori SAP UI5 11月月更

React 中的重新渲染

阿里巴巴终端技术

前端 React

想搞懂持续交付理论和实践,你只差这三个问题

华为云开发者联盟

云计算 云原生 华为云 代码托管

toB应用私有化交付发展历程、技术对比和选型

北京好雨科技有限公司

分布式流处理组件-理论篇:Kafka与安装配置

谢先生F

架构 kafka 3.X 11月月更

CleanMyMac2023体验版苹果电脑管家

茶色酒

CleanMyMac CleanMyMac2023

静态WEB容器镜像最小化实践

mengzyou

DevOps Web Docker 镜像

云图说|移动应用安全服务—App的体检中心,全面检测,安全上路!

华为云开发者联盟

华为云 移动应用安全 VSS

Serverless Devs 重大更新,基于 Serverless 架构的 CI/CD 框架:Serverless-cd

Serverless Devs

云计算 Serverless Serverless Devs

Fruity Loops Studio2023最新版水果编曲软件下载

茶色酒

Fruity Loops Studio

代码质量与安全 | “吃狗粮”能够影响到代码质量?来了解一下!

龙智—DevSecOps解决方案

代码质量 代码安全 静态代码安全

用户文章 | 原来Steam和Perforce有这种关系?!

龙智—DevSecOps解决方案

版本控制 版本管理工具 版本管理

深度学习框架新手快速上手指南

MegEngineBot

深度学习 开源 教程 MegEngine 新手入门

Nacos 中的配置文件如何实现加密传输

小小怪下士

Java 程序员 微服务 SpringCloud

国内Quick BI为何可以入选魔力象限?

小偏执o

java的这些多线程面试专题,你都知道吗?

钟奕礼

Java 程序员 java面试 java编程

5年Java开发4面阿里挂在JVM,临走时面试官给了我一份JVM手册

钟奕礼

Java java程序员 java面试 java编程

即时通讯技术文集(第6期):移动端弱网优化文章汇总 [共13篇]

JackJiang

网络编程 即时通讯IM

云时代下,医药行业管理居然这么简单

华为云开发者联盟

数据库 华为云 SaaS医药管理系统

火山引擎DataTester背后,抖音的名字原来是AB测试来的

字节跳动数据平台

大数据 AB testing实战

eBay开发新的推荐模型,从数据中挖掘商机_AI&大模型_InfoQ精选文章