【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

浅析 eBay 联盟营销的上下文广告机制

  • 2018-03-20
  • 本文字数:3602 字

    阅读完需:约 12 分钟

eBay 利用各种营销渠道将新客户和现有客户汇集到该网站,其中之一就是 eBay 的联盟计划。eBay 还提供工具包来帮助发布商 / 分支机构增加佣金。有些工具可在 eBay 网站上购物时创建可跟踪的链接。至于更复杂的工具,如我们的 API,可以支持自定义访问 eBay 的产品列表数据。例如,用户可以创建横幅来添加实时的 eBay 清单到自己的网站。本文讨论了如何根据页面内容在发布商网站进行上下文广告。这种方法的亮点包括:

  • 根据页面内容,通过算法确定如何识别出页面的标题 / 相关关键词。
  • 忽略凌乱的 HTML 内容,只筛选相关和重要的关键词。
  • 在不丢失推荐关键词的相关性的情况下,随着网址数量的增加进行扩展。
  • 使用经测试并确认有效的 eBay 搜索算法,提供相关的 eBay 条目,在发布者页面上呈现。
  • 仅当页面返回积极情绪时才触发条目呈现算法。我们已根据内容和上下文,为每个 HTML 页面构建了情绪预测算法。

联盟营销模式

联盟营销是一个网上推荐项目,商家向发布商支付他们所提到的客户销售的佣金。

AI 前线:Affiliate Marketing,中文可以理解为联盟推广,也叫联盟营销,佣金计算方式是按成交付费,也即是 CPS。Affiliate Marketing 的优点是佣金往往比较客观。Affiliate Marketing 是一种由来已久的推广方式,由你向某个人推广某一个产品,当那个人通过你的推广购买了产品时,你就可以获得佣金。佣金的多少取决于你推广的产品。

有很多方法可以向访问我们合作伙伴网站的客户提供相关广告:

  1. 通过展示用户在过去与 eBay 互动的内容 (也称为重定向广告),我们将其定位为相同、相似或者互补的项目。(已产生兴趣,我们尝试通过购买来转话客户。)
  2. 通过提供来自发布商提供的关键词的 eBay 条目。(使用 eBay 搜索服务提供基于发布商提供的关键词的条目)
  3. 基于用户正在查看的内容,从而鼓动他们在 eBay 上进行订阅或购买决定。

AI 前线:所谓重定向广告是效果类广告中的一种精准投放方式。在消费者购物的过程中,常常会因为这样或那样的原因,最终没有完成转化。重定向广告将商品展示到此类未完成转化的消费者面前,将其带回到相关网页。由于展示的商品往往也是消费者最想要的,所以重定向广告的转化率比一般广告要更高。

在本文中,我们将讨论如何发布就广告内容相关的广告,并讨论一些我们用来实现业务目标的几个算法。

算法 1:基于主题建模和页面标题

处理流程:

  1. 搜寻发布商网站。
  2. 抓取发布商的内容。
  3. 确定内容是否反映正面或中立的情绪。
  4. 使用自然语言处理技术来确定感兴趣页面中相关的关键词。
  5. 基于关键词,调用 search API 获取该单词的 top 项目,并在发布商的网页上分享。

详细过程:

  1. 搜寻发布商网站:使用自制的网络爬虫,搜寻发布商的网站。网络爬虫会搜寻并返回发布商网址的 HTML 文件。(发布商明确地选择这种定位的方式,因此理解并允许我们抓取他们的网站。)
  2. 抓取发布者内容:抓取由<p>描述的内容标签的 HTML 文件。另外,抓取标签<div>下的内容,这样我们就可以获得更多关于页面的细节。该算法将处理页面上不需要的内容。
  3. 识别页面的情绪:

算法:为页面内容生成一大堆单词,对否定词进行惩罚,并对正面单词进行奖励,然后计算整个页面的得分。

  • 一旦页面被抓取,我们通过删除停止字、特殊字符、标点、空格等清理网站内容,以获得文献术语相关矩阵(Document Term Matrix,DTM)。DTM 包含页面上的单词列表及其相关的频率计数(通常也成为术语频率)。
  • 然后我们运行三个单独的通用情感词典,如 AFINN、Bing 和 nrc(由 Finn Arup Nielsen、bing Liu 及其合作者 Saif Mohammad、Peter Turney 编纂)。所有这三个词典都是基于一元模型(unigrams),即单个单词。这些词典包含了许多英语单词,这些单词被赋予积极 / 消极情绪的分数,也可能是诸如喜欢、愤怒、悲伤等情绪。nrc 词典将单词以而二进制形式分类(是 / 否)分为积极、消极、愤怒、期待、延误、恐惧、喜悦、悲伤、惊讶和信任。Bing 词典以“二元”方式将单词分为“褒义”“贬义”两类。而 AFINN 词典则给单词打分,分数在 -5 到 5 之间,负分表示消极情绪,正分表示积极情绪。
  • 该页面必须有三个词典中的两个才能返回正分数,以便将 URL 视为正数。

这种简单易行的检测情绪的方法是强大而准确的,我们构建了一个人工判断工具来整理算法的效率。实现了误分类率为 16%,这意味着 84% 的时间,算法预测了页面的实际情绪。

4. 确定相关的关键词

  • 基于内容:我们采用 Gibbs 抽样(Gibbs Sampling)来运行 LDA 主题建模算法,获得两个主题,每个主题有三个关键词,以概率最高的术语被作为页面的关键词。少于一次的单词则从集合中予以删除。
  • 基于页面的标题:我们拉取页面的标题,进行解析并过滤出名词(单复数)、专用名词(单复数)、外来词和基数词,并根据标题,基于它们在网页上出现的频率从中抽取前三个关键词。

然后将上述两种方法生成的关键词结合起来,根据页面出现的频率,从结合中取出前三个唯一关键词。

AI 前线:Gibbs 抽样是 Metropolis Hastings 算法的一个特例。MH 算法利用了马尔可夫链的细致平衡,从而获得了联合分布的采样。有了联合分布的采样我们就可以得到边缘分布,而这在贝叶斯推断中求后验分布有重要作用。

主题建模概念

  • 主题建模是一种无监督的方法,可自动识别出出现在文本中的主题,并派生出文本语料库所展现的隐藏模式。粗略地说,一个主题是在词汇表中一组术语的概率分布,可以看做是“在语料库中共同出现的术语的重复模式”。
  • 主题模型与基于规则的方法不同,它们使用正则表达式或者基于词典的关键词搜索技术。
  • 我们使用隐狄利克雷分布(Latent Dirichlet Allocation,LDA)进行主题建模。它是一种矩阵分解技术,是潜在语义索引(Latent Semantic Indexing,LSI)的概率版本,试图提取数据中的潜在因素,即“主题”。

AI 前线:隐狄利克雷分布,简称 LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量 k 即可。此外 LDA 的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA 首先由 Blei, David M.、吴恩达和 Jordan, Michael I 于 2003 年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。
通俗来说,可以理解为:让计算机给人们推测分析网络上各篇文章分别都写了些啥主题,且各篇文章中各个主题出现的概率大小(主题分布)是啥。简而言之,就是根据给定的一篇文档,推测其主题分布。

算法 2:基于页面的标题

该算法基于页面标题和副标题的词频。

  • 一旦网站被搜寻(我们使用 HTML 标签<div><p>中的内容),通过移除停用词、特殊字符、标点符号、空格等来清除站点内容,获取包含单词列表及其相关频率的文档。
  • 然后,我们只抓取页面的标题和副标题 (<h1h6>),只过滤名词 (单数和复数)、专有名词 (单数和复数)、外来词,以及标题和副标题上的基数词。
  • 然后,我们在实际页面内容上获取最常见的三个标题 / 副标题,并将这三个关键词传递给搜索服务。

5. 调用 eBay search API 来获取关键词——一旦为各网页提供了关键词,就会将其传递到我们的搜索服务 API 中,以获得条目推荐。

示例

URL: http://mashable.com/2017/10/25/stranger-things-eleven-poster-netflix-art/#Mcar2m5NDiqh

算法 1 展示了《怪奇物语》(Stranger Things)的纪念品,而算法 2 则展示了《怪奇物语》的魔王海报。这是因为算法 1 缺少“海报”关键词,这正是本文要讨论的内容。

我们从用户的判断工具中选择了算法 2 和算法 1,并进行比较,算法 2 的表现优于算法 1。

结果:这个简单而有效的算法在收集大量网址的反馈过程中,经过多轮人工判断,我们发现:

  • 触发关键词生成算法的情绪算法能够预测页面的正确情绪,高达 84%。
  • 与算法 1 相比,针对关键词的算法 2,及之后的 eBay 条目生成得到了更高的反馈分数(在人工判断工具中以 5 分为满分,则大于 3.5 分)。
  • 每个网址都有一个新的 eBay 类别预测算法,如果没有关键词生成算法的结果,则会使用这个算法。
  • 此外,营销数据科学团队正致力于基于页面上显示的图像生成类似的 eBay 条目列表。另外,该团队正在为发布商页面上出现的图像构建一个合理的撤回 eBay 条目清单机制。(即如果发布商页面上有高山的图片,那么在为图像呈现 eBay 相关条目时,算法不应将这些图片作为种子图像。)
  • 一旦产生这些不同的定位方式,营销数据科学团队计划建立一个机器学习模型,确定用户层面上如何响应不同的定位方式(基于上下文相关的关键词、基于由发布商提供的关键词的图像、基于重定向)并根据访问相同页面的不同客户来进行调整。

总之,如果发布商可以在其页面上提供与上下文相关的 eBay 条目,则无需执行任何操作,只需注册该程序即可,我们最终会为发布商、买家、卖家和 eBay 提供一个有利的生态系统。

原文链接:
Contextual Advertising for eBay Affiliate Marketing

感谢蔡芳芳对本文的审校。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-03-20 18:181373
用户头像

发布了 370 篇内容, 共 171.6 次阅读, 收获喜欢 940 次。

关注

评论

发布
暂无评论
发现更多内容

Git操作不规范,战友提刀来相见!

树上有只程序猿

新兴技术与禅坐 | 聊聊经验 | 社区征文

写程序的小王叔叔

经验分享 年中技术盘点

中国大模型的落地DNA,写在这个双螺旋结构里

脑极体

AI

Pytorch: 数据读取机制Dataloader与Dataset

timerring

人工智能

万字血书React—走近React

不在线第一只蜗牛

React 教程分享

INFINI Labs 产品更新 | Easysearch 新增 kNN 搜索功能、Console 支持 LDAP 认证登录等

极限实验室

console Gateway 产品更新 easysearch 极限科技

Rainbond开源

EquatorCoco

开源 rainbond

手把手教学构建证券知识图谱/知识库(含码源):网页获取信息、设计图谱、Cypher查询、Neo4j关系可视化展示

汀丶人工智能

人工智能 自然语言处理 nlp 知识图谱

PoseiSwap 更新第二期空投,持有 Zepoch 节点数量将决定空投回报

鳄鱼视界

区块链生态架构 | 社区征文

TiAmo

区块链 Baas 年中技术盘点

智能电视APP鲜时光,如何应用AB测试打造极致的用户观看体验?

字节跳动数据平台

几天不写React,已经看不懂语法了

伤感汤姆布利柏

手把手教学构建农业知识图谱:农业领域的信息检索+智能问答,命名实体识别,关系抽取,实体关系查询

汀丶人工智能

人工智能 深度学习 nlp 知识图谱 智能问答

业务创新的利器:探索Flutter与小程序容器的融合应用

FinClip

PoseiSwap 更新第二期空投,持有 Zepoch 节点数量将决定空投回报

西柚子

深入解析Redis的LRU与LFU算法实现

vivo互联网技术

redis LRU LFU

源码解读之FutureTask如何实现最大等待时间

EquatorCoco

源码 前端 前端工具

科兴未来|第二届T-MAX“科创太仓”国际创新创业--先进材料专场赛

科兴未来News

PoseiSwap 更新第二期空投,持有 Zepoch 节点数量将决定空投回报

EOSdreamer111

Kurator v0.4.0版本更新4大内容,满足多云环境的复杂需求

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

基于知识图谱的《红楼梦》人物关系可视化及问答系统(含码源):命名实体识别、关系识别、LTP简单教学

汀丶人工智能

人工智能 深度学习 nlp 知识图谱 智能问答

深度剖析之由浅入深揭秘JavaScript类型转换(最全总结篇)

控心つcrazy

JavaScript 类型转换 隐式转换 类型 强制类型转换

知识图谱之《海贼王-ONEPICE》领域图谱项目实战(含码源):数据采集、知识存储、知识抽取、知识计算、知识应用、图谱可视化、问答系统(KBQA)等

汀丶人工智能

自然语言处理 知识图谱 信息抽取

PoseiSwap 更新第二期空投,持有 Zepoch 节点数量将决定空投回报

威廉META

王海峰最新发声!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

飞桨和硬件伙伴们在WAIC 2023!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

用友iuap亮相全球数字经济大会助力企业升级数智化底座

用友BIP

数智底座

如何优化Flutter的性能?

没有用户名丶

谈谈我这两年的前端开发经验

树上有只程序猿

户外led显示屏常见规格有哪些

Dylan

广告 屏幕亮度 像素 LED显示屏 户外LED显示屏

企业内容管理升级 3.0:构建生态协同,助力合规成长

风来兮

软件 电子档案 OCR 合规 #人工智能

浅析eBay联盟营销的上下文广告机制_语言 & 开发_eBay_InfoQ精选文章