AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

浅析 eBay 联盟营销的上下文广告机制

  • 2018-03-20
  • 本文字数:3602 字

    阅读完需:约 12 分钟

eBay 利用各种营销渠道将新客户和现有客户汇集到该网站,其中之一就是 eBay 的联盟计划。eBay 还提供工具包来帮助发布商 / 分支机构增加佣金。有些工具可在 eBay 网站上购物时创建可跟踪的链接。至于更复杂的工具,如我们的 API,可以支持自定义访问 eBay 的产品列表数据。例如,用户可以创建横幅来添加实时的 eBay 清单到自己的网站。本文讨论了如何根据页面内容在发布商网站进行上下文广告。这种方法的亮点包括:

  • 根据页面内容,通过算法确定如何识别出页面的标题 / 相关关键词。
  • 忽略凌乱的 HTML 内容,只筛选相关和重要的关键词。
  • 在不丢失推荐关键词的相关性的情况下,随着网址数量的增加进行扩展。
  • 使用经测试并确认有效的 eBay 搜索算法,提供相关的 eBay 条目,在发布者页面上呈现。
  • 仅当页面返回积极情绪时才触发条目呈现算法。我们已根据内容和上下文,为每个 HTML 页面构建了情绪预测算法。

联盟营销模式

联盟营销是一个网上推荐项目,商家向发布商支付他们所提到的客户销售的佣金。

AI 前线:Affiliate Marketing,中文可以理解为联盟推广,也叫联盟营销,佣金计算方式是按成交付费,也即是 CPS。Affiliate Marketing 的优点是佣金往往比较客观。Affiliate Marketing 是一种由来已久的推广方式,由你向某个人推广某一个产品,当那个人通过你的推广购买了产品时,你就可以获得佣金。佣金的多少取决于你推广的产品。

有很多方法可以向访问我们合作伙伴网站的客户提供相关广告:

  1. 通过展示用户在过去与 eBay 互动的内容 (也称为重定向广告),我们将其定位为相同、相似或者互补的项目。(已产生兴趣,我们尝试通过购买来转话客户。)
  2. 通过提供来自发布商提供的关键词的 eBay 条目。(使用 eBay 搜索服务提供基于发布商提供的关键词的条目)
  3. 基于用户正在查看的内容,从而鼓动他们在 eBay 上进行订阅或购买决定。

AI 前线:所谓重定向广告是效果类广告中的一种精准投放方式。在消费者购物的过程中,常常会因为这样或那样的原因,最终没有完成转化。重定向广告将商品展示到此类未完成转化的消费者面前,将其带回到相关网页。由于展示的商品往往也是消费者最想要的,所以重定向广告的转化率比一般广告要更高。

在本文中,我们将讨论如何发布就广告内容相关的广告,并讨论一些我们用来实现业务目标的几个算法。

算法 1:基于主题建模和页面标题

处理流程:

  1. 搜寻发布商网站。
  2. 抓取发布商的内容。
  3. 确定内容是否反映正面或中立的情绪。
  4. 使用自然语言处理技术来确定感兴趣页面中相关的关键词。
  5. 基于关键词,调用 search API 获取该单词的 top 项目,并在发布商的网页上分享。

详细过程:

  1. 搜寻发布商网站:使用自制的网络爬虫,搜寻发布商的网站。网络爬虫会搜寻并返回发布商网址的 HTML 文件。(发布商明确地选择这种定位的方式,因此理解并允许我们抓取他们的网站。)
  2. 抓取发布者内容:抓取由<p>描述的内容标签的 HTML 文件。另外,抓取标签<div>下的内容,这样我们就可以获得更多关于页面的细节。该算法将处理页面上不需要的内容。
  3. 识别页面的情绪:

算法:为页面内容生成一大堆单词,对否定词进行惩罚,并对正面单词进行奖励,然后计算整个页面的得分。

  • 一旦页面被抓取,我们通过删除停止字、特殊字符、标点、空格等清理网站内容,以获得文献术语相关矩阵(Document Term Matrix,DTM)。DTM 包含页面上的单词列表及其相关的频率计数(通常也成为术语频率)。
  • 然后我们运行三个单独的通用情感词典,如 AFINN、Bing 和 nrc(由 Finn Arup Nielsen、bing Liu 及其合作者 Saif Mohammad、Peter Turney 编纂)。所有这三个词典都是基于一元模型(unigrams),即单个单词。这些词典包含了许多英语单词,这些单词被赋予积极 / 消极情绪的分数,也可能是诸如喜欢、愤怒、悲伤等情绪。nrc 词典将单词以而二进制形式分类(是 / 否)分为积极、消极、愤怒、期待、延误、恐惧、喜悦、悲伤、惊讶和信任。Bing 词典以“二元”方式将单词分为“褒义”“贬义”两类。而 AFINN 词典则给单词打分,分数在 -5 到 5 之间,负分表示消极情绪,正分表示积极情绪。
  • 该页面必须有三个词典中的两个才能返回正分数,以便将 URL 视为正数。

这种简单易行的检测情绪的方法是强大而准确的,我们构建了一个人工判断工具来整理算法的效率。实现了误分类率为 16%,这意味着 84% 的时间,算法预测了页面的实际情绪。

4. 确定相关的关键词

  • 基于内容:我们采用 Gibbs 抽样(Gibbs Sampling)来运行 LDA 主题建模算法,获得两个主题,每个主题有三个关键词,以概率最高的术语被作为页面的关键词。少于一次的单词则从集合中予以删除。
  • 基于页面的标题:我们拉取页面的标题,进行解析并过滤出名词(单复数)、专用名词(单复数)、外来词和基数词,并根据标题,基于它们在网页上出现的频率从中抽取前三个关键词。

然后将上述两种方法生成的关键词结合起来,根据页面出现的频率,从结合中取出前三个唯一关键词。

AI 前线:Gibbs 抽样是 Metropolis Hastings 算法的一个特例。MH 算法利用了马尔可夫链的细致平衡,从而获得了联合分布的采样。有了联合分布的采样我们就可以得到边缘分布,而这在贝叶斯推断中求后验分布有重要作用。

主题建模概念

  • 主题建模是一种无监督的方法,可自动识别出出现在文本中的主题,并派生出文本语料库所展现的隐藏模式。粗略地说,一个主题是在词汇表中一组术语的概率分布,可以看做是“在语料库中共同出现的术语的重复模式”。
  • 主题模型与基于规则的方法不同,它们使用正则表达式或者基于词典的关键词搜索技术。
  • 我们使用隐狄利克雷分布(Latent Dirichlet Allocation,LDA)进行主题建模。它是一种矩阵分解技术,是潜在语义索引(Latent Semantic Indexing,LSI)的概率版本,试图提取数据中的潜在因素,即“主题”。

AI 前线:隐狄利克雷分布,简称 LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量 k 即可。此外 LDA 的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA 首先由 Blei, David M.、吴恩达和 Jordan, Michael I 于 2003 年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。
通俗来说,可以理解为:让计算机给人们推测分析网络上各篇文章分别都写了些啥主题,且各篇文章中各个主题出现的概率大小(主题分布)是啥。简而言之,就是根据给定的一篇文档,推测其主题分布。

算法 2:基于页面的标题

该算法基于页面标题和副标题的词频。

  • 一旦网站被搜寻(我们使用 HTML 标签<div><p>中的内容),通过移除停用词、特殊字符、标点符号、空格等来清除站点内容,获取包含单词列表及其相关频率的文档。
  • 然后,我们只抓取页面的标题和副标题 (<h1h6>),只过滤名词 (单数和复数)、专有名词 (单数和复数)、外来词,以及标题和副标题上的基数词。
  • 然后,我们在实际页面内容上获取最常见的三个标题 / 副标题,并将这三个关键词传递给搜索服务。

5. 调用 eBay search API 来获取关键词——一旦为各网页提供了关键词,就会将其传递到我们的搜索服务 API 中,以获得条目推荐。

示例

URL: http://mashable.com/2017/10/25/stranger-things-eleven-poster-netflix-art/#Mcar2m5NDiqh

算法 1 展示了《怪奇物语》(Stranger Things)的纪念品,而算法 2 则展示了《怪奇物语》的魔王海报。这是因为算法 1 缺少“海报”关键词,这正是本文要讨论的内容。

我们从用户的判断工具中选择了算法 2 和算法 1,并进行比较,算法 2 的表现优于算法 1。

结果:这个简单而有效的算法在收集大量网址的反馈过程中,经过多轮人工判断,我们发现:

  • 触发关键词生成算法的情绪算法能够预测页面的正确情绪,高达 84%。
  • 与算法 1 相比,针对关键词的算法 2,及之后的 eBay 条目生成得到了更高的反馈分数(在人工判断工具中以 5 分为满分,则大于 3.5 分)。
  • 每个网址都有一个新的 eBay 类别预测算法,如果没有关键词生成算法的结果,则会使用这个算法。
  • 此外,营销数据科学团队正致力于基于页面上显示的图像生成类似的 eBay 条目列表。另外,该团队正在为发布商页面上出现的图像构建一个合理的撤回 eBay 条目清单机制。(即如果发布商页面上有高山的图片,那么在为图像呈现 eBay 相关条目时,算法不应将这些图片作为种子图像。)
  • 一旦产生这些不同的定位方式,营销数据科学团队计划建立一个机器学习模型,确定用户层面上如何响应不同的定位方式(基于上下文相关的关键词、基于由发布商提供的关键词的图像、基于重定向)并根据访问相同页面的不同客户来进行调整。

总之,如果发布商可以在其页面上提供与上下文相关的 eBay 条目,则无需执行任何操作,只需注册该程序即可,我们最终会为发布商、买家、卖家和 eBay 提供一个有利的生态系统。

原文链接:
Contextual Advertising for eBay Affiliate Marketing

感谢蔡芳芳对本文的审校。

2018-03-20 18:182003
用户头像

发布了 376 篇内容, 共 201.0 次阅读, 收获喜欢 949 次。

关注

评论

发布
暂无评论
发现更多内容

利用1688商品详情API:快速获取商品信息的技巧与策略

技术冰糖葫芦

API 接口

自动化测试的痛点与发展趋势

老张

DevOps 自动化测试

App原生开发:iOS和Android平台的比较(看这一篇就够了)

天津汇柏科技有限公司

软件开发 APP开发 小程序开发 软件开发定制

测试人生 | 工作两年涨薪40%,揭秘我的学习之路!

测吧(北京)科技有限公司

测试

新学期提效神器汇总!男大女大们准备好了吗?

飞桨PaddlePaddle

百度 BAIDU 百度飞桨 AI应用 飞桨星河社区

工作两年涨薪40%,揭秘我的学习之路!

霍格沃兹测试开发学社

mClock调度算法与QoS

算法 存储 Ceph QoS 调度

[自研开源] 用Docker部署 MyData v0.7.1

LIEN

开源 数据集成 业务融合 API对接 mydata

如何简化 Kubernetes 出入向流量管理

NGINX开源社区

Kubernetes Ingress Controller NGINX PLUS NGINX Service Mesh mTLS

Android Input底层机制

江湖修行

android 大前端 移动端 系统源码

下一代积木式智能组装编排,集成开发效率10倍提升

华为云开发者联盟

开发 华为云 华为云开发者联盟 DTSE Tech Talk

5月17-19日 上海线下 · CSP直通车训练营 · CST导师亲授【名额有限,先到先得】

ShineScrum

ScrumMaster 敏捷教练认证 上海线下、 Scrum专业认证

前端和大数据怎么选择?

算法的秘密

当数据遇上代码:程序员的假设检验

数据分析 数学 SLO 概率论

分享一个能让你的研发效率提升超过20%的工具

华为云开发者联盟

开发 华为云 华为云开发者联盟 华为云CodeArts

新闻网站封锁AI爬虫 AI与新闻媒体博弈继续

郑州埃文科技

AI 爬虫

INSERT...SELECT语句对查询的表加锁吗

GreatSQL

greatsql

MySQL数据库中SQL语句分几类?

小魏写代码

浪潮信息边缘服务器支持英特尔第五代至强处理器

财见

浅析eBay联盟营销的上下文广告机制_语言 & 开发_eBay_InfoQ精选文章