写点什么

Airbnb 支付平台如何进行异常检测

  • 2016-03-24
  • 本文字数:2135 字

    阅读完需:约 7 分钟

对于全球的房主和客人来说,Airbnb 非常希望房客都可以通过他们自己熟悉的支付方式、本地币种来支付房费;房主也可以通过喜欢的货币、方便的途径收取房租。为了实现此目的, Airbnb 支付团队构建了一个一流的支付平台来保证支付安全和易用性。

Airbnb 为全球 190 个国家提供服务,支持多种货币类型。大部分情况下,支付系统会成功支付,但有时会出现暂歇性故障,比如,某些货币不能处理或者支付渠道不可访问。为了能够尽可能快的捕捉到这些故障信息,公司的数据团队开发了一个实时的异常检测系统来甄别这些问题。这个异常检测系统可以很好的帮助产品团队定位问题,也让数据分析师能腾出更多的时间来做其它工作,比如,新的付费方式或者产品上线的 A/B 测试、定价或者价格预测和构建机器学习模型来做个性化推荐。
为了让大家看到这个异常检测工具的使用,这里通过一些模拟数据集来展示模型是如何工作的。假设一个运行在 2020 年夏天的电商网站,提供三件商品:监视器、键盘和鼠标,并且两个供应商:Lima 和 Hackberry。

动机

异常探测系统的主要功能是从时序数据中发现异常数据。简单的情况可以通过整体的直观图表一眼看出来,但大部分情况需要“解密”在这些图表趋势背后的数据。
拿下面这个监控器进货的数据举列,如图 1

图 1

从图 1 中看到监控器的总体进货量相当的正常。然后分别分析下两个供货商 Lima 和 Hackberry 的数据,见图 2

图 2

从图 2 可以看出,Lima 是电商主要监控器的供应商,但是在 2020 年 8 月 18 号运输出现问题持续大概 3 天。Airbnb 异常检测系统自动检测出此问题并反馈给二级供应商 Hackberry。这里可以看出从整体层面数据根本发现不了此问题,但是从另外一个维度却能清晰的检测出问题。

模型

简单的回归模型
最直观的想法是把天数作为哑变量跑一遍普通的最小二乘回归。模型的公式如下:

其中 y 是跟踪的总量,t 是时间变量,I_day_i 是指示变量,代表今天是这周的第 i 天,e 是误差项。这个回归模型简单并能鉴别前面遇到的问题 ,但是也有其缺点:

  • 增长预测是线性的,一遇到指数式就失效了;
  • 模型有个极强的假设前提:适用于按周的季节性时序数据,不能处理其它模式的季节数据集;
  • 哑变量较多,模型需要更大的样本量才能得到好的结果。

即使能够观察到追踪指标的模式,但不易于扩展变化。Airbnb 工程师采用自动的方法避免误差,并让这种技术运用到支付以外的场景。

快速傅里叶变换模型(FFT)
对时序数据集构建一个基于趋势和季节的模型。模型数学公式如下:

其中,Y 是度量标准,S 是季节变量,T 代表趋势,e 是误差项。例如,以前面的简单回归模型对比,这里的 S 代表所有指示变量的和,T 等同于 at + b。

在这部分,展示新模型如何检测趋势和季节性。基于上面的经验,这次采取两款产品:键盘和鼠标。下图 3 展示两种产品的销售数据:

图 3

从上图 3 可以看出,键盘是在 2016 年 9 月开始售卖,并成为主打商品。2017 年 8 开始引进鼠标。后面将对趋势和季节进行建模,试图发现偏离平均值的异常数据。

季节效应
为了解决季节性效应,这里采用快速傅立叶变换 FFT。在简单的线性回归模型中,前提假设是时序数据是按周季节性变化的。从上面的趋势图可以看出鼠标的销售并不是按周季节性变化的,如果胡乱的假设会造成模型误判。而快速傅立叶变化 FFT 擅长基于历史时序数据总量来进行季节性检测。对时序数据集应用 FFT 之后,得到下面的图 4

图 4

图 4 中 season_day 周期性余弦值。在快速傅立叶变换中,一般只选择峰值的周期代表季节性,其它周期当作噪音(具体为什么这么选择可以看 FFT 原理资料)。在这个列子里,键盘的 FFT 结果有 7 和 3.5 两个采样点是大峰值,在 45 和 60 两个采样点有小峰值。而对于鼠标来讲,在采样点 7 时有个大峰值,35、60 和 80 有相对小的峰值。把两种商品的 FFT 结果合并生成季节性图,如图 5

图 5

从图 5 上可看出,键盘的产品季节性增长,主要是按周季节性的。而鼠标有按周的季节性趋势和 40 天一个周期的季节性。

趋势分析
这里采用滚动中值(rolling median)来作为时序数据集的趋势。使用这种算法的前提假设是苏阿短时间内的增长变化不显著。比如,对某天来讲,采用其之前的 7 天的滚动中值作为当天的趋势水平。用中值代替平均值使得算法检测异常数据的结果更加稳定,举个列子,对于某一两天来说销量突然增长 10% ,如果使用中值则看不出来有什么变化,而采取平均值的话就对趋势有很明显的变化。在这种情况下,采用 14 天的中值作为趋势,如图 6

图 6

误差项
在得到季节效应和趋势后,可以评估误差项了。通过误差项可以发现时序数据集里的异常点,这里用原始数据减去季节效应和趋势得到误差项,然后绘图如下:

图 7

从图 x 发现,误差项里有一些毛刺,这就说明了时序数据集中出现异常点。根据实际情况定出所能容忍的负相关度,即选择偏离中心点 0 多少个标准方差(参考《概率论与数理统计教程》)。这里选择偏离 4 个标准方差来获得一个合理的阈值警报,结果如图 8

图 8

从上图可以看出,Airbnb 的预警系统非常棒,检测出误差项的大部分毛刺。注意到,其实有些点在人肉眼看来是正常的,但实际是异常数据也被检测出来了。

经过 Airbnb 内部测试发现这个模型异常数据检测的功能准确。

查看英文原文: Anomaly Detection for Airbnb’s Payment Platform


感谢黄玲艳对本文的审校。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2016-03-24 19:009298
用户头像

发布了 43 篇内容, 共 27.6 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

曾国藩的人生“六戒”

霍太稳@极客邦科技

身心健康 个人成长 心理学

二叉树的先序中序后序递归实现

Kenn

算法 递归

迷茫时,想想能为这个世界做些什么就好了

霍太稳@极客邦科技

身心健康 个人成长 团队协作

像产品设计一样思考、像程序运行一样执行

水色

运维 Harbor 镜像仓库的法宝:Operator

亨利笔记

Kubernetes 容器 k8s Harbor operator

Golang 真的好用吗?

极客时间

编程语言 Go 语言

回"疫"录(4):见证历史

小天同学

疫情 回忆录 现实纪录 纪实

如何读IPO招股说明书(2)到哪儿下载招股书?

赵新龙

IPO 上市 招股说明书

二叉树先序中序后序的非递归实现

Kenn

算法

“IPO上市扒层皮”,以阿里巴巴为例看看公开了什么 | 如何读IPO招股书(3-a)

赵新龙

阿里巴巴 IPO 招股说明书

JCJC错别字检测JS接口新增CORS跨域支持

田春峰-JCJC错别字检测

祝这些不要脸的王八蛋同行家里着火

二爷

“消灭你,与你无关”——阿里巴巴的风险 | 旧文重发

赵新龙

阿里巴巴 风险 蒋凡 IPO

演讲的秘诀

伯薇

个人成长 演讲 追求极致 完美主义

“WHY-HOW-WHAT”这个被誉为伟大的领袖如何激励行动的黄金圈法则,非常值得大家学一学!

数列科技杨德华

思维方式

哪儿有真实靠谱的数据,说谎话必须负责的那种?| IPO招股说明书(1)

赵新龙

阿里巴巴 IPO 旷视科技 数据

批注MYSQL开发规范,助你了解其背后的“道”

三石

数据库规范 规范背后的原理 白话规范

程序员陪娃漫画系列——吃饭

孙苏勇

程序员 生活 陪伴 漫画

如何避免把中台变成外包团队

松花皮蛋me

数据中台

死磕Java并发编程(4):happens-before是什么?JMM最最核心的概念,看完你就懂了

Seven七哥

Java Java并发 happens-before JMM

OpenCV 在 Android 上的应用

fengzhizi715

android OpenCV 计算机视觉

判断链表是否有环

Kenn

算法 链表 双指针 Brent

“IPO上市扒层皮”,以阿里巴巴为例看看公开了什么 | 如何读IPO招股书(3-b)

赵新龙

阿里巴巴 IPO 招股说明书

我不是怕表错态,而是怕我会不自觉地捍卫它

池建强

个人成长

浅谈行业软件

孙苏勇

软件 思考 转型

vSphere 7融合Kubernetes,构建现代化应用的平台

亨利笔记

Kubernetes 容器 云原生 k8s vSphere

Nginx学习

陈雷雷

nginx

不知不觉,写了10000字了

小天同学

写作 个人感想 思辨

我们是时候降低对完全自动驾驶的期望了

赵钰莹

自动驾驶 AI

ZGC都出来了,你还不懂G1?

大白给小白讲故事

G1 JVM

Harbor和Dragonfly双剑合璧 打造容器镜像运维新模式

亨利笔记

容器 k8s Harbor dragonfly 镜像

Airbnb支付平台如何进行异常检测_语言 & 开发_侠天_InfoQ精选文章