写点什么

如何通过用户的行为序列来提升欺诈风险识别

  • 2019-09-02
  • 本文字数:3283 字

    阅读完需:约 11 分钟

如何通过用户的行为序列来提升欺诈风险识别

小蚂蚁说:

移动支付在带给人们便捷生活的同时,也面临着网络欺诈的空前挑战。仅在支付宝场景中,每日的欺诈举报量上千,涉案金额上百万。作为移动支付领航者的支付宝,借助大数据和 AI 技术,并历经了十多年的发展后,构建了世界级领先的风控技术能力。

本文讲述了蚂蚁金服技术团队在支付宝现有风险识别体系上,进行了深度学习的升级,基于被骗者及欺诈者行为序列进行的欺诈场景应用探索。

后期我们还会进一步深入挖掘行为序列在欺诈风险识别的应用,以提升支付宝整体的欺诈风险识别能力。

一、业务背景

1.欺诈和欺诈风险识别:

文中所指的欺诈特指电信诈骗或网络诈骗,即欺诈者使用某些话术和套路,让受害人误以为真,而自愿将资金转移给欺诈者,从而蒙受损失的欺诈行为。


常见的欺诈手法包括以刷单为由,让用户点击购买商品;冒充公检法、领导或亲友让用户进行大额转账;骗子获取了客户网络购物信息,冒充客服人员以退款为由,向用户发送钓鱼链接等。为了保护支付宝用户,净化支付宝体系,需要对这类欺诈交易和欺诈者进行识别,由此产生了欺诈风险识别的需求场景。

2.欺诈风险识别的难点:

欺诈风险识别具有一定的挑战性,主要以下有几个难点:


  • 被骗交易之前的行为大多发生在体系外,比如通过微信或 QQ 聊天,或者被电信欺诈,因此可用数据较其它风险而言相对较少。

  • 行为特征不明显,由于用户自己被骗,其操作及支付行为都是自己发起的,因此无法获取到用户的明显异常行为。

  • 欺诈交易中的收益银行卡,有相当多的是新卡,由于新卡信息少,对于风险防控来说更加具有挑战性。


二、欺诈风险识别模型的解决思路

现有模型体系:


现有风险识别模型主要是事中识别,整个模型包括了三个不同层级,四类场景构成的模型体系,从层级上有可信模型、实时模型和离线模型,场景由转账到账户、转账到卡、直连非 BD 商户和间商户这四种场景构成。


现有的变量主要从主动方支付行为的异常及被动方的收款行为进行刻画。大体上可以分为三大类变量,第一是历史信息汇总类变量,即 velocity 类,第二是衍生类变量,包括个体突变和群体概率,第三是关系类变量。


基于深度学习的升级:


现有模型体系可以识别大部分欺诈交易,但对于部分突变或收款异常特征不明显情况较难识别到,另随着风险对抗升级,这种异常行为也会逐渐转移;对被骗者及欺诈者的行为序列深入分析发现,被骗者及欺诈者的行为序列模式都有迹可循:例如正常转账交易情况下主动方登录后直接进行转账,而被骗转账交易下被骗者登录后先查看自己的芝麻分或借呗后再转账;一般正常人收到转账前无任何操作,收到钱后也不会直接转出,而欺诈者在收到转账之前,往往会查看自己账户信息或更改头像,而且会在收到钱后直接提现转出。


基于这些行为序列,我们可以通过特征工程来刻画变量,加入到现有模型中,也可以直接基于深度学习来自动学习刻画这些变量。因此我们引入了基于操作、支付以及浏览行为的事件序列,采用 LSTM 模型结构深入刻画主动方(账户)以及被动方(账户/卡 Bin)的异常行为链,以提升整体的欺诈风险识别能力。

三、LSTM 介绍

LSTM 是 RNN 的一种特殊类型,保留了循环神经网络(RNN)的链式重复神经网络模块结构来捕捉序列信息,同时利用门结构来控制模型中信息的传输量,从而可以学习长期依赖(long-term dependency)信息,在序列建模中被广泛使用。


RNN 的隐藏层只有一个状态 h,它对于短期的输入非常敏感,LSTM 中增加一个状态 c (cell state)来保存长期的状态。LSTM 中使用三个控制开关控制长期状态 c,第一个开关负责控制继续保存长期状态 c,第二个开关负责控制把即时状态输入到长期状态 c,第三个开关负责控制是否把长期状态 c 作为当前的 LSTM 的输出。三个开关的作用如下图所示:




门实际上就是一层全连接层,它的输入是一个向量,输出是一个 0 到 1 之间的实数向量。假设 W 是门的权重,b 是偏置项,那么门可以表示为。T 时刻 LSTM 的输入有三个:当前时刻网络的输入值、上一时刻 LSTM 的输出值、以及上一时刻的单元状态,LSTM 的输出有两个:当前时刻 LSTM 输出值、和当前时刻的单元状态,LSTM 的前向计算如下图所示:





LSTM 的训练算法仍然是反向传播算法,主要有下面三个步骤:


前向计算每个神经元的输出值,对于 LSTM 来说,即五个向量的值。


反向计算每个神经元的误差项值。与循环神经网络一样,LSTM 误差项的反向传播也是包括两个方向:一个是沿时间的反向传播,即从当前 t 时刻开始,计算每个时刻的误差项;一个是将误差项向上一层传播。


根据相应的误差项,计算每个权重的梯度。

四、欺诈防控应用

4.1 转账到账户场景

一笔转账到账户交易涉及两个主体即支出账户及收款账户。在风控事件中除了账户交易行为还包括账户的操作行为及日志等信息,其中账户作为主动方的行为包括支出,改密,加好友,改头像等等,账户作为被动方的行为包括收款,被举报,被加好友等等,针对一笔转账交易,我们可以基于支出账户的行为和收款账户的行为进行序列挖掘分析,并且针对账户的短期行为及历史长期行为进行不同长短时间窗的挖掘,识别账户异常行为序列,提升欺诈防控。具体我们构造了 8 个行为序列,如下所示:


序列 1:支出账户的实时事件序列


序列 2:支出账户的实时 RPC 序列


序列 3:收款账户的实时事件序列


序列 4:收款账户的实时 RPC 序列


序列 5:支出账户的历史事件序列


序列 6:收款账户的历史事件序列


序列 7:支出账户与收款账户历史序列


序列 8:支出账户与收款账户实时事件序列



实时序列中序列向量为小时维度,计算每个小时中事件或 rpc 的汇总,同时做 log 处理,历史序列中序列向量为天维度,计算每天的事件或 RPC 汇总,同样做 log 处理。支出账户与收款账户的实时序列均将其作为主动方序列与被动方序列合并为一个向量,另我们尝试发现实时序列用小时维度汇总比直接事件序列输入效果要好,因为很多收款账户并非很短时间内完成欺诈序列,而是在近 1 天内的行为链路异常。序列建模主要流程如上图,分别基于 8 种不同序列建立 LSTM 模型,将序列隐藏层最后一步输出接一个全连接层最终输出风险分值,将 8 个序列风险分值与现有变量合并建模,输出最终欺诈风险分。目前输出 8 个行为序列分值作为最终模型变量,在模型 130 变量中基于 IV 值评估:8 个序列分值 3 个排在 top5 内,7 个排在 top35 内。将序列模型分加入到现有模型中最终建模评估在高分段可提升 5%+的可见案件覆盖率,具体效果如下:


4.2 转账到卡场景

如前面已提到转账到卡场景欺诈的防控难点在于新卡的防控。根据历史经验群体变量及 FTG 变量对于新卡有一定的防控效果,目前在转账到卡场景已刻画城市、年龄及卡 bin 等维度的 FTG 变量。为了进一步防控新卡风险,我们从群体及 FTG 变量的思路出发,利用深度学习序列建模生成卡维度的 embedding,然后将卡维度的 embedding 再汇总到卡 bin 维度,汇总的 embedding 提炼了该卡 bin 的行为信息,从而对于新卡来说只要其卡 bin 出现过就可以获取其卡 bin 行为特征。最后将生成的 embedding 变量与现有变量合并建模,输出整体欺诈风险分值,具体流程图如下:



我们主要刻画卡的收款序列,取每个收款事件上卡的属性及行为特征作为向量输入训练 LSTM 模型,将序列隐藏层最后一步输出接一个全连接层最终输出 embedding 向量。另我们尝试了不同位数的卡 bin 截断,尽量保证新卡能被历史卡 bin 覆盖同时粒度不能太粗,最终选择 10 位及 12 位两种截断方式。我们将卡维度的 embedding 及卡 bin 维度汇总的 embedding 变量 T+1 推送线上,GBDT Retrain 模型的效果如下:模型在全量卡交易评估同打扰下可提升 2-3%的覆盖率,在全量卡交易评估同打扰下可提升 3-4%的覆盖率:



五、小结


本文只是行为序列在欺诈场景应用探索的开始,目前仍在行为序列的刻画方式及其它业务场景做更多尝试,例如我们发现将账户的事件序列和 RPC 序列合并效果比单独一个序列要好,目前是单独输出后再合并后维持同效果,另例如在欺诈者销赃环节对欺诈者行为序列建模,在资金流出环节进行拦截等,后面会进一步深入挖掘行为序列在欺诈风险识别的应用。


本文转载自公众号蚂蚁金服科技(ID:Ant-Techfin)。


原文链接:


https://mp.weixin.qq.com/s/KfYYCKbb4YSIMicBDOO99w


2019-09-02 09:565456

评论

发布
暂无评论
发现更多内容

基于开发者空间OpenGauss数据库的分区表项目实践

华为云开发者联盟

opengauss 华为开发者空间

日均处理 PB 级数据,基于 DolphinScheduler 的离线数据治理平台实现精准血缘追踪

白鲸开源

大数据 开源 数据治理 Apache DolphinScheduler 血缘分析

教师如何规划教学与科研协同发展|北京理工大学医工交叉教学实践分享(5)

ModelWhale

AI教育 科研 北京理工大学

硅空位中心实现量子网络化的新突破

qife122

量子技术 硅空位中心

合规交易所架构设计:冷热钱包隔离+zk-KYC方案

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

DApp极速开发指南:7天搞定Solidity合约+React前端全栈实战

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 代币开发 交易所开发公链开发

告别碎片化输入:TextIn xParse如何为RAG打造「零损耗」知识管道

合合技术团队

人工智能 算法 #大数据

迈出万物互联的一小步:仓颉版TCPGroupChat群聊实现

华为云开发者联盟

仓颉 华为开发者空间

基于远程开发环境部署Django与开发者空间GaussDB的实践应用

华为云开发者联盟

华为开发者空间

技术文档 | 使用 Pulsar Functions 构建实时 AI Pipeline

AscentStream

Machine Learning pulsar

从v3.1到v4.3,OceanBase稳定支撑快手PB级核心业务场景

老纪的技术唠嗑局

运维 数据库设计 OceanBase 社区版 mysql'

深入底层:如何优雅部署 SeaTunnel 分离集群到 Kubernetes

白鲸开源

大数据 开源 Kubernetes 部署 Apache SeaTunnel

从《中国开源年度报告》看中国开源力量的十年变迁中,Apache SeaTunnel 的跃迁

白鲸开源

大数据 开源 Apache SeaTunnel Apache软件基金会 OpenRank

校招新人如何用文心快码让Landing期不再尴尬

Comate编码助手

职场新人 AI辅助编程 AI 代码助手 文心快码

这个仓库堪称造轮子的鼻祖,建议看看!

Immerse

使用 Apache DolphinScheduler 构建和部署大数据平台,将任务提交至 AWS 的实践经验

白鲸开源

云计算 AWS Apache DolphinScheduler 思科 EKS

三天接入,零重构:低代码中间件的快速集成机制全解析

星云低代码中间件

ide 低代码 企业应用 可视化编程

中国 Apache 项目 OpenRank 排行榜 Top 20:白鲸开源深度参与两大上榜项目

白鲸开源

开源 Apache DolphinScheduler Apache SeaTunnel 白鲸开源 Apache软件基金会

单存储节点支持700+ GPU训练!华瑞指数云首秀登顶MLPerf全球存力榜

科技热闻

WAIC2025 | 澳鹏(中国)精彩亮相2025世界人工智能大会

澳鹏Appen

世界人工智能大会 WAIC WAIC2025

JNPF 6.0 +AI,低代码开发新体验

引迈信息

[鸿蒙征文]钢琴和弦小工具

大展红图

鸿蒙 音乐 HarmonyOS HarmonyOS NEXT 钢琴

基于华为开发者空间,仓颉宏实现语言集成查询LINQ

华为云开发者联盟

opengauss 华为开发者空间

Apache Flink:从实时数据分析到实时AI

Apache Flink

flink AI 实时计算

星云低代码:低代码不再是平台,而是“中间件”

星云低代码中间件

低代码 中间件 企业应用 可视化开发

程序员专属秋日养生指南(Coding版),文内有秋天第一杯奶茶

Comate编码助手

程序员 文心快码 秋天的第一杯奶茶 程序员养生

Mysql如何迁移数据库数据

秃头小帅oi

企业级远程控制方案如何选?贝锐向日葵、ToDesk、AnyDesk、RayLink对比

科技热闻

品牌出海的隐形风险:海外舆情监测你真的会用吗?

沃观Wovision

数据分析 出海企业 沃观Wovision 舆情监测系统

利用NLU标签优化ASR重评分模型

qife122

语音识别 自然语言理解

直播预告 | 您的数据能喂给AI了吗?让GenAI读懂企业语言——产品分享会:矩阵起源MatrixOne Intelligence产品独家解析

MatrixOrigin

如何通过用户的行为序列来提升欺诈风险识别_文化 & 方法_决策模型 睿晓_InfoQ精选文章