9月7日-8日,相约 2023 腾讯全球数字生态大会!聚焦产业未来发展新趋势! 了解详情
写点什么

CIKM 18 | 蚂蚁金服论文:基于异构图神经网络的恶意账户识别方法

  • 2019-08-30
  • 本文字数:2314 字

    阅读完需:约 8 分钟

CIKM 18 | 蚂蚁金服论文:基于异构图神经网络的恶意账户识别方法

小蚂蚁说:

ACM CIKM 2018 全称是 The 27th ACM International Conference on Information and Knowledge Management,会议于 2018 年 10 月 22 日-26 日在意大利都灵省举行。

CIMK 是国际计算机学会(ACM)举办的信息检索、知识管理和数据库领域的重要学术会议。本次大会目的在于明确未来知识与信息系统发展将面临的挑战和问题,并通过征集和评估应用性和理论性强的高质量研究成果以确定未来的研究方向。

本篇文章分享了蚂蚁金服在 CIKM 2018 上的一篇论文《Heterogeneous Graph Neural Networks for Malicious Account Detection》,作者包括刘子奇、陈超超、杨新星、周俊、李小龙、宋乐。

在线账户伴随着(移动)互联网的诞生而产生,在金融服务领域,这种通过批量、低成本注册的恶意账户的存在是十分危险的。本文介绍了一种新的基于异构图的、面向恶意账户识别的图神经网络方法 GEM ,这也是这也是世界上已知的第一个面向恶意账户检测的图神经网络方法。

1.概述

本文的主要目的是介绍一种新的基于异构图的、面向恶意账户识别的图神经网络方法(GEM, Graph Embeddings for Malicious accounts)[1]。该方法是支付宝为保障体系内账户安全,降低恶意账户带来的资损,保障支付体系健康,在人工智能领域所做的努力和尝试。这也是世界上已知的第一个面向恶意账户检测的图神经网络方法。


下面,我们将为大家讲解如下内容:


  1. 恶意账户是什么?具有什么特点?

  2. 为什么图神经网络方法能够高效识别恶意账户?

  3. 我们的 GEM 方法如何工作?

2.恶意账户是什么?具有怎样的特点?

2.1 什么是恶意账户

随着(移动)互联网诞生,催生了多种形式的在线服务,在线账户随之产生。比如:Gmail 提供的邮件服务,微博/Twitter 提供的短消息分享服务,支付宝提供的支付服务等。通过注册大量 Gmail 邮箱账户,恶意用户就可能迅速、大量地扩散垃圾广告等信息。微博账户等也可能催生僵尸账户达到某种非法营销、传播目的。在金融服务领域,这种恶意账户的存在就更加危险,比如注册大量新账户达到薅羊毛、洗钱、欺诈等目的。


用一句话总结:恶意账户具有强烈获取利益倾向和团伙性质,往往是通过批量、低成本注册的账户。

2.2 恶意账户的特点

本文我们对黑产账户数据进行分析,并总结如下特点:


1.设备聚集性:见下图所示。两张图分别展示了用户(纵轴)过去是否在设备(横轴)有过登录行为。蓝色点代表该用户过去有在某设备上登录过。其中,左图显示的是正常账户特征,右图显示的是恶意账户特征。从图中可以看出,左图 pattern 较为均匀(regular),即便不同类型的设备(媒介)上,其和账户连接的 pattern 可能密度不太一样。右图则完全不同,我们可以在黑产账户上看到极为有规律和稠密的 pattern。这说明,黑产账户更倾向于在设备(媒介)的联通上有着高聚集性。



2.时间聚集性:见下图所示。两张图分别展示了账户(纵轴)在时间(横轴)上的行为序列。其中一个蓝点代表该用户在某时间点上有登录行为。左图仍然为正常账户,而右图则是黑产账户。因为我们取的都是新注册账户,所以在注册时间点前无行为。从左图可以看出,正常账户在注册之后,每天会有均匀的登录 pattern,右图中的黑产账户则只在某个时间段内集中达成某种行为,这种 pattern 我们称之为时间聚集性。



小结:这两种特征是黑产账户所固有形成的。即,这些黑产受利益所驱动而无法绕开这些模式(只要能准确捕获黑产账户之间共享的设备信息,这里的设备不限于某一个手机、某一个 IP 地址,可以认为是一种媒介)。我们针对这些数据特点设计了基于图的神经网络算法识别黑产账户。

3.为什么图神经网络算法能识别黑产

一个直观的方法是联通子图方法。我们先构建账户-设备二部图,由于设备聚集性,我们可以计算每个联通子图的节点数目,每个账户的危害程度取决于该节点所在联通子图的节点数目。该函数本质上可以用图神经网络抽象。有兴趣的读者请见我们公众号另一篇文章:《论文 | 蚂蚁金服亮相数据挖掘顶会 KDD 2018,这些你不可错过!》。


该方法可以准确识别那些设备聚集度特别高的黑产账户。但是对于设备聚集程度一般或较低的账户,很难做出准确区分。

4.GEM 方法如何工作

基于我们前面对设备聚集性和时间聚集性的分析,我们将上面的用于刻画联通子图的图神经网络方法进行扩展:


第一、我们构建异构图,包括账户类节点,以及多种类型的设备信息,如:电话、MAC、IMSI 以及其他 ID。


第二、我们为每个账户加入时间上的行为特征 X ∈ RN,P。其中每行 Xi 表示节点(账户或设备)在时间上的行为特征。我们希望构建的神经网络模型可以学习到通过设备聚集在一起的账户在行为特征上的模式,从而更准确的做出判别。



我们的算法如下:


5.结果

我们使用了连续 4 周的数据,比较了 GEM 和其他有竞争力的方法在这些数据上的 AUC 和 F1-score 上的表现。



表 1F1-score



表 2AUC


下面,我们比较了这些方法在 Precision-Recall 曲线上的表现。从图中可以看出,GEM 可以在召回的头部到尾部,都保持相对一致的高准确度。这使得我们的方法可以在避免打扰正常账户的同时,有效打击黑产账户。



图 1Precision-Recall 曲线


最后,我们分析了我们的算法自动识别的异构图中不同类型账户的有效性。这些分析可以帮助我们更加有效理解哪类设备在当前有高概率会被利用,以及随时间变化,黑产策略的调整等。



参考文献


[1] Ziqi Liu, Chaochao Chen, Xinxing Yang, Jun Zhou, Xiaolong Li, Le Song. Heterogeneous Graph Neural Networks for Malicious Account Detection. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management, Turin 2108.


本文转载自公众号蚂蚁金服科技(ID:Ant-Techfin)。


原文链接:


https://mp.weixin.qq.com/s/oMFLtEULvIeX5Nu0K33lGw


活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2019-08-30 15:521219
用户头像

发布了 150 篇内容, 共 30.4 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

软件定义存储厂商大道云行加入龙蜥社区

OpenAnolis小助手

生态 存储技术 龙蜥社区 大道云行 CLA

墨天轮访谈 | 华为云温云博:从客户视角出发,GaussDB(for Redis)究竟“香”在哪里?

墨天轮

数据库 redis 华为云 国产数据库 键值数据库

JS Array数组几个循环实用方法总结

MegaQi

JavaScrip 测试发开 web前端开发

基于微信小程序的实验室预约小程序平台详细设计

CC同学

区块链架构下 智慧城市发展加速

CECBC

URL的四种形式对比说明

源字节1号

前端开发 后端开发 网站开发

黑匣子为什么难成为“云匣子”?

脑极体

《LeetCode 刷题报告》题解内容Ⅱ

謓泽

3月月更

明天直播:如何测试硬件设备与龙蜥操作系统的兼容性?

OpenAnolis小助手

硬件 直播 开源社区 sig 兼容性

OceanBase 开源负责人纪君祥聊 社区版 2022 Roadmap

OceanBase 数据库

oceanbase OceanBase 开源

数字医疗时代的数据安全如何保障?

CECBC

服务器防渗透--信息收集

喀拉峻

网络安全

深入浅出 Java FileChannel 的堆外内存使用

Apache IoTDB

“中本聪岛”加密乌托邦

CECBC

Facebook 开源 Golang 实体框架 Ent 现已支持 TiDB

Geek_2d6073

前端食堂技术周刊第 30 期:Vercel 支持零配置部署使用 pnpm 项目、React 新文档更新、Angular Roadmap、Remix Stacks

童欧巴

JavaScript 编程 前端 周刊 资讯

360大数据技术专家 程建云:IoTDB在360的落地实践 | Apache IoTDB Talk

Apache IoTDB

时序数据库 IoTDB Apache IoTDB

Flutter 路由及路由拦截跳转404

岛上码农

flutter ios Android开发 移动端 3月月更

区块链等技术助力北京海关监管

CECBC

云时代,租电脑还是初创型企业最好的选择吗?

阿里云弹性计算

远程办公 无影云电脑 初创型企业

加密货币监控和区块链分析如何帮助避免加密货币欺诈?

CECBC

Paxos vs. Raft:我们对共识算法达成共识了吗?

多颗糖

分布式系统 raft PAXOS

春暖花开,等你而来!4月月更挑战开始啦!

InfoQ写作社区官方

热门活动 4月月更

week4作业

Asha

如何快速实现持续交付

阿里云云效

云计算 阿里云 软件开发 CI/CD 持续交付

从二十年开源经历出发,70 后大龄程序员谈成长、困境与突围

TDengine

数据库 tdengine 开源

一文带你了解 Python 中的迭代器

踏雪痕

Python 3月程序媛福利 3月月更

异构注册中心机制在中国工商银行的探索实践

SOFAStack

GitHub 开源 分布式架构 注册中心 工商银行

VuePress 博客搭建系列 33 篇正式完结!

冴羽

JavaScript Vue 前端 vuepress 博客搭建

高层次人才一站式服务平台系统开发

a13823115807

kubeadm工作原理-kubeadm init原理分析-kubeadm join原理分析

良凯尔

容器 云原生 kubeadm #Kubernetes# Kubernetes 集群

  • 扫码添加小助手
    领取最新资料包
CIKM 18 | 蚂蚁金服论文:基于异构图神经网络的恶意账户识别方法_文化 & 方法_Geek_cb7643_InfoQ精选文章