2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

欺诈检测 -- 大数据的安全管理

  • 2016-01-13
  • 本文字数:1487 字

    阅读完需:约 5 分钟

现在越来越多的银行业务依赖大数据和物联网基础设施,比如,移动支付、网上银行和智能售货机。但在这些交易过程中存在大量的个人敏感的身份信息需要保护。大数据安全是一个极大挑战的问题,因为作弊者在不断的寻求新方法来获取到有价值的数据。为了防止这些坏家伙,人们需要不断的去设计和发布新的大规模预测模型来预测作弊者的行为。不光银行需要大数据安全保护,任何含有对个人用户信息 personally identifiable information (PII) 处理的商业交易都要做好保护,比如,医疗机构和保险业。

最近有好消息称,有越来越多的机器学习的专家、新的技术和工具来提供有效的分析模型,能够鉴别潜在的欺诈交易和钓鱼式攻击。但不是所有公司都拥有机器学习专家来做这方面的工作,因此这些公司就需要从外面请一些专家来建立有效的模型来抵制作弊者。与此同时,他们又不想自己用户的信息让其他公司知道。通过匿名用户个人信息 PII 还保证不了这一点。那有没有一种较好的方法能够既利用外部力量而又不暴露本公司的敏感的数据呢?

图一
在纽约最近的一次大数据会议上,大数据公司 MapR 的首席架构师 Ted Dunning 发表了一种新方法来解决上述问题。

找出被盗商家

现在一个新的趋势是:作弊者通过成千上万的用户盗取个人信息来进行许多小批量的欺诈交易。这样他们可以在很短的时间里盗取百万美元 / 英镑 / 欧元,通过被盗的商家或者网站来获取大量的顾客的金融信息。作弊者不是偷一张信用卡然后去购买大宗商品,因为这种行为容易被现在的安全软件探测到,而是通过欺骗交易来进行大批量的信用卡交易。这些小额购买常常被用户忽略,但是恰恰会被不良作弊者利用。
为了应对这种潜在的通过被盗商家来进行盗窃的行为,一家大型金融机构采用大数据公司 MapR 的技术来构建新的模型来检测这种分布式攻击。他们的目标是改善自己的欺诈检测的能力:a) 探测出更多的可疑事件,b) 更及时的检测,在出现严重的影响之前尽可能的快的去关闭受影响的账户。

银行有海量的个人交易行为数据,Ted 的方法是把银行的每个顾客的交易数据按时间序列转换,在商家出现被盗之前找出来。他采用的相似估计的方法把每个被盗商家的特征点提取出来,然后进行打分。但问题在于即使是出于打击盗取者,银行也不太愿意把敏感的数据分享出来。

为了克服这个问题,Ted 写了一个可根据个人需求定制的样本数据生成的代码 log-synth ,并开源在 Github 上。通过 log-synth 生成被盗过的用户历史数据模拟来找出被盗的特征。在模拟数据实验中,被盗商家有较高的打分。

构建好探测模型,并进行参数调优,然后将这个模型应用到真实的交易数据。真实的数据分析更令人振奋,一个商家打分超过 80 分的 (见图 2),经银行核实发现这个商家的确存在大量的数据泄露。

图 2 通过模拟数据构建的模型运用到真实数据中的情况

更好的数据模拟的方法

使用人为生成的数据来进行构建模型并不新鲜,但是这种方法却经常被人忽视。Ted 发现,想精确模拟真实世界的行为特征是非常难的一件事,而通过人为生成的数据就可以很好的构建好的模型,这样更快更容易。
这种方法不仅仅用于欺诈检测,也可以用于其它真实的情况。具体怎样使用开源 log-synth,在这里由于篇幅限制就不再细激昂,感兴趣的可以去看 Ted Dunning 和 Ellen Friedman 写的书《Sharing Big Data Safely: Managing Data Security》,可免费下载。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2016-01-13 18:003123
用户头像

发布了 43 篇内容, 共 31.4 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

跟我学Python图像处理丨带你入门OpenGL

华为云开发者联盟

Python 人工智能 华为云 12 月 PK 榜

Web前端培训机构有哪些?

小谷哥

企业的可视化分析能力想要提升,还需要多多关注瓴羊Quick BI

巷子

HMS Core 6.8.0版本发布公告

HarmonyOS SDK

HMS Core

LED电子显示屏加速在生活中的应用

Dylan

LED LED显示屏 led显示屏厂家

纷繁复杂见真章,华为云产品需求管理利器CodeArts Req解读

华为云开发者联盟

云计算 需求管理 华为云 12 月 PK 榜

城市云灾备,为业务连续性保驾护航

华为云开发者联盟

云计算 公有云 华为云 政务云 12 月 PK 榜

如何利用A/B实验提升产品用户留存?看字节实战案例给你答案!

字节跳动数据平台

大数据 AB testing实战 12 月 PK 榜

如何将传统 Web 框架迁移部署到 Serverless 架构?

Serverless Devs

Python 架构 前端

什么是IT资产?如何保障IT资产安全?

行云管家

网络安全 数据安全 IT资产

武汉大数据培训机构怎么样

小谷哥

企业想要提升数据分析能力,还需要选择瓴羊Quick BI

三十

BI智慧仓储行业应用方案,让你的仓储物流不再复杂

葡萄城技术团队

前端 数据可视化 仓储 智慧仓储 大屏

功能强大的国产API管理神器 Eolink,亲测好用

海拥(haiyong.site)

开发工具 API API测试

专访|开源之夏最佳质量奖 Apache RocketMQ Committer 黄章衡

Apache RocketMQ

#开源 消息列队

云数据库技术行业动态:ClickHouse Cloud正式GA或有融资;openGauss社区引入新成员

数据库小组

行业资讯 企业动态 产品功能 数据库技术

NFT盲盒质押分红挖矿dapp系统开发源码搭建

开发微hkkf5566

不足10人的创业团队,怎么在半个月内上线一个新产品?

LigaAI

创业 敏捷开发管理 创业公司 远程开发 12 月 PK 榜

面对庞大复杂的身份和权限管理,企业该怎么办?

华为云开发者联盟

后端 开发 数字化 华为云 12 月 PK 榜

云安全系列5:2023 年需要了解的 40个云安全术语

HummerCloud

云计算 云安全

应用瓴羊Quick B,可以有效地提升企业的数据化分析能力

对不起该用户已成仙‖

“零代码”的瓴羊Quick BI即席分析,业务人员也能轻松上手

夏日星河

java程序员培训好就业吗

小谷哥

一文带你读懂 Google GUAC 项目

SEAL安全

Google 软件供应链安全 12 月 PK 榜 GUAC

RISC-V SIG 推出基于openEuler 的下游发行版 Eulaceura

openEuler

Linux 开源 操作系统 openEuler risc-v

为什么很多产品经理,做不了产品管理?

LigaAI

产品经理 敏捷开发 产品管理 产品功能 12 月 PK 榜

linux高可用小知识点汇总-行云管家

行云管家

高可用 ha 双机热备

DevEco Studio 3.1差异化构建打包,提升多版本应用开发效率

HarmonyOS开发者

HarmonyOS

数据安全新战场,EasyMR为企业筑起“安全防线”

袋鼠云数栈

数据安全 大数据基础平台

11月月更开奖啦!看看获奖名单有没有你?

InfoQ写作社区官方

热门活动

欺诈检测--大数据的安全管理_InfoQ_侠天_InfoQ精选文章