写点什么

专访季虎:如何突破瓶颈构建高质量风控系统?

2015 年 12 月 08 日

互联网的开放性极大地促进了互联网产业的发展,也给人们的生活带来了诸多便利。然而,随之而来的高风险性 - 账号盗用、虚假交易、金融欺诈等 - 也让大家闻之色变。在当今互联网 + 的时代,如何构建强劲的风险控制系统,保障交易、信用、资金等的安全,是任何一个从事互联网业务公司的头等大事。

为此,我们采访了苏宁 IT 总部安全研发技术总监,请他为读者们介绍互联网安全架构的个中精要以及苏宁安全团队在应对“11.11”等大规模活动时的努力。

受访嘉宾

季虎,苏宁 IT 总部安全研发技术总监,主导构建了苏宁电商和金融的风控技术体系。在此之前,季虎曾任阿里集团安全部高级技术专家,参与了 AE、金融和集团的风控系统建设,并致力推进风控自动化和大数据风控实践。其将在 ArchSummit 北京 2015 全球架构师峰会分享《简单的不像技术活——风险检测中的时间窗口计算》

互联网 + 大数据时代,安全领域也越来越多的引入实时的风险识别技术,风险特征(值)计算是实时性和海量数据下的扩展性是很多风险识别系统的难点。业务安全领域,已经在这点上做了很多年的尝试和研究,这次分享从风险检测的过程分析、时间窗口统计的需求场景和各种实现等角度切入,介绍多种场景的风险特征(值)计算以及尝试性解决通用问题的框架,让参会人员了解时间窗口统计的多种技术方案和技巧、如何快速构建业务风控系统等。

精彩内容敬请期待,以下是 InfoQ 记者对苏宁 IT 总部安全研发技术总监季虎的专访:

InfoQ:季虎你好,请给我们介绍一下业界有哪些常见的风险行为及识别技术吧。

季虎:在电商这一块,常见的风险行为包括垃圾账号注册、账号盗用、虚假交易、盗卡、广告的点击欺诈,信用炒作、DDOS 攻击等等,这些是行为方面的风险。我们用到的识别技术有基于用户行为,作特征分析,辅助以大数据模型,构建用户画像;有利用统计模型和规则引擎作事中控制的;甚至还会对用户做主动探测。

在苏宁,风控还包括了内容合规,比如色情,暴力等,也包括版权方面的事情,需要确保开放平台商户不能销售违反国家法律法规的商品,也有用户会发表违禁的评价等等。这里面用到的技术会有自然语言识别,图像识别,这些都依赖机器学习的技术; 此外,不同的行业也会有些特有的风险类型,如游戏,会遇到挂机的问题,P2P 会有征信方面的需求,也各有不同的识别方法。

InfoQ:风控的技术门槛在哪?业界是否有一些开源系统可以使用?

季虎:风控最大的难点在于它跟具体的业务模式息息相关,很难有一个通用的方法。就以黄牛抢购爆款来说,仅抢购的业务形态就有很多,比如秒杀,预约等等,多样性对系统的架构是一个挑战;另一个难点(对电商),事中的风险识别是用户体验最好的,这就在性能上有很高的要求。以苏宁为例,下单过程中的风控识别的时间只留了 50ms,这对性能有很高的挑战。

如果是从头搭建一个新的风控系统,初期可以选择开源的规则引擎(drools 等)做二次开发,后期按照实际情况再作调整。

InfoQ:通常在业务场景中风控系统采用什么样的指标进行评估,如何评价一个风控系统的优劣?

季虎:风控系统的评估,跟大多数的后端系统评估没太多差别,具体包括:灵活性,体现在一个新业务上线,一个新规则的变更,一个新模型的调整,要多久,投入多少人力;性能,是不是满足业务需要;易用性,风控系统跟业务结合紧密,能不能支撑业务需求的变更;还有一个重要的指标 - 效果,不同的业务形态,评估指标不同,可能是资损,可能是坏账率等,通过数据来说话。

InfoQ:风控计算会不会带来很大的额外计算压力?在苏宁,我们采用什么样的技术手段来降低风控计算对业务的影响?

季虎:这个必须会!风控系统内部称这为指标计算。压力主要在两方面,一个是 CPU(GPU),一个是内存;具体的手段有不少,在马上召开的 ArchSummit 大会上我会分享一些具体的例子, 到时候大家可以一听。

大致的思路有两个方向:一是预先处理,另一个就是保证计算尽量在内存中进行,根据计算的类型,把计算拆分成多个阶段,以均值为例,M(n)=((n-1)×M(n-1)+M(n))/n,这样计算形式的转换,把求均值变成可以累加计算,一部分预先处理好(可以离线处理),这样风控系统中的计算量就尽可能的减少。不能拆分的计算类型,就尽可能把数据预先加载到内存中,我们曾经在一个信用卡盗卡的模型中使用过单机 250G 以上内存容量的服务器。另外还有一个小技巧,根据实际的模型设计,可以考虑降低计算精度,一些特殊的数据结构可以做到计算精度降低 1 个点,需要的计算量降低 10,甚至更多。这是些简单逻辑运算,更复杂的,如矩阵运算,我们采用高性能 GPU 代替通用 CPU,图像识别是典型场景。

上面说的是提高计算能力的方法,此外,还需要考虑把指标计算的部分独立出来做成微服务。这样既可以降低与规则引擎系统和模型的耦合性,也能更好的在系统之间共享风险指标。

InfoQ:对于初创公司来说,如果公司需要构建自己风控系统,有哪些因素需要特别考虑?

季虎:优先组建业务风控团队,优先组建业务风控团队,优先组建业务风控团队,重要的事说三遍。

回到系统本身,有一些个人体会可以分享下:

1)初期就要考虑的数据沉淀和再利用。风险判断的准确性要么看规则的合理性,要么看模型的准确性,这两个都需要数据支撑进行评价和改良。

2)系统要提供效果评估评价的功能。他的点只关系到系统能不能做好,这个关系到风控业务能不能做好。

3)不要过度追求规则和模型的灵活性,适当降低架构设计的目标设定,灵活性是个无底洞。

4)风控系统只是辅助决策系统,不要串联到业务流程中,要旁路。

InfoQ:从苏宁的风控系统实践的经验来说,风控系统架构的瓶颈会在什么地方?

季虎:主要可能有三个方面:

1)第一个会遇到的瓶颈,都是灵活性。实际上,我参与过的风控系统建设,都会经常性做重构,基本上一年一版。我们做得好的地方在于,设计的时候采用了微服务化的思路,重构的时候不需要全盘推到重来。最近一次重构,重构了模型部分–因为 spark 等技术的发展,性能上已经满足实时需求,我们就仅仅重构了这个部分。其他的如风险指标的计算,处罚等服务,可以维持原样。

2)活动期间的性能问题,一般系统的性能冗余留一倍就差不多了,但是风控不行,我们活动期间的容量需求是平时的几十倍左右,方便的 scale out 是必须的,这点苏宁的私有云技术提供了很好的技术支撑。在 11.11 等活动期间,我们能做到一键扩容,动态资源回收。PS:真不是替苏宁云打广告,私有云方面,整个业界苏宁应该是走在前列的。

3)离线模型的支持,要保证线上线下数据一致性,这在架构设计上有一定难度,netflix 定义的 online,nearline 和 offline 的三线协作模型是很好的参考。

InfoQ:随着业务的飞速发展,你认为风控系统的下一步发展方向将是?

季虎:从两个维度说说我的认识,从风控系统本身来看,自动化应该是一个很重要的需求,自动训练,学习,评估,我们也正在作深度学习方面的探索,特别是无监督学习的尝试;在整个行业的高度看,就要借用我前同事的一个词语“联防联控”,通过云的方式,交付风控的技术能力,并达到整个行业的能力共享。

12 月 18-19 日举办的 ArchSummit 北京 2015“信息安全保障最佳实践”专题中除了季虎的精彩分享外,还有来自腾讯云安全技术副总监刘宁、阿里巴巴 PE 核心架构组专家李振宇、百度运维部资深研发工程师欧阳君沛的精彩分享,专题精彩日程提前看:

演讲议题 演讲嘉宾 《从甲方到乙方—腾讯云安全实践之路》 腾讯云安全技术副总监 刘宁 《简单的不像技术活—风险检测中的时间窗口计算》 苏宁 IT 总部安全研发技术总监 季虎 《百度超大规模分布式安全系统实践》 百度运维部资深研发工程师 欧阳君沛 《让用户数据更安全—淘宝、天猫全网 HTTPS 实践》 阿里巴巴 PE 核心架构组专家 李振宇 ArchSummit 讲师邀约完毕,想了解更多精彩日程,请关注 ArchSummit 大会官网

2015 年 12 月 08 日 19:145553

评论

发布
暂无评论
  • 滴滴内部运维风险量化机制:数据化运维实践心得

    本文讲解滴滴风险量化体系的相关实践细节,如果读者想了解更多滴滴如何克服运维工作中无法执行标准的困难,欢迎报名参加QCon北京站并与华明老师进一步交流。

  • 京东 618:大数据技术如何全面提升买买买的用户体验?

    今年618,京东技术部门的最大变化,京东集团CTO张晨的总结是:“从技术上,去年重点在保障,今年重点是大数据驱动业务效率提高,和用户体验的提高”。而去年底京东宣布启动的“京东大脑计划”,是京东大数据价值的充分展现,在这次大促中,从前端的用户体验到库存管理配送,在整个购物体系中都发挥着作用。

  • 如何在 CMDB 中落地应用的概念?

    应用是整个微服务架构体系下运维的核心,CMDB又是整个运维平台的基石。今天我就讲讲在CMDB中如何落地应用这个核心概念。

    2018 年 1 月 7 日

  • 京东虚拟商品系统的高可用架构设计

    今天双11零点战争开启,截至凌晨2点,京东累计下单金额突破950亿元,在高流量高并发的情况下,电商系统如何做好技术攻关?各互联网企业又是如何做好容量评估、性能优化、稳定性等方面的?

  • 韩轶平:整个行业都要提高安全意识

    韩轶平是雅虎软件研发(北京)有限公司的高级研发经理,在技术领域的多年积累,让他对本次用户信息泄露的安全事件有自己独特的看法,InfoQ也就此对他做了专访。

  • 企业表格技术与风险指标补录系统

    由华融科技推出的风险指标补录系统,很好的解决了传统方式中数据收集填报的诸多痛点。系统统一了管理模板的设计和制定,将 SpreadJS 的在线表格编辑器嵌入系统,构建了填报模板的设计模块,允许用户在线设计填报模板,并且在模板中直接指定指标入库位置、数据

    2020 年 9 月 4 日

  • 小米线下零售供体系的技术创新和探索

    小米从电商开始做零售,2015 年开始布局线下,业务开始了快速扩张。零售技术团队从进销存开始做起,一步步拼装补齐平台功能,推动技术在业务场景落地,并提升门店销售经营效率。在探索零售效率和创新上,零售技术团队做了很多的尝试。配合业务部门进行移动收银落地、优化供需模型,推进门店运营数字化等。同时伴随业务的渠道拓展和全球化业务发展,线下零售技术体系全面梳理功能矩阵并不断演进架构,开始了从零售支撑到软件系统平台化再到中台化的演进过程。本次演讲将和大家一起探讨零售技术团队技术探索的经验和方向。作者简介王德宇,现任职小米信息技术部全球新零售高级研发经理,小米线下零售技术体系负责人。2014 年加入小米,亲历和参与了小米从电商到全渠道零售发展过程。期间服务过仓储物流、电商多个技术团队。2016 年初,参与建立小米线下零售技术体系,并推进技术落地。伴随线下零售体系从基础销售到多渠道平台化建设,技术体系中台化转型,系统能力对外输出的整个时期。

    2019 年 11 月 21 日

  • 从文科男到云安全专家,Killer 首谈企业上云利弊

    企业上云,带来的不仅仅是企业技术架构的变更,更是安全的博弈。

  • 第 197 讲 | 邱良军:做好研发管理的 3 个关键

    研发管理简单来说就是如何高效的写代码、做产品及做运维支持等。

    2019 年 4 月 2 日

  • 电商大促特辑: 揭秘京东历经多年的"618"架构核心

    "618"作为京东一年最重要的大促之一,每年6月18日京东将遭遇记录历史级别的流量挑战。如何成功保障交易平台高并发高性能已经成为包括京东在内的众多电商念念不忘的念想,而京东作为国内电商领军企业之一,在架构积累上成就了如何领先的技术底蕴?

  • 如何在机器学习实战的路上与时俱进?

    尚未结束的2016年国际却发生了多起有关机器学习的并购,例如eBay收购以色列的预测分析企业SalesPredict,苹果收购了印度机器学习公司Tuplejump,Twitter收购了英国机器学习公司Magic Pony等等,互联网巨头们为何纷纷选择布局机器学习?机器学习背后搭建和使用了怎样的架构平台和训练算法?为了激活沉淀已久的互联网海量数据,机器学习发挥了怎样的作用?

  • 从解决规模问题到集成 AI,谈谈云服务的发展和挑战

    北半球秋冬已至,但激烈的云计算市场还没有停止竞争,云服务也不断地被创业组织和传统企业所接受。在这供需两端力量仍在不停地扩大时,云服务内部架构问题在技术战场上却不断涌现:如何做一个大规模分布式数据的云系统?如何避免云服务架构设计上的瓶颈和不足?

  • 除了链路还要治理什么

    2019 年 5 月 24 日

  • 百度服务可用性工程建设

    演讲嘉宾李刚 百度 可用性工程技术负责人内容介绍超大规模分布式系统如何避免新闻级故障的发生,并保证99.995%以上的高可用性?为此,百度的解决方案是实施百度服务可用性建设工程。本次演讲中,会系统性介绍百度服务高可用建设的整体技术框架和各方向的技术方案,包括服务变更风险管控、容量风险管控、智能故障定位与止损、主动制造故障等方向。希望能给各位听众带来启发。内容大纲 什么是服务可用性? 服务可用性影响因素分析; 百度服务可用性工程技术框架; 通过踩坑经历引出可用性工程框架,以及框架中的技术如何落地; 百度服务可用性工程分方向落地技术方案(含背景、核心技术方案、实施效果说明等)。

    2019 年 1 月 2 日

  • 京东 618:三大系统防作弊,挑战直面用户的困难

    京东的前端业务系统发展到今天,已经基本覆盖了京东交易环节的全流程。而今年的618,除了流量上的考验,还增加了大量个性化数据、动态定价等诸多京东智能卖场所提出的新要求。那么,京东的前端是如何应对的呢?用到了哪些工具和技术呢?

  • 【QCon 北京 2016】美丽说&蘑菇街专场重点回顾

    QCon北京2016全球软件开发大会的美丽说&蘑菇街专场顺利结束了,本专场以『复杂环境下美丽说&蘑菇街电商的升级之道』为主题,分享了社会化电商的技术架构和最佳实践。

  • 云环境下,企业该如何进行安全建设?

    你的企业云环境安全吗?

  • 采访:蔡学镛谈复杂事务处理(CEP)

    InfoQ编辑在QCon全球企业开发大会(北京站)期间,就CEP相关的技术,企业采用CEP的价值等话题采访了蔡学镛。

  • 从标准到落地:数据驱动的风险防范体系建设

    演讲嘉宾 来炜,滴滴出行技术总监。 内容介绍 运维工作中,通常会通过制定标准来预防风险、沉淀经验以及和周边团队形成共识。但常出现的情况是标准的影响会随着时间而减小,甚至被遗忘抛弃。一个较好的解决办法是将标准落地到各个平台,由平台来保证标准的执行。但这也有一些难以解决的问题: 标准有控制不了的部分:有一部分风险是标准无法控制的,比如一个业务线频繁的出现上线回滚,但标准并不能规定上线不能回滚或回滚的比例,这样的业务线我们如何驱动他们自省? 标准有弹性的部分:标准中通常也有一些需要人为拿捏的部分,比如变更在灰度阶段的暂停检查时长,通常是越长越安全,但平台通常只能约束到一个固定值。如何驱动大家做更充分的检查呢? 标准有被打破的特殊情况:比如标准规定禁止在业务高峰期变更,但由于紧急的问题修复或业务需要,又必须临时批准部分操作,这样的操作风险如何控制? 缺少风险的全局视图:通常SRE在push业务线做标准改进和控制的时候都只能针对一些局部进行推进,同时业务线的负责人也看不到全局的情况和风险的严重程度,因此推动较为困难,如何破解? 基于以上问题,滴滴建立了一套完善的风险量化体系,通过自动采集用户的平台操作数据、运维数据并自动计算量化出每个业务线的运维风险,落地到一个具体的分数,最终形成排名和竞赛机制,以达到促进标准长效执行的目的。本主题将重点介绍滴滴如何建设这套运维风险量化体系并成功运转长期有效降低业务运维风险的实践,同时还将分享建设和落地这套风险量化体系的实践心得。

    2018 年 9 月 12 日

发现更多内容

架构训练营 0 期总结 -- 第三周

互金从业者X

只看到了别人28岁从字节跳动退休,背后的期权知识你知道吗?

四猿外

创业 程序员 字节跳动 个人成长 期权

大厂经验(2):多端可视化埋点解决方案

DeeperMan

前端 采集 埋点

第三章作业

武鹏

架构师训练营第三周作业

sunnywhy

总结-02-设计模式

梦子说

学习 极客大学架构师训练营

你不知道的 Web Workers (上)

阿宝哥

Java Web 前端开发 Web Worker

如果你想要说服别人,要诉诸利益,而非诉诸理性

Neco.W

理性 说服 利益 谈判

架构师训练营第三周总结

James-Pang

极客大学架构师训练营

设计模式的应用

carol

总结

极客时间架构师训练营 - week3 - 作业 1

jjn0703

极客时间 极客大学架构师训练营

homework 3

东哥

架构师训练营第三周作业

hiqian

架构师训练营 - 学习总结 - 第三讲

吕浩

作业03-代码重构

梦子说

极客大学架构师训练营 命题作业

数字化转型必读书单

华章IT

数据中台 中台 数字化转型 行业资讯 银行数字化转型

如何有效实现“科技抗疫”?这家科技巨头正在作出典范

飞天鱼2017

组合设计模式-打印窗口组件的树状结构

张磊

新来的"大神"用策略模式把if else给"优化"了,技术总监说:能不能想好了再改?

Hollis

Java 设计模式

第三周作业一

carol

单例模式 组合模式

架构师训练营第三周作业

王铭铭

极客大学架构师训练营

架构师训练营第三周作业

James-Pang

极客大学架构师训练营

架构师训练营第三周总结

sunnywhy

作业-02

梦子说

极客大学架构师训练营 作业

手握美团offer,结果背调红灯,哭了,网友:别小瞧背调公司

程序员生活志

面试 美团 offer 背调

架构师训练营 Week03 学习心得

助力经济复苏 联想来酷"618"聚"惠"来袭

Geek_116789

单例模式的实现方式

互金从业者X

架构师训练营第 3 周作业

Season

单例模式 极客大学架构师训练营 组合模式

代码重构

dongge

MySQL-InnoDB 索引

Arthur

专访季虎:如何突破瓶颈构建高质量风控系统?-InfoQ