NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

风险价值量化术—互金爆发期的风控技术实践

  • 2019-05-22
  • 本文字数:3980 字

    阅读完需:约 13 分钟

风险价值量化术—互金爆发期的风控技术实践

本次分享分为两部分:业务和技术。



把业务和技术分称为务虚和务实并没有褒贬之义。只是从技术的视角来说,在技术实现之前,我们需要把业务弄明白,否则容易做错方向,浪费了团队的时间和精力。

一. 业务部分

1. 哪些是风控要解决的问题


首先是业务方面,这些年来我们的风控同学都在解决什么问题。


(1)身份认证


传统方式:


  • 身份证

  • 现场拍照


现在大部分互金公司的做法:


  • 账号体系


(同业接入→其他业务共享→市场解决方案)


  • 人脸识别

  • 活体验证


我们需要解决的问题


  • 虚假资料

  • 第三方欺诈

  • 本人欺诈

  • 账户盗用


对应金融机构的主要业务有


  • 理财

  • 转账

  • 支付

  • 消费

  • 信贷


本文聚焦在信贷这个业务下,风险价值量化的作用和方法。


(2)获取客户



我们常见的金融业务获客方式如上,左边为传统获客,右边是互金领域的获客方式。为什么我们先提到获客?因为在获客过程中,金融业务风险因素就已经在其中起到重要的影响作用。


我们认为风控越早参与到业务中越好,最好是立项的时候就有决策权,这里考虑的因素如下:


  • 有效的转化和客单价一样的重要;转化率太高太低都不行;因为风控成本要计算到获客成本中来;(我们在日常的团队和业务管理上经常有一个误区,就是把 KPI 拆的太散太细,以至于不同团队的目标是冲突的);

  • 可识别的客群规模决定了该方案是否可以规模化;

  • 不稳定的客群锻炼不出万能的策略,高手都是提前一招布局;我们需要用差异化的策略服务差异化的用户;(物以类聚,你肯定不愿意跟资质比你低的人平摊各项成本)

  • 充分竞争的市场里,整合资金、客户、产品、风控的能力就会产生价值。


(3)产品的定位(金额、期限、利率、循环、增信)


风险量化能力在如下几个方面,影响着产品的定位


  • 大额产品看客户资质、重视准入规则,小额产品则研究概率、重视用户信用评级;

  • 长期产品要找准个人还款能力的门槛,短期产品则着重把握个人的还款意愿(及容忍尺度的把控);

  • 银行胜在资金成本,消金赢在风控能力,小贷活在流量吸取(金主的不同在于各自优势的差异);

  • 贷后风控能力决定了资产循环的质量;

  • 增信的标的资产能否做兜底,是解决劣后风险的关键;


(4)客群的定位


  • 用户画像:是谁,在哪儿,什么时候,用哪些产品(被讲烂的 5W);合适的时候出现在合适的场景(瑞幸的线下广告投放就是一个成功的案例)

2. 风控的武器有哪些?


各位在金融机构的同事都知道,公司内部我们常用的名称是风险管理部,而非风险控制部,我们的目标不是完全杜绝风险,而是把它控制在我们 ROI 最大的区间。之所以叫风险管理就是让大家用 ROI 的思想来解决问题:


Investment 投入:公司内部有什么资源,外面能买到什么服务,客户能够提供给你什么材料,我们能制造点什么工具。它们都是数据,在风控解决信息不对称的过程中,这些数据就是我们所需信息的载体。


(1)内部数据整理



首先是内部数据的有效利用,图中为银行和互联网公司的常用特征,其中:


银行:防作弊、稳定性、质量、相关性


互联网:丰富度、数量、覆盖率


其他部门的特征数据:例如社交、广告、LBS 等部门的已有特征,其中有类似于社交网络活跃度、广告客群的用户标签;电商产品的积分值;BBS 站内用户等级之类现成的特征;


公司级的大数据共享:大公司的数据中心都有个人兴趣、偏好、习惯、脱敏属性的用户画像;


最后一部分则是通过金融部门自己的专家团队来挖掘金融场景相关的特征,如收入、支出、资产、负债的离散分级标签,BATJ、TMD 等企业都有足够的技术能力和资源完成这项工作。


(2)特征挖掘



在上节例举的各类数据中,我们的工作主要集中在自研金融特征上。流程如下:


首先是专家 Pattern 扩展:比如 BAT 都有自己的 LBS 信息,我们可以基于家庭住址做一个特征,假如你住在一个均价 10W 的小区,无论自有还是租赁,你的收入能力应该都不错。


其次是特征工程:主要指怎么样用不同的特征来做加工组合,然后跟抽象概念能够关联起来。


最后是埋点衍生:当我所有数据都没办法验证这件事情的时候,可以在 APP 中加一些合规的工具,来获取一些有用的埋点序列数据。


(3)外部接口接入及数据合作



(4)数据的进一步扩充


3. 找钉子就是做生态


最开始互金领域是没有模型体系的,银行里有 A 卡、B 卡和 C 卡,我们在互金行业成长的过程中慢慢的把适合它的模型体系建立起来,结构上我们可以分成几个事件时点:1.事前、2.申请、3.交易、4.事后。然后我们针对各产品来做 A、B、C 卡。


4. 我在为谁服务


读者中有很多朋友是做风控业务的,那么一个很重要的问题就是,你需要知道你是在为谁服务,也就是你的视角 POV。




二. 技术部分


介绍了业务背景和我们面对的问题之后,我们才来解释这些问题是怎样解决的。原因在于我们要先想得清楚,然后才能做得明白;业务和技术的关系是方向和数量的关系,方向错了,技术越好,那么结果可能越糟。


下面介绍的建模过程不只限于风控,在获客,导流,分发,催收,资产打包等环节都可以使用。

1. 特征的搭建逻辑



以上大部分的概念相信大家都不陌生,这里简单说明一下 Embedding 的作用,它是我们用来从高维稀疏的空间里,加工出一系列可解释的、低维度的特征集合。



左边为初版模型搭建时需要考虑的特征评估指标,右边是新的产品上线或者老产品模型迭代的时候参考的特征评估方法。



在特征组合方面,我们主要可以采用俩种方式来将非线性特征转化为线性特征:GBDT 和 Random Forest,他们都会生成右边绿色和红色方框中的决策树,这时每一个叶子节点,就已经代表用户画像的某些方面。细节请参考:


https://dl.acm.org/citation.cfm?id=2648589

2. 样本的积累过程


样本的积累过程包括


  • 样本替代

  • 样本划分

  • 样本清洗



首先是我们在不同时期建模过程中样本定义的变化


  • 第一阶段:



特点:样本少,特征多,表现周期短,有异构样本。


方法:按照 DPD 的走势,选择曲线最陡的位置作为正负样本的划分点。


  • 第二阶段:



特点:样本适中,特征较多,表现周期满足要求。


方法:耦合催收策略做样本清洗。


  • 第三阶段:



特点:样本充足,特征高质,表现周期充分。


方法:加入拒绝推断,使用催收结果码做样本清洗,有选择的做样本实验。


样本划分


时间划分(授信日 vs 账单日)vs 随机抽取 vs 其他规则,避免样本穿越(尤其是子模型)。


样本划分的变化


  • 第一阶段,Leave one hot;

  • 第二阶段,5-fold;

  • 第三阶段,OOT(out of time)(Pos/Neg)。


样本对模型体系的影响


  • 通用大模型(策略层划分)

  • 预授信模型 vs 审批模型

  • 分渠道分垂类模型

  • 流量方模型 vs 资方模型


最后是验证集和测试集的定义,如下图:



横坐标为训练集中正样本占比(保持负样本数量不变)或负样本占比(保持正样本数量不变),看测试集的指标变动趋势,评估训练集中样本数量是否充足。

3. 模型的优化过程


准备好了特征和样本,我们已经有了建立模型的基础。在金融领域我们面临的往往是最复杂的业务,但实际上我建议大家用最简单的模型。



AUC 本身描述了模型整体的表现效果,一般情况下 AUC 越大,那么它对风控策略的提升效果也越好。


KS:是否越大越好?不是的,实际上一个模型对实际业务的贡献取决于风控策略与风控模型的配合,模型对 cutoff 的选择和策略对 cutoff 的选择如果差异较大的话,KS 就没有太大意义了。


GINI 与 AUC 的关系如上图所示,两者用其中之一即可。



这里的建模流程比较简单,相关算法请参考其他文章,右边是分数映射的一个案例。每个公司都有自己的一套标准,或者网上有一些公开的数据,这里不细细介绍了。(此处为 2017 年的网络查得信息,不代表当前的真实情况)

4. 上线验证评估


最后是上线的评估验证,包括算法指标验证和业务指标验证。


首先要看的是模型的解释性强不强,主要看如下几点:


  • 特征权重:如 LR 里的 coefficient,GBDT 里的 Weight、Cover、Gain;

  • 样本集打分对照:如优质客群和次级客群的对照;

  • 业务逻辑合理性:这块前面有过介绍。



模型评审


首先是技术同学的算法指标验证:


  • KS 值在 Train、Test、OOT 上的提升与波动!

  • KS 值 @位置的偏移和稳定性!



  • PSI 的波动!

  • swap-in/out



然后是风控业务同学的指标验证:


  • 同通过率情况下违约率的下降;

  • 同违约率情况下通过率的提升;

  • 通过客群的额度波动;

  • 通过客群的用信率波动;

  • 通过客群的 GMV 波动。



这里列举了一些上线事故:


  • 特征穿越:时间、流程、label,这些情况都是大家应该尽量去避免的。

  • 特征扰动:比如社交好友数越来越多、个人信用分越来越高,模型不能经常更新特征参数,此时该做的是归一化,窗口化,正则化。归一化就是我的社交好友数在全国可以 rank 到第几万位,窗口化就是我们不看累积的好友,而只看样本最近一个月新增的好友,正则化就是我把一些特征做一些正则变换。

  • 特征中断:Backup 两个模型版本,随时可以切换,不会影响到业务运营。

  • 大规模实时计算:我们不可能每次都实时计算或者查询某个信息,可行的解决方法是定期的离线批量更新(有时会涉及到 model 重训)。


最后上线的时候建议大家一定要经过这样三个环节:


  • 离线校验

  • 线上校验,上线的时候线上和线下对比;

  • 小流量校验,然后再切换。


本文配套 PPT 下载


关注公众号,后台回复:【量化术


作者介绍:



苏晓林,数据平台架构师。2012 年毕业于中国科学院研究生院,历任网易数据研究员,微众银行数据科学家,百度金融数据智能部技术经理,数据模型团队负责人等职务。从 2015 年开始投入互联网金融行业,参与创建了微众银行早期的反欺诈策略、模型、贷后监控等核心风控工作。以腾讯大数据为依托,为互联网银行的远程开户、转账、放贷业务,解决了身份验证、欺诈识别等关键安全问题。并于 2016 年加盟百度金融,负责数据与模型团队。期间基于非金融大数据+机器学习,为信贷产品的获客、信用风险评估、贷后管理做出了重要贡献,该项工作获得了百度金融事业群季度之星团队奖。数据模型团队在金融科技输出、消费金融业务、资产证券化等业务上都提供了诸多数据建模和策略支持,并孵化出农行大脑思维引擎等重要项目,在互联网金融的数据科学领域积累了丰富的经验。


本文来自 苏晓林 在 DataFun 社区的演讲,由 DataFun 编辑整理。


2019-05-22 08:006571

评论

发布
暂无评论
发现更多内容

股票价格跨度

掘金安东尼

算法 10月月更

Docker | 容器数据卷详解

甜点cc

Docker 前端 10月月更

如何通过C#/VB.NET重命名Excel表格并设置选项卡颜色

在下毛毛雨

C# .net Excel 重命名工作表

细说JavaScript闭包

hellocoder2029

JavaScript

JavaScript知识点总结

木偶

前端 js 10月月更

基于网络安全的Docker逃逸

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

Spring Boot 应用使用 application.yml 和 application.properties 的区别

Jerry Wang

Java mvc spring 后端开发 10月月更

软件测试 | 测试开发 | 使用 Zabbix + Grafana 搭建服务器监控系统

测吧(北京)科技有限公司

测试

十年磨一剑,华为云数据灾备解决方案为你解决后顾之忧

科技之光

JS知识点梳理之作用域、作用域链、柯里化、闭包

hellocoder2029

JavaScript

你的下一个电脑桌面,为何是云桌面?

科技之光

万物皆可DAO?一文带你全方位解读DAO类型

One Block Community

区块链 开发者 治理 DAO web3、

及时恢复,华为云灾备数据解决方案让你无忧办公

科技之光

Hacker 资讯 | 10 月中旬区块链黑客松活动汇总

TinTinLand

创业 defi 区块链、 黑客马拉松 web3、

2022 云栖大会 | 开源人说预约:听百味技术人生,品激荡开源江湖

阿里云大数据AI技术

阿里云 开源

Wallys/IPQ4018/IPQ4028 2x2 2.4Ghz 2x2 5Ghz Industrial-grade //wifi5 Support 11ABGN/AC

wallys-wifi6

IPQ4018 IPQ4028

8K AV1视频解码大战:Intel神奇、NVIDIA差点、AMD无语

科技之家

js对象和原型、原型链的关系

hellocoder2029

JavaScript

一文详解MySQL事务底层原理,全是干货,推荐收藏

一灯架构

Java 10月月更

2022年10月《中国数据库行业分析报告》重磅发布!精彩抢先看

墨天轮

数据库 oceanbase Milvus 向量计算 向量数据库

可适配多企业需求,华为云等保合规安全解决方案选择灵活!

科技之光

80Gbps 双向带宽,120Gbps 疾速传输,英特尔携新一代 Thunderbolt 引领行业快步向前

科技之家

何为云管平台?有什么作用?哪家好?

行云管家

云计算 云主机 云管理 云成本

诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台

阿里云大数据AI技术

大数据 数据分析 企业号十月 PK 榜

深度解决企业传统办公痛点,华为云桌面使能云上办公!

科技之光

技术强、资源多,华为云等保合规解决方案助力企业快速过等保!

科技之光

2022 云栖大会 | 一体化大数据智能峰会预约开启

阿里云大数据AI技术

大数据 阿里云 开源

云堡垒机相关概念汇总说明-行云管家

行云管家

云计算 网络安全 数据安全 堡垒机

软件测试 | 测试开发 | 测试人生 | 疫情之下涨薪70%从手工转到测试开发,是种什么样的体验?

测吧(北京)科技有限公司

测试

“程”风破浪的开发者|OpenHarmony设备开发-开发板介绍

坚果

OpenHarmony 10月月更 “程”风破浪的开发者

全球累计用户达300万+,华为云桌面综合体验优秀!

科技之光

风险价值量化术—互金爆发期的风控技术实践_安全_DataFunTalk_InfoQ精选文章