【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

风险价值量化术—互金爆发期的风控技术实践

  • 2019-05-22
  • 本文字数:3980 字

    阅读完需:约 13 分钟

风险价值量化术—互金爆发期的风控技术实践

本次分享分为两部分:业务和技术。



把业务和技术分称为务虚和务实并没有褒贬之义。只是从技术的视角来说,在技术实现之前,我们需要把业务弄明白,否则容易做错方向,浪费了团队的时间和精力。

一. 业务部分

1. 哪些是风控要解决的问题


首先是业务方面,这些年来我们的风控同学都在解决什么问题。


(1)身份认证


传统方式:


  • 身份证

  • 现场拍照


现在大部分互金公司的做法:


  • 账号体系


(同业接入→其他业务共享→市场解决方案)


  • 人脸识别

  • 活体验证


我们需要解决的问题


  • 虚假资料

  • 第三方欺诈

  • 本人欺诈

  • 账户盗用


对应金融机构的主要业务有


  • 理财

  • 转账

  • 支付

  • 消费

  • 信贷


本文聚焦在信贷这个业务下,风险价值量化的作用和方法。


(2)获取客户



我们常见的金融业务获客方式如上,左边为传统获客,右边是互金领域的获客方式。为什么我们先提到获客?因为在获客过程中,金融业务风险因素就已经在其中起到重要的影响作用。


我们认为风控越早参与到业务中越好,最好是立项的时候就有决策权,这里考虑的因素如下:


  • 有效的转化和客单价一样的重要;转化率太高太低都不行;因为风控成本要计算到获客成本中来;(我们在日常的团队和业务管理上经常有一个误区,就是把 KPI 拆的太散太细,以至于不同团队的目标是冲突的);

  • 可识别的客群规模决定了该方案是否可以规模化;

  • 不稳定的客群锻炼不出万能的策略,高手都是提前一招布局;我们需要用差异化的策略服务差异化的用户;(物以类聚,你肯定不愿意跟资质比你低的人平摊各项成本)

  • 充分竞争的市场里,整合资金、客户、产品、风控的能力就会产生价值。


(3)产品的定位(金额、期限、利率、循环、增信)


风险量化能力在如下几个方面,影响着产品的定位


  • 大额产品看客户资质、重视准入规则,小额产品则研究概率、重视用户信用评级;

  • 长期产品要找准个人还款能力的门槛,短期产品则着重把握个人的还款意愿(及容忍尺度的把控);

  • 银行胜在资金成本,消金赢在风控能力,小贷活在流量吸取(金主的不同在于各自优势的差异);

  • 贷后风控能力决定了资产循环的质量;

  • 增信的标的资产能否做兜底,是解决劣后风险的关键;


(4)客群的定位


  • 用户画像:是谁,在哪儿,什么时候,用哪些产品(被讲烂的 5W);合适的时候出现在合适的场景(瑞幸的线下广告投放就是一个成功的案例)

2. 风控的武器有哪些?


各位在金融机构的同事都知道,公司内部我们常用的名称是风险管理部,而非风险控制部,我们的目标不是完全杜绝风险,而是把它控制在我们 ROI 最大的区间。之所以叫风险管理就是让大家用 ROI 的思想来解决问题:


Investment 投入:公司内部有什么资源,外面能买到什么服务,客户能够提供给你什么材料,我们能制造点什么工具。它们都是数据,在风控解决信息不对称的过程中,这些数据就是我们所需信息的载体。


(1)内部数据整理



首先是内部数据的有效利用,图中为银行和互联网公司的常用特征,其中:


银行:防作弊、稳定性、质量、相关性


互联网:丰富度、数量、覆盖率


其他部门的特征数据:例如社交、广告、LBS 等部门的已有特征,其中有类似于社交网络活跃度、广告客群的用户标签;电商产品的积分值;BBS 站内用户等级之类现成的特征;


公司级的大数据共享:大公司的数据中心都有个人兴趣、偏好、习惯、脱敏属性的用户画像;


最后一部分则是通过金融部门自己的专家团队来挖掘金融场景相关的特征,如收入、支出、资产、负债的离散分级标签,BATJ、TMD 等企业都有足够的技术能力和资源完成这项工作。


(2)特征挖掘



在上节例举的各类数据中,我们的工作主要集中在自研金融特征上。流程如下:


首先是专家 Pattern 扩展:比如 BAT 都有自己的 LBS 信息,我们可以基于家庭住址做一个特征,假如你住在一个均价 10W 的小区,无论自有还是租赁,你的收入能力应该都不错。


其次是特征工程:主要指怎么样用不同的特征来做加工组合,然后跟抽象概念能够关联起来。


最后是埋点衍生:当我所有数据都没办法验证这件事情的时候,可以在 APP 中加一些合规的工具,来获取一些有用的埋点序列数据。


(3)外部接口接入及数据合作



(4)数据的进一步扩充


3. 找钉子就是做生态


最开始互金领域是没有模型体系的,银行里有 A 卡、B 卡和 C 卡,我们在互金行业成长的过程中慢慢的把适合它的模型体系建立起来,结构上我们可以分成几个事件时点:1.事前、2.申请、3.交易、4.事后。然后我们针对各产品来做 A、B、C 卡。


4. 我在为谁服务


读者中有很多朋友是做风控业务的,那么一个很重要的问题就是,你需要知道你是在为谁服务,也就是你的视角 POV。




二. 技术部分


介绍了业务背景和我们面对的问题之后,我们才来解释这些问题是怎样解决的。原因在于我们要先想得清楚,然后才能做得明白;业务和技术的关系是方向和数量的关系,方向错了,技术越好,那么结果可能越糟。


下面介绍的建模过程不只限于风控,在获客,导流,分发,催收,资产打包等环节都可以使用。

1. 特征的搭建逻辑



以上大部分的概念相信大家都不陌生,这里简单说明一下 Embedding 的作用,它是我们用来从高维稀疏的空间里,加工出一系列可解释的、低维度的特征集合。



左边为初版模型搭建时需要考虑的特征评估指标,右边是新的产品上线或者老产品模型迭代的时候参考的特征评估方法。



在特征组合方面,我们主要可以采用俩种方式来将非线性特征转化为线性特征:GBDT 和 Random Forest,他们都会生成右边绿色和红色方框中的决策树,这时每一个叶子节点,就已经代表用户画像的某些方面。细节请参考:


https://dl.acm.org/citation.cfm?id=2648589

2. 样本的积累过程


样本的积累过程包括


  • 样本替代

  • 样本划分

  • 样本清洗



首先是我们在不同时期建模过程中样本定义的变化


  • 第一阶段:



特点:样本少,特征多,表现周期短,有异构样本。


方法:按照 DPD 的走势,选择曲线最陡的位置作为正负样本的划分点。


  • 第二阶段:



特点:样本适中,特征较多,表现周期满足要求。


方法:耦合催收策略做样本清洗。


  • 第三阶段:



特点:样本充足,特征高质,表现周期充分。


方法:加入拒绝推断,使用催收结果码做样本清洗,有选择的做样本实验。


样本划分


时间划分(授信日 vs 账单日)vs 随机抽取 vs 其他规则,避免样本穿越(尤其是子模型)。


样本划分的变化


  • 第一阶段,Leave one hot;

  • 第二阶段,5-fold;

  • 第三阶段,OOT(out of time)(Pos/Neg)。


样本对模型体系的影响


  • 通用大模型(策略层划分)

  • 预授信模型 vs 审批模型

  • 分渠道分垂类模型

  • 流量方模型 vs 资方模型


最后是验证集和测试集的定义,如下图:



横坐标为训练集中正样本占比(保持负样本数量不变)或负样本占比(保持正样本数量不变),看测试集的指标变动趋势,评估训练集中样本数量是否充足。

3. 模型的优化过程


准备好了特征和样本,我们已经有了建立模型的基础。在金融领域我们面临的往往是最复杂的业务,但实际上我建议大家用最简单的模型。



AUC 本身描述了模型整体的表现效果,一般情况下 AUC 越大,那么它对风控策略的提升效果也越好。


KS:是否越大越好?不是的,实际上一个模型对实际业务的贡献取决于风控策略与风控模型的配合,模型对 cutoff 的选择和策略对 cutoff 的选择如果差异较大的话,KS 就没有太大意义了。


GINI 与 AUC 的关系如上图所示,两者用其中之一即可。



这里的建模流程比较简单,相关算法请参考其他文章,右边是分数映射的一个案例。每个公司都有自己的一套标准,或者网上有一些公开的数据,这里不细细介绍了。(此处为 2017 年的网络查得信息,不代表当前的真实情况)

4. 上线验证评估


最后是上线的评估验证,包括算法指标验证和业务指标验证。


首先要看的是模型的解释性强不强,主要看如下几点:


  • 特征权重:如 LR 里的 coefficient,GBDT 里的 Weight、Cover、Gain;

  • 样本集打分对照:如优质客群和次级客群的对照;

  • 业务逻辑合理性:这块前面有过介绍。



模型评审


首先是技术同学的算法指标验证:


  • KS 值在 Train、Test、OOT 上的提升与波动!

  • KS 值 @位置的偏移和稳定性!



  • PSI 的波动!

  • swap-in/out



然后是风控业务同学的指标验证:


  • 同通过率情况下违约率的下降;

  • 同违约率情况下通过率的提升;

  • 通过客群的额度波动;

  • 通过客群的用信率波动;

  • 通过客群的 GMV 波动。



这里列举了一些上线事故:


  • 特征穿越:时间、流程、label,这些情况都是大家应该尽量去避免的。

  • 特征扰动:比如社交好友数越来越多、个人信用分越来越高,模型不能经常更新特征参数,此时该做的是归一化,窗口化,正则化。归一化就是我的社交好友数在全国可以 rank 到第几万位,窗口化就是我们不看累积的好友,而只看样本最近一个月新增的好友,正则化就是我把一些特征做一些正则变换。

  • 特征中断:Backup 两个模型版本,随时可以切换,不会影响到业务运营。

  • 大规模实时计算:我们不可能每次都实时计算或者查询某个信息,可行的解决方法是定期的离线批量更新(有时会涉及到 model 重训)。


最后上线的时候建议大家一定要经过这样三个环节:


  • 离线校验

  • 线上校验,上线的时候线上和线下对比;

  • 小流量校验,然后再切换。


本文配套 PPT 下载


关注公众号,后台回复:【量化术


作者介绍:



苏晓林,数据平台架构师。2012 年毕业于中国科学院研究生院,历任网易数据研究员,微众银行数据科学家,百度金融数据智能部技术经理,数据模型团队负责人等职务。从 2015 年开始投入互联网金融行业,参与创建了微众银行早期的反欺诈策略、模型、贷后监控等核心风控工作。以腾讯大数据为依托,为互联网银行的远程开户、转账、放贷业务,解决了身份验证、欺诈识别等关键安全问题。并于 2016 年加盟百度金融,负责数据与模型团队。期间基于非金融大数据+机器学习,为信贷产品的获客、信用风险评估、贷后管理做出了重要贡献,该项工作获得了百度金融事业群季度之星团队奖。数据模型团队在金融科技输出、消费金融业务、资产证券化等业务上都提供了诸多数据建模和策略支持,并孵化出农行大脑思维引擎等重要项目,在互联网金融的数据科学领域积累了丰富的经验。


本文来自 苏晓林 在 DataFun 社区的演讲,由 DataFun 编辑整理。


2019-05-22 08:006555

评论

发布
暂无评论
发现更多内容

一文详解RocketMQ-Spring的源码解析与实战

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 4 月 PK 榜

GitHub排名第一《lntellij IDEA软件开发与应用实战手册》限时开源

Java你猿哥

Java spring ssm IDEA

阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

阿里云大数据AI技术

深度学习 分布式系统 开源项目 企业号 4 月 PK 榜

java 开发 SSM 框架整合之 MyBatis 动态 SQL

Java你猿哥

Java sql mybatis SSM框架 if

ThreadLocal源码分析

做梦都在改BUG

Java 源码 多线程 ThreadLocal

简直人生外挂,直接涨薪25K,跪谢这份Java性能调优实战宝典

做梦都在改BUG

Java 性能优化 JVM 性能调优

中国浙江|浙江省级人才计划申报指南来了!

科兴未来News

双创比赛

掌握动态规划,从“什么问题适合用”及“解题思路”入手

华为云开发者联盟

人工智能 AI 华为云 华为云开发者联盟 企业号 4 月 PK 榜

GitHub爆款!Java性能优化:轻松道破软件性能调优,不止搞定JVM

Java你猿哥

Java JVM Java性能优化

面试官:介绍一下什么是缓存雪崩、缓存击穿、缓存穿透?

Java你猿哥

redis 面试题 缓存穿透 缓存击穿 缓存雪崩

每个Java程序员都必须知道的四种负载均衡算法

做梦都在改BUG

Java 负载均衡 负载均衡算法

JSF源码分析(一)

京东科技开发者

spring jsf 企业号 4 月 PK 榜

阿里“妈宝级”之作,Kubernetes原理剖析与实战应用手册,太全了

做梦都在改BUG

Java Kubernetes k8s

商业堡垒机是什么意思?有免费版的商业堡垒机吗?

行云管家

网络安全 堡垒机 运维审计

【堡垒机】免费堡垒机介绍以及下载看这里!

行云管家

堡垒机 运维审计 免费 小微企业

共享电单车生产厂家如何选择

共享电单车厂家

共享电动车厂家 共享电单车生产 共享电动车厂商 本铯智能共享电动车商家

阿里p8强烈推荐这部《从零开始学架构》堪称GitHub最强!

Java你猿哥

Java 架构 ssm 架构设计

终于有人把动态规划、冒泡排序、二叉树、链表、栈全部讲清楚了

Java你猿哥

数据结构 算法 二叉树 排序 LeetCode算法

已献出膝盖!GitHub上的宝藏级SpringBoot核心宝典,讲得太清晰了

做梦都在改BUG

Java 架构 微服务 Spring Boot 框架

The Beacon链游NFT系统开发技术

薇電13242772558

NFT

如何用DataTester设计并创建可视化实验

字节跳动数据平台

AB testing实战 A/B测试 企业号 4 月 PK 榜

超简单!Java 项目自动生成接口文档教程

Apifox

Java 接口文档 API 文档生成 自动生成

我认真总结并分析了Spring事务失效的十种常见场景

做梦都在改BUG

Java spring Spring事务

阿里开发实录:慢SQL拖垮数据库并引发故障

Java永远的神

数据库 sql 程序员 后端 架构师

华为云开源项目OpenTiny中TinyVue有什么优势?

英勇无比的消炎药

开源 Vue 组件库

ARB链质押挖矿代币空投游戏dapp系统开发合约定制

开发微hkkf5566

拿来吧你!保姆级Docker底层原理及源码实战手册,上线点赞破10W

做梦都在改BUG

Java Docker 容器

阿里P8架构师珍藏版:SpringBoot入门到进阶笔记(面面俱到,太全了)

采菊东篱下

编程 微服务

《人间失格》

后台技术汇

三周年连更 人间失格

基于STM32设计的音乐播放器

DS小龙哥

三周年连更

Android C++系列:C++11函数特殊特性

轻口味

c++ 三周年连更

风险价值量化术—互金爆发期的风控技术实践_安全_DataFunTalk_InfoQ精选文章