10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

基于 Logistict 回归的评分卡模型

  • 2020-03-22
  • 本文字数:1970 字

    阅读完需:约 6 分钟

基于Logistict回归的评分卡模型

1 评分卡分类


A 卡(Applicationscore card)新客户申请审批


  • 更准确地评估申请人的未来表现(违约率),降低坏帐率;

  • 加快(自动化)审批流程, 降低营运成本;

  • 增加审批决策的客观性和一致性,提高客户满意度;


B 卡(Behaviorscore card)现有客户管理


  • 更好的客户管理策略, 提高赢利;

  • 减少好客户的流失;

  • 对可能拖欠的客户,提早预警;


C 卡(Collectionscore card)早期催收


  • 优化催收策略,提高欠帐的回收率;

  • 减少不必要的催收行为,降低营运成本。

2 模型开发全流程

用一张图为大家展示,量化团队分析师开发评分卡模型的全流程,以及具体实现方式:



Step1:变量初选


通过等频分箱或最优分箱离散原始数据,计算 IV 值,剔除预测能力差的指标。


  • 信息值(information value,简称”IV”)是常用的进行自变量筛选的指标,计算简单,并且有经验的判断法则,IV 值的计算公式为:





Step2:变量剔除


通过变量聚类或者计算相关系数的方法剔除变量,这一步主要目的是解决多重共线性问题。多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。


Step3:数据离散化


数据离散化的目的是降低异常值的影响,同时增加模型的可解释性,通过 BESTKs、卡方合并、决策树等有监督算法将连续变量离散化几个区间,然后进行 WOE 转换。


  • 证据权重(Weight of Evidence,简称“WOE”)



WOE 是对原始自变量的一种编码形式,要对一个变量进行 WOE 编码,需要首先把这个变量进行分组处理(也叫离散化、分箱)。



Step4:初步建模


将原始指标用 WOE 进行替换后,用 logistic 回归估计参数,并剔除参数估计为负的变量。


下面让我们来了解一下信用评分卡模型所依赖的 Logistic 回归算法。何为“回归”呢?当有一些数据点,用一条直线对这些点进行拟合(该直线称为最佳拟合直线),这个拟合过程就叫回归。那么,利用 Logistic 回归进行分类的主要思想就是根据现有数据对分类边界线建立回归公式,以此进行分类。“回归”源于最佳拟合,即使用最优化算法,找到最佳拟合参数集。


  • Logistic 回归的实现:对于输入特征,每个特征乘以一个回归系数,将所有结果值相加带入 Sigmoid 函数中,从而得到一个 0~1 之间的数值,根据实际情况设定相关阈值,从而达到预测的目的。

  • 最优化算法:如何找到最优回归系数,是 Logistic 回归的关键问题。



即:找到上式的w\dot机器学习中常用的最优化算法有:梯度下降法(GradientDescent)、牛顿法和拟牛顿法(Newton’s method & Quasi-NewtonMethods)、共轭梯度法(Conjugate Gradient)等等,接下来简单介绍梯度下降法。


  • 梯度下降法(Gradient Descent):梯度下降即沿着某函数的梯度方向,找到该函数的最小值,如果梯度记为▽,则函数 f(x,y)的梯度为:



则梯度下降算法的迭代公式为:,其中,为步长。


Step5:人工干预


根据指标的业务意义、上下限、人数占比、违约比例调整分箱规则,即业务干预。


Step6:WOE 更新


人工干预后,得到新的分箱,根据新分箱,更新 WOE。


Step7:模型更新


更新完 WOE 之后,利用新的 WOE 值估计回归参数。


Step8:分数转化


根据 Logistic 回归估计的参数、分箱的 WOE 来确定每个区间的得分。


Step9:模型效果评估


我们利用 AUC、KS 等指标评估模型的预测能力。


  • AUC(Area Under Curve)


AUC 实际上就是 ROC 曲线下的面积,ROC 曲线反映了分类器的分类能力,结合考虑了分类器输出概率的准确性,AUC 量化了 ROC 曲线的分类能力,越大分类效果越好,输出概率越合理。


  • KS (Kolmogorov-Smirnov)


K-S 统计量被应用于信用评级模型主要是为了验证模型对违约对象的区分能力,是表现模型区分能力的验证指标;通常,如果模型的 K-S 统计量越大,表明模型区分正常客户和违约客户的能力越强。


Step10:模型监控


  • PSI (population stability index)


系统稳定性指数,主要考察了模型预测结果的稳定性,通过对建模样本和监控样本中客户的评分或评级分布的比较来判断模型预测结果的稳定性。系统稳定性指数越小,越稳定,表明监控样本的分数的分布情况和建模样本中的情况越相似,可以预期模型在监控样本中的性能表现和建模样本中的性能表现会很接近。


Step11:评分


下面的小示例,简单为大家展示评分卡及其计分模式:



如果该模型的基础分是 50 分,比如有个客户,大专毕业,男性,拥有自有住房,工作 10 年以上,那么他的分数就应该是:Score=50+14+9+24+12=109。

3 总结

本文介绍了基于 Logistic 回归的评分卡模型的实现流程,介绍了 Logistic 算法、IV 值和 WOE,以及评价模型的指标 AUC、ks 值、PSI 等。在实际应用中,评分卡模型的作用日渐突出。量化团队根据业务需要开发各种不同评分卡模型,并尝试不同算法建模,试图更加科学、准确地构建模型,降低误判率,增加审批的客观性,提高客户的满意度。


2020-03-22 21:042458

评论

发布
暂无评论
发现更多内容

MobTech 秒验|助力预热618

MobTech袤博科技

500行代码手写docker开篇-goland远程编译环境配置

蓝胖子的编程梦

Docker 容器 云原生 k8s 命名空间

上海丨阿里云 Serverless 技术实战营邀你来玩!

Serverless Devs

阿里云 Serverless 中间件

原型设计Axure RP 9中文授权码【Mac/win】

Rose

Axure RP 9汉化 Axure RP 9授权码 产品原型设计工具 axure rp9下载 axure rp9安装教程

「聊天机器人构建、智能文档问答」大模型应用开发实操课程来了

飞桨PaddlePaddle

AIGC Prompt

完整版来了!阿里Dubbo技术负责人准备的源码教程,很有大厂风格

Java你猿哥

Java 架构 dubbo ssm

DevEco Studio 3.1 Release | 动态共享包开发,编译更快,包更小

HarmonyOS开发者

HarmonyOS

苹果系统更新:MacOS 11-13.x(PKG系统安装包及IPSW固件)

Rose

mac系统 macOS 13 Ventura 苹果最新系统 苹果系统下载

阿里云AnalyticDB(ADB) + LLM:构建AIGC时代下企业专属ChatBot

科技热闻

Photoshop 2023 如何切换语言?

Rose

Photoshop 2023下载 如何切换PS语言 PS 2023破解

全靠这份阿里大佬的“Java进阶面试手册”收获蚂蚁offer

Java你猿哥

Java kafka Spring Boot Netty java面试

【5.12-5.19】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

如何进行测试分析与设计-HTSM启发式测试策略模型 | 京东云技术团队

京东科技开发者

测试 测试策略 企业号 5 月 PK 榜 HTSM

为什么 GPU 更适用于时域算法,而 CPU 更适用于频域算法?

思茂信息

gpu cpu 计算机 电脑 电脑硬件

旭阳数字郗维宝:数智化转型助力焦化企业打破行业困境

用友BIP

升级企业数智化底座 2023用友技术大会

【GPT-4理论篇-1】GPT-4核心技术探秘 | 京东云技术团队

京东科技开发者

人工智能 openai GPT-4 企业号 5 月 PK 榜

LED显示屏技术升级方向介绍

Dylan

技术 升级 LED显示屏

上线半天下载量破100W!美团大佬的Java性能调优实战手册,超详细

Java你猿哥

Java JVM 多线程 ssm 性能调优

深入浅出 OkHttp 源码解析及应用实践

vivo互联网技术

okhttp 拦截器 源代码

Java性能分析工具JProfiler注册码下载

Rose

JProfiler激活码 JProfiler Mac永久激活版 Java 分析器 JProfiler中文版 JProfiler下载

常用的表格检测识别方法 - 表格区域检测方法(下)

合合技术团队

人工智能 文字识别 表格识别 表格检测

VM虚拟机 v13.0.2激活版 for Mac许可秘钥

Rose

VMware Fusion Pro 13 VM虚拟机破解版 Mac虚拟机 VMware Fusion激活秘钥

RocketMQ你不得不了解的 Rebalance机制源码分析

Java你猿哥

Java 源码 RocketMQ ssm client

【实践篇】教你玩转JWT认证---从一个优惠券聊起 | 京东云技术团队

京东科技开发者

分布式 JWT 企业号 5 月 PK 榜

龙蜥开发者说:构建软件包?不,是构建开源每一个角落!| 第 20 期

OpenAnolis小助手

开源 操作系统 龙蜥社区 开发者说 优秀贡献奖

IDO&IEO盘点,包括PoseiSwap等即将面向市场的潜力打新活动

西柚子

为世界第一大癌症高效研发首创新药,AI大模型助力药物研发叩开未来之门

飞桨PaddlePaddle

百度飞桨

什么是研发 Lead Time?我悟了!

LigaAI

DevOps 敏捷开发 研发速率 研发效能管理 企业号 5 月 PK 榜

用好kafka,你不得不知的那些工具

JAVA旭阳

Java kafka

基于Logistict回归的评分卡模型_文化 & 方法_京东数字科技产业AI中心_InfoQ精选文章