缺失数据下的两阶段信用评分模型——基于互联网消费金融数据的研究

2020-12-13 管理员

题名:缺失数据下的两阶段信用评分模型——基于互联网消费金融数据的研究

作者:朱建平; 郑陈璐; 方匡南

摘要:由于金融机构与信贷申请者间存在信息不对称问题,金融信用数据中数据缺失的情况普遍存在,而数据缺失模式及缺失程度会影响信用风险评估模型的预测准确性。针对复杂缺失模式、缺失程度高的信用数据,本文提出两阶段的信用评分模型。该模型能够利用所有的带缺失的数据建模。模型第一阶段根据数据缺失模式,采用Logistic回归与SVM模型对每种缺失模式分别建子模型,对每种缺失模式构建一个模型组,模型组中的各子模型保留了原始带缺失数据的样本量及变量;第二阶段对于每个模型组,基于Jackknife准则的交叉验证方法确定各模型组中子模型的最优权重,并将训练的模型组用于新样本的预测。通过模拟发现,两阶段模型能够提升Logistic与SVM模型的预测效果,且当数据缺失程度增高时,模型效果提升幅度增大。互联网消费金融数据分析结果表明,两阶段信用评分模型能够选择各缺失模式下影响互联网消费金融信用评分的重要变量组合,相比于单一Logistic与SVM模型,两阶段模型的效果更优。

关键词:缺失数据; 信用评分; 互联网消费金融

刊名:数理统计与管理

发表日期:2020

>>点击转到CNKI文章页面