Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (6): 80-90     https://doi.org/10.11925/infotech.2096-3467.2019.1285
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于卷积神经网络的客户信用评估模型研究*
刘伟江1,2,魏海2(),运天鹤2
1吉林大学数量经济研究中心 长春 130012
2吉林大学商学院 长春 130012
Evaluation Model for Customer Credits Based on Convolutional Neural Network
Liu Weijiang1,2,Wei Hai2(),Yun Tianhe2
1Center for Quantitative Economics, Jilin University, Changchun 130012, China
2Businesses School, Jilin University, Changchun 130012, China
全文: PDF (912 KB)   HTML ( 18
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 分析客户贷款信息基础上,抽取贷款客户特征并成像,利用卷积神经网络构建客户信用模型,提高客户网贷违约预测准确率。【方法】 基于Lending Club客户信用数据,将反映客户信息4个方面的特征变量相互连接综合成灰度图,建立基于卷积神经网络的客户信用评估模型。【结果】 实验结果表明,基于卷积神经网络的新模型在信用评估实验中特异度为99.4%,灵敏度为68.7%,G-mean值为82.7%,F1值为81.4%,AUC值为99.5%,与传统以特征处理为基础的信用评估模型相比均有显著提升。【局限】 仅对比分析有限的信用评估模型,未对不平衡数据的影响做进一步研究。【结论】 基于卷积神经网络的网贷客户信用评估模型,在客户违约特征信息提取和违约可能性的预测上具有良好性能。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘伟江
魏海
运天鹤
关键词 卷积神经网络指标成像信用评估信息值主成分分析法    
Abstract

[Objective] This paper analyzes customer loan information, and extracts their characteristics, aiming to more effectively predict customer defaults of online loans. [Methods] First, we collected customer credit data from Lending Club. Then, we integrated the characteristic variables from four aspects of customer information and created a grayscale map. Finally, we established a customer credit evaluation model based on convolutional neural networks. [Results] The proposed model had specificity of 99.4%, sensitivity of 68.7%, G-mean value of 82.7%, F1 value of 81.4% and AUC value of 99.5%. The performance of our new model was much better than those credit models based on feature processing. [Limitations] We only investigated the performance of a few models. More research is needed to study the impacts of unbalanced data. [Conclusions] The proposed model effectively predicts probability of customer defaults.

Key wordsConvolutional Neural Networks    Indicator Imaging    Credit Evaluation    Information Value    PCA
收稿日期: 2019-11-29      出版日期: 2020-07-07
ZTFLH:  TP393 G250  
基金资助:*本文系教育部人文社会科学重点研究基地项目“新常态下促进经济稳定增长的要素配置与产业升级政策研究”(16JJD790015);国家自然科学基金项目“中国经济周期波动的转折点识别、阶段转换及预警研究”(71573105);2020年度吉林大学东北振兴发展专项研究课题“大数据背景下吉林省外来投资情况动态监测及新冠后的对策建议”的研究成果之一(20ZXZ01)
通讯作者: 魏海     E-mail: weihai94@163.com
引用本文:   
刘伟江,魏海,运天鹤. 基于卷积神经网络的客户信用评估模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 80-90.
Liu Weijiang,Wei Hai,Yun Tianhe. Evaluation Model for Customer Credits Based on Convolutional Neural Network. Data Analysis and Knowledge Discovery, 2020, 4(6): 80-90.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.1285      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I6/80
Fig.1  结合卷积神经网络的客户信用评估研究流程
Fig.2  本文设计的CNN网络结构
IV值 预测能力
[0,0.02) 无预测能力
[0.02,0.10) 预测能力低
[0.10,0.30) 预测能力中
[0.30,+∞) 预测能力高
Table 1  IV值对应预测能力区间
Fig.3  样本指标数据图像化
指标变量 变量名称 IV值 含义
贷款信息 loan_amnt 0.561 借款人申请的贷款金额
int_rate 0.724 贷款利率
偿付能力 annual_inc 0.560 借款人在注册期间自行报告的年收入
dti 0.333 使用借款人的总债务偿还总额(不包括抵押贷款和要求的LC贷款)除以借款人自我报告的月收入计算的比值
tot_cur_bal 0.555 所有账户的当前总余额
il_util 0.685 所有固定账户的总流量余额/信用额度的比率
max_bal_bc 0.710 所有周转账户的最大当前余额
acc_open_past_24mths 0.488 过去24个月的消费额
bc_open_to_buy 0.355 银行卡上可用于购买的资金
mort_acc 0.314 抵押账户数量
num_actv_rev_tl 0.560 当前活跃的循环交易数量
num_bc_tl 0.333 银行卡账户数量
installment_feat 0.306 客户每月还款支出占月收入的比值
历史信贷 open_acc 0.489 借款人信用档案中的未结信用额度
all_util 0.534 所有交易均衡信贷限额
total_bal_il 0.394 所有分期付款账户的当前总余额
revol_bal 0.780 总信贷周转余额
revol_util 0.564 循环利用率,或借款人相对于所有可用循环信贷使用的信贷额度
pct_tl_nvr_dlq 0.489 从未拖欠交易百分比
历史申请 mo_sin_old_il_acct 0.577 自最早开立银行分期账户以来的月数
mo_sin_old_rev_tl_op 0.441 自最早的循环账户开始以来的月数
mo_sin_rcnt_rev_tl_op 0.349 自最近一次的循环账户开通以来的月数
mo_sin_rcnt_tl 0.461 自最近一次开户以来的月数
mths_since_recent_bc 0.561 自最近一次开立银行卡账户以来的月数
mths_since_recent_inq 0.724 自最近的调查以来的月数
mths_since_rcnt_il 0.604 自最近的分期付款账户开通以来的月数
Table 2  指标变量体系
模型 参数或结构设置
LeNet-5 参考图1结构
BP神经网络 采用传统三层BP神经网络,参数设定参考文献[19]
决策树 max_depth:7
支持向量机 kernal:rbf,c:100,gamma:0.01
随机森林 max_depth:8,min_samples_leaf:4
Logistic回归 c:0.1,penalty:l1
Table 3  机器学习模型参数设置(部分)
真实情况 预测结果
正例 反例
正例
(Positive)
真正例
(True Positive,FP)
假反例
(False Negative,FN)
反例
(Negative)
假正例
(False Positive,FP)
真反例
(True Negative,FN)
Table 4  混淆矩阵
特征处理方法 模型方法 灵敏度 特异度 查准率
LeNet-5 0.687(1) 0.994(1) 0.998(1)
基于信息价值特征处理 BP神经网络 0.616 0.723 0.695
决策树 0.625 0.706 0.679
支持向量机 0.657(3) 0.751 0.724
随机森林 0.663(2) 0.717 0.744
Logistic回归 0.617 0.649 0.635
基于PCA特征处理 BP神经网络 0.648 0.889(3) 0.946(3)
决策树 0.636 0.839 0.911
支持向量机 0.657(3) 0.911(2) 0.956(2)
随机森林 0.641 0.872 0.930
Logistic回归 0.648 0.889(3) 0.656
Table 5  模型正负样本识别性能
特征处理方法 模型方法 G-mean F1 AUC
LeNet-5 0.827(1) 0.814(1) 0.995(1)
基于信息价值
特征处理
BP神经网络 0.668 0.653 0.715
决策树 0.665 0.651 0.724
支持向量机 0.703 0.689 0.668
随机森林 0.705 0.701 0.778
Logistic回归 0.633 0.626 0.747
基于PCA
特征处理
BP神经网络 0.759(3) 0.769(3) 0.816
决策树 0.730 0.749 0.837
支持向量机 0.773(2) 0.778(2) 0.904(2)
随机森林 0.748 0.759 0.865
Logistic回归 0.759(3) 0.652 0.880(3)
Table 6  模型综合性能评估对比
[1] 蒋辉, 马超群, 许旭庆, 等. 仿EM的多变量缺失数据填补算法及其在信用评估中的应用[J]. 中国管理科学, 2019,27(3):11-19.
[1] ( Jiang Hui, Ma Chaoqun, Xu Xuqing, et al. An EM-similar Imputation Algorithm for Multivariable Data Missing and Its Application in Credit Scoring[J]. Chinese Journal of Management Science, 2019,27(3):11-19.)
[2] 肖进, 刘敦虎, 顾新, 等. 银行客户信用评估动态分类器集成选择模型[J]. 管理科学学报, 2015,18(3):114-126.
[2] ( Xiao Jin, Liu Dunhu, Gu Xin, et al. Dynamic Classifier Ensemble Selection Model for Bank Customer’s Credit Scoring[J]. Journal of Management Sciences in China, 2015,18(3):114-126.)
[3] Altman E I. Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy[J]. The Journal of Finance, 1968,23(4):589-609.
doi: 10.1111/j.1540-6261.1968.tb00843.x
[4] Wiginton J C. A Note on the Comparison of Logit and Discriminant Models of Consumer Credit Behavior[J]. Journal of Financial Quantitative Analysis, 1980(15):757-770.
[5] 吴冲, 夏晗. 基于支持向量机集成的电子商务环境下客户信用评估模型研究[J]. 中国管理科学, 2008,16(S1):362-367.
[5] ( Wu Chong, Xia Han. Study of Customer Credit Evaluation Under E-commerce Based on Support Vector Machine Ensemble[J]. Chinese Journal of Management Science, 2008,16(S1):362-367.)
[6] Blanco A, Pino-Mejías R, Lara J, et al. Credit Scoring Models for the Microfinance Industry Using Neural Networks: Evidence from Peru[J]. Expert Systems with Applications, 2013,40(1):356-364.
doi: 10.1016/j.eswa.2012.07.051
[7] Chen F L, Li F C. Combination of Feature Selection Approaches with SVM in Credit Scoring[J]. Expert Systems with Applications, 2010,37(7):4902-4909.
doi: 10.1016/j.eswa.2009.12.025
[8] 熊志斌, 吴维烨. 基于深度信念网络的信用评估研究[J]. 科研信息化技术与应用, 2019,10(3):28-36.
[8] ( Xiong Zhibing, Wu Weiye. Credit Evaluation Research Based on Deep Belief Networks[J]. E-science Technology & Application, 2019,10(3):28-36.)
[9] 吴星泽. 财务危机预警研究:存在问题与框架重构[J]. 会计研究, 2011(2):59-65,97.
[9] ( Wu Xingze. Problems on Research of Predicting Financial Distress and Framework Reconstructure[J]. Accounting Research, 2011(2):59-65, 97.)
[10] He K M, Zhang X Y, Ren S Q, et al. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. 2015: 1026-1034.
[11] Sun S N, Zhang B B, Xie L, et al. An Unsupervised Deep Domain Adaptation Approach for Robust Speech Recognition[J]. Neurocomputing, 2017,257:79-87.
doi: 10.1016/j.neucom.2016.11.063
[12] Williamson D S, Wang D L. Time-frequency Masking in the Complex Domain for Speech Dereverberation and Denoising[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017,25(7):1492-1501.
doi: 10.1109/TASLP.2017.2696307 pmid: 30112422
[13] Zhang Y, Marshall I, Wallace B C. Rationale-augmented Convolutional Neural Networks for Text Classification [C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016: 795-804.
[14] 李慧, 柴亚青. 基于卷积神经网络的细粒度情感分析方法[J]. 数据分析与知识发现, 2019,3(1):95-103.
[14] ( Li Hui, Chai Yaqing. Fine-Grained Sentiment Analysis Based on Convolutional Neural Network[J]. Data Analysis and Knowledge Discovery, 2019,3(1):95-103.)
[15] Hosaka T. Bankruptcy Prediction Using Imaged Financial Ratios and Convolutional Neural Networks[J]. Expert Systems with Applications, 2019,117:287-299.
doi: 10.1016/j.eswa.2018.09.039
[16] Lencun Y, Bottou L, Bengio Y, et al. Gradient-Based Learning Applied to Document Recognition[J]. Proceedings of the IEEE, 1998,86(11):2278-2324.
doi: 10.1109/5.726791
[17] 阚士行. 商业银行信用评级筛选财务指标方法效果对比与校验[D]. 济南:山东大学, 2010.
[17] ( Kan Shixing. Performance Comparison of Several Methods for Selecting Indices of Commercial Bank Credit Ranking[D]. Ji’nan: Shandong University, 2010.)
[18] 刘丹, 李战江, 郑喜喜. 基于WOE-Probit逐步回归的信用指标组合筛选模型及应用[J]. 数学的实践与认识, 2018,48(2):76-87.
[18] ( Liu Dan, Li Zhanjiang, Zheng Xixi. Selection Model of Credit Index Combination Based on WOE-Probit Stepwise Regression and Its Application[J]. Mathematics in Practice and Theory, 2018,48(2):76-87.)
[19] 杨淑娥, 黄礼. 基于BP 神经网络的上市公司财务预警模型[J]. 系统工程理论与实践, 2005,25(1):12-18,26.
[19] ( Yang Shu’e, Huang Li. Financial Crisis Warning Model Based on BP Neural Network[J]. Systems Engineering-Theory & Practice, 2005,25(1):12-18, 26.)
[1] 范少萍,赵雨宣,安新颖,吴清强. 基于卷积神经网络的医学实体关系分类模型研究*[J]. 数据分析与知识发现, 2021, 5(9): 75-84.
[2] 范涛,王昊,吴鹏. 基于图卷积神经网络和依存句法分析的网民负面情感分析研究*[J]. 数据分析与知识发现, 2021, 5(9): 97-106.
[3] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[4] 韩普,张展鹏,张明淘,顾亮. 基于多特征融合的中文疾病名称归一化研究*[J]. 数据分析与知识发现, 2021, 5(5): 83-94.
[5] 邱尔丽,何鸿魏,易成岐,李慧颖. 基于字符级CNN技术的公共政策网民支持度研究 *[J]. 数据分析与知识发现, 2020, 4(7): 28-37.
[6] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[7] 向菲,谢耀谈. 基于混合采样与迁移学习的患者评论识别模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 39-47.
[8] 彭郴,吕学强,孙宁,张乐,姜肇财,宋黎. 基于CNN的消费品缺陷领域词典构建方法研究*[J]. 数据分析与知识发现, 2020, 4(11): 112-120.
[9] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[10] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[11] 刘勘,陈露. 面向医疗分诊的深度神经网络学习*[J]. 数据分析与知识发现, 2019, 3(6): 99-108.
[12] 徐月梅, 吕思凝, 蔡连侨, 张小娅. 结合卷积神经网络和Topic2Vec的新闻主题演变分析*[J]. 数据分析与知识发现, 2018, 2(9): 31-41.
[13] 黄孝喜, 李晗雨, 王荣波, 王小华, 谌志群. 基于卷积神经网络与SVM分类器的隐喻识别*[J]. 数据分析与知识发现, 2018, 2(10): 77-83.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn