基于集成学习的中国P2P网络借贷信用风险预警模型的对比研究*
操玮, 李灿, 贺婷婷, 朱卫东

Predicting Credit Risks of P2P Loans in China Based on Ensemble Learning Methods
Cao Wei,Li Can,He Tingting,Zhu Weidong
表1 变量说明
变量类型 变量名 实际含义 变量数值化
因变量 label 借款违约与否 违约=1, 未违约=0
借款人特征信息 F1 年龄 20-25岁=0, 26-31岁=1, 32-37岁=2, 38-43岁=3, 44-49岁=4, 50岁及以上=5
F2 学历 高中及以下=0, 大专=1, 本科=2, 研究生=3
F3 婚姻状况 单身(包括未婚、离异和丧偶)=0, 已婚=1
F4 工作时间 空值=0, 1年及以下=2, 1-3年(含)=4, 3-5年(含)=6, 5年以上=8
F5 工作城市 东部=0, 中部=1, 西部=2
F6 公司行业 借款人所在公司所属行业*
F7 公司规模 空值=0, 10人以下=1, 10-100人=2, 100-500人=3, 500人以上=4
借款人财务信息 F8 收入 1000元以下=0, 1000-2000元=1, 2000-5000元=2, 5000-1000元=3, 10000=20000元=4, 20000-50000元=5, 50000元以上=6
F9 信用等级 HR=0, E=1, D=2, C=3, B=4, A=5, AA=6
F10 信用额度 信用额度做Min-Max标准化处理
F11 房产 有房产=1, 无房产=0
F12 车产 有车产=1, 无车产=0
F13 房贷 无房贷=1, 有房贷=0
F14 车贷 无车贷=1, 有车贷=0
借款人历史信息 F15 成功借款 借款人成功借款数量
F16 申请借款 借款人历史申请借款笔数
F17 逾期次数 借款人历史逾期次数
F18 严重逾期 存在严重逾期=1, 否则=0
借款特征 F19 借款金额 借款人预期借款金额做Min-Max标准化处理
F20 用途 借款人的借款用途**
F21 利率 借款年利率
F22 还款期限 借款期限, 按月衡量, 最短3个月, 最长36个月
F23 标的类型 机构担保标=0, 信用认证标=1, 实地认证标=2
平台认证
信息
F24 信用认证 借款人提供央行开具的个人征信报告, 认证通过=1, 其他=0
F25 身份认证 借款人提供身份证复印件认证身份信息, 认证通过=1, 其他=0
F26 工作认证 借款人提供工作证复印件或劳动合同, 认证通过=1, 其他=0
F27 收入认证 借款人提供收入证明或工资卡银行流水, 认证通过=1, 其他=0