雅典娜赛-比赛基本信息
比赛:
比赛全称: 2019 “雅典娜杯”数据挖掘大赛-贷款风险预测
内容概要:根据提供贷款用户的数据信息,建立风险控制模型,预测用户还款逾期
比赛时间(初赛):2019.09.09-2019.09.28
比赛形式:3人队伍,提交后实时排名
比赛平台:Jupyter Notebook 搭建的大赛专用平台
小组最好成绩:40/400 <10% ,最终成绩156/400≈38%
比赛参考:
https://www.cnblogs.com/jiegege/p/8706991.html
https://github.com/hczheng/Rong360
数据介绍:
- 用户信息 profile.csv:
字段名 类型 备注 用户标识 枚举 用户唯一编号 性别 枚举 教育程度 枚举 户口类型 枚举 - 银行卡流水 bankStatement.csv
字段名 类型 备注 用户标识 枚举 用户唯一编号 流水时间 时间戳 交易产生时间 交易类型 枚举 交易金额 浮点数 工资收入标记 枚举 - 信用卡账单 creditBill.csv
字段名 类型 备注 用户标识 枚举 用户唯一编号 银行标识枚举 账单时间戳 时间戳 交易产生的时间 上期账单金额 浮点数 上期还款金额 浮点数 信用卡额度 浮点数 本期账单余额 浮点数 还款状态 枚举 - 行为记录 behaviors.csv
字段名 类型 备注 用户标识 枚举 用户唯一编号 日期 月-日 行为出现的日期 星期几 枚举 从周1 到周7,需注意:周1 不一定是现实生活中的周1 行为类型 枚举 子类型1 枚举 子类型2 枚举 - 逾期标签 label.csv
字段名 类型 备注 用户标识 枚举 用户唯一编号 标签 枚举 是否逾期还款
评价指标:
Kolmogorov-Smirnov(KS)是风险评分领域常用的评价指标,反映模型对正负样本
的辨识能力,KS 越高表明模型对正负样本的区分能力越强。其计算方法为:
假设 为正样本预测值的累计分布函数(cdf), 为负样本在预测
值上的累计分布函数,则KS 计算方法如下: