熟练使用 Python 编程,熟悉 PEP 8编程规范,熟悉 Python 常用标准库以及第三方库。
熟练使用 Numpy、Pandas 科学数据处理工具。
熟练使用 Matplotlib、plotly 数据可视化工具。
熟悉Random Forest、Decision Tree、Logistics Regression、SVM、K-means、K近邻、XGboost等常见的基本机器学习算法。
熟悉 TensorFlow 框架建立深度学习模型,如LSTM 、Transformer
熟练使用SQL基本操作指令。
信用卡申请人提供的个人信息和数据来预测其未来的违约和借款风险。帮助银行决定是否批准申请人的信用卡申请,从而客观地量化风险。
数据清洗与特征工程:
- 对数据进行可视化探查和预处理,根据用户逾期状态建立新特征。
- 进行卡方检验,初步筛选特征去除相关性较强特征如`是否有孩子`与`家人数量`等。
- 对类别特征进行标签编码处里,并进行标准化处理加快收敛速度。
建模过程:
- 构建多个学习模型,包括随机森林、GBDT、XGboost模型,查看多个模型训练效果。
- 建立神经网络模型,包括嵌入层来处理类别数据,并通过反向传播算法进行训练。
模型评估与效果:
- 根据混淆矩阵多类别分析报告进行评估。
- 随机森林平均精度0.88,XGboost平均精度0.58,GDBT平均精度0.43,神经网络0.74。