猿急送>

成都其它兼职程序员

ID：209722

素观虚

算法研究员

公司信息：
平安科技

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
成都
高新

技术能力

• 语言和框架： Tensorflow; Pytorch; PySpark; Python; R; SQL; R-Stan; ShinyApp；Git；Linux; Microsoft Office;
• 模型：图编码；图神经网络（GNN）；逻辑回归及其改进（Logistic）；树模型（GBDT、XGBoost，CART等）；WOE编码及其改进（单调的单变量编码）；深度学习（RNN、LSTM、CNN）；统计学习；时间序列分析（ARIMA、GARCH、LSTM）；贝叶斯多层模型；
• 语言: 普通话; 英语
• 相关证书: CFA Exam Level I
• 爱好：周易；黄帝内经；健身；科幻小说；王者荣耀；自驾游；川麻；学习新模型和阅读论文。
• Github：https://github.com/ModelerGuanxuSu ；知乎：苏冠旭

项目经验

• 基于CNN解决图网络编码的Out of sample问题：解决安全场景下图编码的样本外编码的问题。利用BFS搜寻邻居节点编码。基于一定策略，将周围节点编码组合成为不同的Channel，放入CNN进行有监督学习训练。取得了良好的效果，AUC高于直接用自身编码进行有监督学习训练。该算法的唯一要求是样本外节点存在样本内邻居节点。
• 工商银行-基于资金流水的贷后风险预警：客户为工商银行总行网络融资中心，服务产品为工商银行经营快贷。基于工商银行行内的企业账户间资金流水、工商信息、关联关系等信息，构建一系列关联关系网络图谱，并在网络图谱之上设计和开发用于识别资金流水异常的风险指标。主要考虑的维度包括转账对象稳定性、平台型融资行为、频繁转账行为、大额转账行为，用到的方法包括聚类、社群发现（LPA）等，找出高度疑似案例下发到网点，并通过银行网点的反馈对指标进行进一步改进。
• 新金融非法金融活动风险预测模型开发（该模型已经部署到30多个省市和地区的金融监管局，用于打击非法金融活动）：包括模型的设计，创新和部署。基于Tensorflow改进了现有Logistic模型和单变量编码方式。使得模型更加稳健，构建高精度可解释模型。并将模型进行分布式部署。为了兼顾模型精度和可解释性，单变量编码需要捕捉非线性关系，同时保证编码函数的单调性。于是我利用Tensorflow编写了单调函数限制下的多层感知机，用来进行单变量编码，编码后的变量与Y取1的概率成正相关、自动中心化和标准化、和原变量为单调关系。为了配合和利用编码后的变量与Y取1的概率成正相关这一性质，我改进了现有的Logistic，增加系数为非负数的限制，把最优化问题转化为条件最优问题，间接地解决了多重共线性问题，使得模型更加稳健。同时，虽然Lasso逻辑回归是凸优化问题，但是为了保证模型稳健性，我采用SGD求解，并在收敛后取100次迭代的模型进行bagging，增加稳健性。同时，实现模型工程化部署。
• 疾病诊断模型：通过交替训练和改变神经网络结构设计，将知识图谱获取的医学知识(疾病典型症状、疾病对应科室、症状和疾病的先验关系等)融合到深度学习模型中。使得疾病诊断模型在原有基础上和医学知识更加吻合。该成果得到了上级认可，并且已经部署到辅助诊断产品系统上。
• 构造可解释的深度学习诊断模型。通过利用症状到科室信息、用药信息的条件概率，身体部位信息，疾病到症状的条件概率对症状哑变量进行编码，来构建神经网络的第一个隐层。该隐层成功的还原了症状哑变量中包含的信息，在相同数据源的测试集上精度保持不变。同时，该可解释的深度学习模型具有更好的泛化能力，在不同数据来源的测试集上比未编码的深度学习模型取得了更高的精度。
基于Yelp文本评论的星级评分预测 2018年2月 – 2018年3月
Github: https://github.com/YelpStarRatingPrediction/Text-Mining-Yelp-Star-Rating-Prediction
• 利用文本挖掘和机器学习方法，基于Yelp的文本评论预测该评论的星级评分(1-5)。主要内容：
- 从文本评论中提取五个特征变量，并利用CART建立可解释模型。RMSE达到0.85左右。
- 利用SVM，直接对高维词频进行建模。RMSE达到0.65左右。
• 主要创新点：
- 设计和建立度量文本评论情感趋势的指标。比如衡量该评论是否有先抑后扬或者先扬后抑的趋势。该指标有效的区分了中性评分(2,3,4星)的评论，提升了可解释模型的精度和解释性。
基于GARCH模型的投资组合策略 2017年12月 – 2018年1月
URL: http://guanxusu.shinyapps.io/quant_strategy_with_time_series__sharpe_ratio
• 在GJR-GARCH模型的基础上，通过结合最大化夏普率和风险平价策略，构建投资组合。并在2008年-2017年的十年回测中获得了超过1000%的收益。
芝加哥犯罪预测模型 2017年3月 – 2017年5月
URL: https://guanxusu.shinyapps.io/Crime_Chicago
• 基于天气、时间和地理信息数据对芝加哥不同类别犯罪情况进行可视化和建模分析，研究不同因素对于各种类型犯罪的影响。主要结论如气温、降水、附近餐厅个数等对偷盗、贩毒等有明显影响。

案例展示

稳健逻辑回归系列模型

利用Tensorflow编写了单调函数限制下的多层感知机，用来进行单变量编码，编码后的变量与Y取1的概率成正相关、自动中心化和标准化、和原变量为单调关系。为了配合和利用编码后的变量与Y取1的概率成正相关这一性质，我改进了现有的Logistic，增加系数为非负数的限制，把最优化问题
融合先验知识的全科医生智能辅助诊断模型

疾病诊断模型：通过交替训练和改变神经网络结构设计，将知识图谱获取的医学知识(疾病典型症状、疾病对应科室、症状和疾病的先验关系等)融合到深度学习模型中。使得疾病诊断模型在原有基础上和医学知识更加吻合。该成果得到了上级认可，并且已经部署到辅助诊断产品系统上。