编程语言与系统
1、Python、shell 编程
2、Linux 系统基本操作与编程
3、PaddlePaddle、PyTorch
算法模型
1、机器学习:LightGBM等
2、深度学习:Transformer、Informer、Self-Attention、自蒸馏、自集成等
3、图神经网络
4、时序预测、样本增强、特征工程、时序AutoML
技术方向
1、数据挖掘全流程、业务建模分析。
2、用户画像建设。
3、特征工程。
4、大模型agent建设。
一、百度大数据部(2019.5-2022.5)算法工程师
1. 用户画像-学历属性预测项目
负责学历属性技术研发,预估学历分布、挖掘高置信样本;采用年龄段分治策略、Self-Attention机制与参数动量自蒸馏方法优化模型。学历准确率+4.75%,覆盖率+0.14%,feed广告cpm+0.4539%。
2. 运营商数据研发项目
开发运营商标签,商业侧上线运营商数据;feed与凤巢人群月消费覆盖55w+,收益超预期。
3. 直播个性化推荐用户画像项目
负责YY直播用户画像建设,90天内活跃用户性别、年龄覆盖率从4%→64%,扩展婚姻、兴趣属性覆盖至60%,提升变现能力与用户体验。
4. 电力负荷时序预测项目
针对节假日负荷特性,构建相似日计算+负荷增长率乘子模型,效果优于竞品0.74%;通过样本增强、特征工程、时序AutoML优化,系统准确率优于竞品0.72%。负责AI中台负荷预测系统开发,沉淀方法并申请3项发明专利。
5. 特征工厂/特征中台项目
用图神经网络(GEN、GCNII)构建模型,挖掘搜索数据价值,产出用户向量;完成“搜索点击语义特征车间”建设,助力金融风控,KS平均+1.5%。
6. 保险内容知识库建设项目
挖掘、清洗、提取保险内容,建设内容库;开发标签分类、疫情资讯、社保导航模块。积累优质内容900w+篇,索引量提升50w+,日均PV20w+。
二、北京金山办公(2022.05-至今)算法工程师
1. WPS用户付费意愿模型
基于用户行为用LightGBM区分高低付费意愿,投放差异化会员,各渠道转化率+15%,ecpm+2.29%。
云场景用户需求预测:构建自集成算法模型,移动端全量后,单次下发付费+76.95%,收入+45.61%,日增收31597元。
2. 文档关系网络与用户表征项目
基于云/本地文档关系构建网络,教育用户挖掘准确率74%,新会员体系转化率+46%,预估ecpm+14%。
基于分享关系与使用特征建模,安卓会员收银台转化率+141.18%,ecpm+15.55%,续费预估ecpm+43.89%。
一、百度大数据部(2019.5-2022.5)算法工程师 1. 用户画像-学历属性预测项目 - 负责学历属性技术研发,预估学历分布、挖掘高置信样本;采用年龄段分治策略、Self-Attention机制与参数动量自蒸馏方法优化模型。 - 学历准确率+4.75%
一、百度大数据部(2019.5-2022.5)算法工程师 1. 用户画像-学历属性预测项目 - 负责学历属性技术研发,预估学历分布、挖掘高置信样本;采用年龄段分治策略、Self-Attention机制与参数动量自蒸馏方法优化模型。 - 学历准确率+4.75%