掌握Hive/Spark SQL数仓开发与调优,通过动态分区、小文件合并及AQE策略,将离线ETL任务耗时从3小时缩短至40分钟,资源消耗降低60%,支撑日均5000万+数据高效处理。
熟悉数仓分层建模(ODS→DWD→DWS→ADS),设计用户行为、订单分析等20+主题模型,结合分区/分桶优化,关键报表查询速度提升50%。
掌握Flink实时数据同步技术,基于Flink CDC实现MySQL增量数据捕获,构建ODS层实时更新流程,历史数据回溯效率提升65%。
掌握Kafka数据管道开发与调优,参与搭建Kafka+Hudi混合架构,解决离线/实时数据一致性问题,支撑日均百万级订单消息流处理,核心指标分析延迟优化至秒级。
熟练使用Doris进行即席分析,设计Z-Order索引与热温数据分级存储方案,复杂查询QPS从800提升至2200,支撑高并发OLAP场景。
熟悉数据治理体系搭建,基于Atlas实现字段级血缘追溯,配置Griffin数据质量规则30+,异常问题闭环时效缩短至10分钟。
熟练应用影刀RPA实现业务流程自动化,获影刀高级RPA技能认证(编号:YD2025055864)。
线上教育
系统架构:Hadoop + Spark + Hive + Kafka + Airflow + MySQL
项目描述:
BWE教育大数据平台是针对线上教育场景构建的分布式数据解决方案,主要实现用户行为日志分析、实时咨询数据处理、学习效果追踪等核心功能。项目基于Lambda架构搭建离线/实时双链路数据处理体系,日均处理结构化数据80万+条(如课程访问记录、学员信息)、实时消息流10万+条(如咨询会话日志),支撑课程推荐、用户分层运营、教学质量监控等业务场景。初期面临数据分散(手工处理错误率超30%)、核心报表延迟严重(每日09:00产出)、实时分析能力缺失等问题,需通过数仓分层与实时管道建设优化数据驱动能力。
主要职责:
基于Hive完成数仓四层建模(ODS→DWD→DWS→ADS),设计用户行为主题域10+宽表,定义按日分区策略,支撑日均80万+数据高效查询。
使用Spark SQL重构Pandas日报生成逻辑,将任务耗时从2小时缩短至30分钟,资源消耗降低50%。
参与Kafka实时消息接入流程开发,实现咨询数据秒级采集,并配合Spark Streaming完成5分钟级延迟的热点话题识别。
针对大表Join场景应用广播变量优化策略,减少Shuffle数据量,任务执行速度提升40%,存储空间通过动态分区压缩(ORC格式)减少35%。
配置Airflow日报任务失败自动重试机制,任务成功率从85%提升至98%,并制定空值率、主键重复等6项基础校验规则,异常数据发现时效缩短至20分钟。
项目成果:
用户行为离线报表产出时间从每日09:00提前至07:30,支持运营部门晨会决策效率提升50%。
实时咨询数据处理延迟稳定在5分钟内,推动教学质量监控响应速度提升60%。
数仓分层设计与Spark优化推动月度计算资源成本降低25%。
数据质量规则覆盖核心业务表,手工修正工作量减少70%。
新零售数据平台:
系统架构:Flink CDC + Spark SQL + Hudi + Doris + Atlas + DolphinScheduler
项目描述:
面向新零售场景构建实时离线一体化数仓平台,日均处理订单日志300万+,支撑销售预测、库存优化等业务需求。针对增量同步效率低(小时级延迟)、历史数据回溯困难、调度任务成功率不足80%等问题,通过Flink CDC实现业务数据分钟级入湖,基于Hudi构建可回溯ODS层,利用Spark SQL完成核心指标计算,Doris支撑即席查询,最终完成数据治理、模型重构、资源优化三阶段改造。
主要职责:
基于Flink CDC实现MySQL业务数据分钟级入湖,同步耗时从小时级降至3分钟,数据延迟降低90%。
设计Hudi分层存储架构(ODS→DWD→DWS→ADS),支持历史数据版本回溯与近实时更新,查询效率提升70%。
重构用户画像模型,开发Doris Z-Order索引方案,复杂查询QPS从800提升至2200。
优化Spark SQL大表Join逻辑,通过AQE动态优化与广播阈值调整,任务耗时从52分钟缩短至19分钟,资源利用率提升35%。
搭建Atlas元数据中心,完成200+字段级血缘追溯,配置30+数据质量规则,异常数据闭环时效从1小时缩短至10分钟。
重构DolphinScheduler调度系统,实现200+任务可视化编排与资源隔离,日均任务成功率从75%提升至99%。
项目成果:
实时数据入湖效率提升90%,支撑秒级指标分析(GMV/UV)。
库存预测模型上线后,滞销SKU识别准确率提升40%,库存周转率提高25%。
动态资源调控与计算优化推动月度集群成本降低28%。
数据血缘与质量规则覆盖80%核心表,问题排查效率提升60%。
技术亮点:
基于Hudi的CDC数据合并策略,解决订单状态频繁更新导致的存储膨胀,存储成本降低45%。
Doris分级存储方案(SSD+HDD混合部署),复杂查询响应速度提升3倍。
Spark SQL任务优化(AQE+广播Join),核心任务执行效率提升65%。
角色 | 职位 |
负责人 | 大数据工程师 |
队员 | 后端工程师 |