猿急送>

深圳其它兼职程序员

ID：397389

紫青衣有团队

大数据工程师

公司信息：
深圳喜德盛自行车股份有限责任公司

工作经验：
2年

兼职日薪：
500元/8小时

兼职时间：
下班后

所在区域：
深圳
光明

技术能力

掌握Hive/Spark SQL数仓开发与调优，通过动态分区、小文件合并及AQE策略，将离线ETL任务耗时从3小时缩短至40分钟，资源消耗降低60%，支撑日均5000万+数据高效处理。
熟悉数仓分层建模（ODS→DWD→DWS→ADS），设计用户行为、订单分析等20+主题模型，结合分区/分桶优化，关键报表查询速度提升50%。
掌握Flink实时数据同步技术，基于Flink CDC实现MySQL增量数据捕获，构建ODS层实时更新流程，历史数据回溯效率提升65%。
掌握Kafka数据管道开发与调优，参与搭建Kafka+Hudi混合架构，解决离线/实时数据一致性问题，支撑日均百万级订单消息流处理，核心指标分析延迟优化至秒级。
熟练使用Doris进行即席分析，设计Z-Order索引与热温数据分级存储方案，复杂查询QPS从800提升至2200，支撑高并发OLAP场景。
熟悉数据治理体系搭建，基于Atlas实现字段级血缘追溯，配置Griffin数据质量规则30+，异常问题闭环时效缩短至10分钟。
熟练应用影刀RPA实现业务流程自动化，获影刀高级RPA技能认证（编号：YD2025055864）。

项目经验

线上教育
系统架构：Hadoop + Spark + Hive + Kafka + Airflow + MySQL
项目描述：
BWE教育大数据平台是针对线上教育场景构建的分布式数据解决方案，主要实现用户行为日志分析、实时咨询数据处理、学习效果追踪等核心功能。项目基于Lambda架构搭建离线/实时双链路数据处理体系，日均处理结构化数据80万+条（如课程访问记录、学员信息）、实时消息流10万+条（如咨询会话日志），支撑课程推荐、用户分层运营、教学质量监控等业务场景。初期面临数据分散（手工处理错误率超30%）、核心报表延迟严重（每日09:00产出）、实时分析能力缺失等问题，需通过数仓分层与实时管道建设优化数据驱动能力。
主要职责：
基于Hive完成数仓四层建模（ODS→DWD→DWS→ADS），设计用户行为主题域10+宽表，定义按日分区策略，支撑日均80万+数据高效查询。
使用Spark SQL重构Pandas日报生成逻辑，将任务耗时从2小时缩短至30分钟，资源消耗降低50%。
参与Kafka实时消息接入流程开发，实现咨询数据秒级采集，并配合Spark Streaming完成5分钟级延迟的热点话题识别。
针对大表Join场景应用广播变量优化策略，减少Shuffle数据量，任务执行速度提升40%，存储空间通过动态分区压缩（ORC格式）减少35%。
配置Airflow日报任务失败自动重试机制，任务成功率从85%提升至98%，并制定空值率、主键重复等6项基础校验规则，异常数据发现时效缩短至20分钟。
项目成果：
用户行为离线报表产出时间从每日09:00提前至07:30，支持运营部门晨会决策效率提升50%。
实时咨询数据处理延迟稳定在5分钟内，推动教学质量监控响应速度提升60%。
数仓分层设计与Spark优化推动月度计算资源成本降低25%。
数据质量规则覆盖核心业务表，手工修正工作量减少70%。

新零售数据平台：
系统架构：Flink CDC + Spark SQL + Hudi + Doris + Atlas + DolphinScheduler
项目描述：
面向新零售场景构建实时离线一体化数仓平台，日均处理订单日志300万+，支撑销售预测、库存优化等业务需求。针对增量同步效率低（小时级延迟）、历史数据回溯困难、调度任务成功率不足80%等问题，通过Flink CDC实现业务数据分钟级入湖，基于Hudi构建可回溯ODS层，利用Spark SQL完成核心指标计算，Doris支撑即席查询，最终完成数据治理、模型重构、资源优化三阶段改造。
主要职责：
基于Flink CDC实现MySQL业务数据分钟级入湖，同步耗时从小时级降至3分钟，数据延迟降低90%。
设计Hudi分层存储架构（ODS→DWD→DWS→ADS），支持历史数据版本回溯与近实时更新，查询效率提升70%。
重构用户画像模型，开发Doris Z-Order索引方案，复杂查询QPS从800提升至2200。
优化Spark SQL大表Join逻辑，通过AQE动态优化与广播阈值调整，任务耗时从52分钟缩短至19分钟，资源利用率提升35%。
搭建Atlas元数据中心，完成200+字段级血缘追溯，配置30+数据质量规则，异常数据闭环时效从1小时缩短至10分钟。
重构DolphinScheduler调度系统，实现200+任务可视化编排与资源隔离，日均任务成功率从75%提升至99%。
项目成果：
实时数据入湖效率提升90%，支撑秒级指标分析（GMV/UV）。
库存预测模型上线后，滞销SKU识别准确率提升40%，库存周转率提高25%。
动态资源调控与计算优化推动月度集群成本降低28%。
数据血缘与质量规则覆盖80%核心表，问题排查效率提升60%。
技术亮点：
基于Hudi的CDC数据合并策略，解决订单状态频繁更新导致的存储膨胀，存储成本降低45%。
Doris分级存储方案（SSD+HDD混合部署），复杂查询响应速度提升3倍。
Spark SQL任务优化（AQE+广播Join），核心任务执行效率提升65%。