作为数仓开发工程师,我具备以下核心技术能力:
数据架构设计:精通Kimball维度建模和Inmon企业级数据仓库理论,能设计分层清晰的ODS-DWD-DWS-ADS数仓架构,熟悉数据分层规范和建模方法论。
大数据技术栈:熟练掌握Hadoop生态体系(HDFS/YARN),精通Hive(优化执行计划、解决数据倾斜)、Spark(RDD核心原理)、Sqoop等组件,具备PB级数据处理经验。
调度系统:精通Airflow、DolphinScheduler等调度工具,能设计合理的任务依赖关系和调度策略,具备任务失败预警和重试机制实施经验。
SQL优化:具备复杂SQL编写和调优能力,熟悉执行计划解读、分区裁剪、谓词下推等优化手段,擅长解决数据倾斜问题。
数据治理:熟悉数据质量监控(Great Expectations)、元数据管理(Atlas)、数据血缘追踪等治理体系搭建。
编程能力:熟练使用Python/Shell进行ETL开发。
行业经验:在电商、金融等领域有实战经验,理解业务指标体系构建和维度建模。
性能调优:具备集群资源分配、参数调优经验,能针对特定场景优化MapReduce/Spark作业性能。
数据服务:熟悉Presto/Impala等即席查询引擎,能构建数据服务层支撑分析需求。
新技术跟踪:持续关注Iceberg/Hudi等数据湖技术演进,能将新技术合理落地到现有架构。
项目背景:
联想IUOP(Intelligent User Operation Platform)是一个基于离线数仓的用户行为分析平台,旨在整合全球用户数据,构建360°用户画像,支撑精准营销、用户分群和个性化推荐。
数据架构设计:
采用 ODS→DWD→DWS→ADS 分层架构,基于 Kimball维度建模 设计用户行为、设备、交易等核心主题域,确保数据一致性。
引入 Hudi 实现增量更新,提升用户标签的实时性,减少全量计算资源消耗。
ETL优化与性能调优:
使用 Spark SQL + Hive 处理日均 TB级 用户行为日志,优化 JOIN倾斜(如采用 Skew Join + Broadcast优化),使任务执行效率提升 40%+。
设计 动态分区+ZSTD压缩 策略,降低存储成本 30%。
数据服务与应用:
基于 Presto 构建即席查询服务,支持业务团队自助分析用户行为路径。
开发 RFM用户分群模型,结合 A/B测试 优化营销策略,提升转化率 15%。
联想IUOP(Intelligent User Operation Platform)是一个基于离线数仓的用户行为分析平台,旨在整合全球用户数据,构建360°用户画像,支撑精准营销、用户分群和个性化推荐。 我的核心贡献: 数据架构设计: 采用 ODS→DWD→D
数据标注公司管理后台,包含权限、人员、项目、任务管理,数据分析等模块。从项目创建到数据标注到任务质检全流程覆盖。