1. 编程与脚本语言
java/Python
Shell脚本编写
SQL及优化
2. 大数据组件
Hadoop、Flink、Hive、Doris、Kafka、DolphinScheduler 等
3. 技能
数据集成与数据ETL
数据仓库与建模
数据可视化与分析
数据治理与安全
在数据平台建设过程中,我参与多个核心项目,充分体现了自己在大数据处理、实时计算和智能化业务场景中的技术能力。其中,我负责搭建 企业级数仓体系(ODS–DWD–DWS–ADS),包括数据模型设计、数据规范统一以及离线任务调度优化。通过对主题域的拆分和指标统一管理,大幅提升了数据复用性和查询效率。
在实时计算方向,我基于 Flink 构建了实时指标处理链路,涵盖数据接入、窗口聚合、状态管理与结果下发,实现了毫秒级的数据更新能力。通过对 Flink 作业进行并行度调优、Checkpoint 优化和状态后端设计,系统稳定性和吞吐量均得到显著提升。
此外,我负责开发了 基于大模型的智能审批数据系统,将业务审批流程与大模型能力结合,实现了审批材料自动抽取、字段校验、风险识别和智能决策辅助。系统落地后,人工审核量减少约 40%,审批效率明显提升。
负责中台元数据的全链路处理,包括采集、解析、存储、建模及服务化输出; 与调度平台DolphinScheduler深度集成,自动解析调度任务的依赖关系; 抽取 SQL 中的表依赖与字段血缘,生成任务血缘(Job Lineage)、表血缘(Table Lineage)、字段血缘(
该项目是一个面向业务数据的 自动化清洗、修复、补齐、模型运行与结果入库 的完整数据处理流程。 通过一系列 SQL 脚本,实现从“原始数据 → 清洗修复 → 补齐 → 模型分析 → 模型结果入库”的全链路自动化处理。 项目主要目标包括: 提升数据质量(修复无效链接、补齐缺失