1. 编程语言与后端开发 :
- 熟练掌握 Java 编程语言,熟悉 I/O、多线程、集合等基础框架,了解 JVM 内存模型与常见调优策略。
- 熟悉 Spring Boot 框架,具备构建微服务及数据接口(API)的能力,能够开发基于 Java 的数据服务层。
- 掌握 Python/Shell 脚本语言,能编写自动化运维脚本及数据处理辅助工具。
2. 大数据生态与计算:
- 熟悉 Hadoop 生态体系,熟练使用 HDFS、Hive、HBase 进行海量数据存储与查询。
- 熟练掌握 Spark 计算框架,具备使用 Java/Scala/Python 进行大规模数据清洗与 ETL 开发经验。
- 熟悉 Flink 流处理框架(Java API),理解 Window、State、Checkpoint 机制,了解 Kafka 消息队列集成。
3. 数据仓库与架构:
- 深刻理解数仓理论,具备 ODS/DWD/DWS/ADS 分层建模实战经验。
- 熟悉维度建模(Star Schema),能够设计缓慢变化维(SCD)处理机制(如拉链表)。
- 熟悉银行金融监管与风控指标体系(客户、账户、交易主题)。
4. 数据库与 ETL 工具:
- 精通 SQL,具备 Oracle PL/SQL 存储过程编写与优化能力;熟悉 MySQL 复杂查询与索引优化。
- 熟练使用 DataX/Sqoop 进行异构数据同步,具备 DataX 源码二次开发或 Java 插件扩展能力。
- 熟练掌握 DolphinScheduler/Azkaban 调度工具,能够配置复杂依赖与告警机制。
5.爬虫、网站数据抓取与反爬虫
项目:汉口银行 - 1104监管报送仓外集市项目
时间:2025.04 - 2025.11
技术栈:Oracle、PL/SQL、Java、Spring Boot、Shell、DolphinScheduler、DataX
项目描述:
为响应金融监管要求,构建1104非现场监管报送系统,完善银行数据统计与报送流程,确保数据准确性与时效性,实现从源系统到报送集市的高效流转。
主要职责:
1. 需求与映射:负责监管指标的需求分析,梳理源系统表结构,编写 Source-Target 字段映射文档。
2. 存储过程开发:编写 Oracle PL/SQL 存储过程完成核心报表的清洗与聚合;优化复杂 Join 逻辑,将跑批耗时从 2小时缩短至 40分钟。
3. Java 工具开发:针对 DataX 无法处理的特殊加密字段,使用 Java 编写自定义 Transformer 插件嵌入 DataX 流程,实现数据同步过程中的实时解密与脱敏。
4. 自动化调度:编写 Python 脚本配合 DolphinScheduler 实现任务的自动化生成与依赖管理,实现脚本逻辑与配置参数分离。