1、熟悉大数据架构,熟练开发运维数据仓库,数据集市;掌握范式建模,维度建模。
2、熟悉掌握Hadoop,Yarn,HDFS,MR,Hive,Spark,Flink,Iceberg,Kylin,ZK,Kafka,
Airflow,Dolphin,ES,Atlas,Griffin,SeaTunnel原理架构,环境搭建及应用。
3、熟练使用华为FI集群,阿里云,云原生及虚拟化技术Docker,Kubernetes。
4、熟悉Doris,Clickhouse,Hbase,Oracle,Mysql数据库架构、数据开发。
5、熟练使用Java ,Scala,Python,Shell语言,以及实现复杂业务逻辑Sql。
6、熟练掌握和使用Maxwell,DataX,Sqoop数据集成工具。
7、熟悉BI理论以及使用Superset,FINEBI,永洪BI工具开发。
8、熟练使用Git,Jenkins,IDEA,WindTerm,Xshell,Typora,DBeave等开发和管理。
项目名称:北京宇信科技-广东省农村信用社客户关系管理系统
项目描述:数据源含银行核心,省核心,信贷系统,ECIF系统,股金系统,各支付系统,信用卡,理财系统,各地市系统,手机银行、网银等60余个业务系统, 根据CRM功能模块(客户评价管理,客户经理管理,客户综合管理,营销管理,产品管理,客户服务管理,系统管理,客户权益,网格管理,特色管理,报表分析等)数据需求,分解需求到模型、实施数据架构设计、ETL设计、Dolphin作业调度设计、全流程开发流批数仓;批处理每日推送的数据文件约1TB,批处理规模约1PB,Spark on Hive,Iceberg ,kylin,HDFS,Yarn批处理开发;部分实时场景下Flink on Yarn+Kafka+Doris流处理开发;优化集群跑批以满足业务的时效性,OLAP分析,固定查询,灵活查询,应用查询性能要求。
项目职责:
1、完成需求评审及需求分析,概要设计,详细设计,例如根据需求文档的功能迭代及新功能数据需求,合理拆分聚合模块数据,及时完成接口开发文档,数据仓库,集市映射文档开发;
2、使用Sqoop,DataX抽取业务库的T-1结构化数据到SDM贴源表以及企业级ODS推送T-1批量数据文件load data方式加载SDM贴源表;
3、实施完成数仓HIVE的SDM贴源层,ODM存储层,FDM轻量汇总层,MDM中度汇总模型层,ADM集市模型层开发以及Scala,Spark脚本开发,ClickHouse数据库开发,完成应用集市的数据库开发,报表开发,支撑应用功能开发等;
4、使用Python,Shell,Dolphin开发调度作业以及设计文档输出;
5、创建Hive_catalog或Hadoop_catalog,根据Hive大表创建Iceberg表,大幅优化查询性能以及突破原跑批性能瓶颈;
6、使用Kylin构建预聚合Cube数据,优化维度和提升多维度指标查询性能;
7、使用FlinkCDC完成实时采集业务变化数据到Kafka,Kafka削峰和解耦数据;
8、使用DataStream API,Table API,Flink SQL完成开发Flink各层Scala,Java脚本,基于Souce,Operator,Sink算子,时间语义,水位以及水位线,窗口以及窗口函数,合并拆分流,有状态计算,Flink集成Hive等处理数据,Flink处理完的数据存到Doris中;
9、Doris开发模型表,数据导入,集群优化,优化内存,性能优化,数据问题处理等;
10、使用Griffin完成核心数据的质量监控;按时完成UT测试,SIT,UAT测试;
11、使用SeaTunnel实时监控Kafka实时流数据;处理报错作业,维护Yarn,HDFS,Kylin,
Iceberg,Flink,Spark等组件;
12、完成性能调优和数据报障处理,如数据倾斜处理,数据模型调优,Shell脚本优化等;
13、配合处理其他应用同事的数据需求以及上下游系统数据改造;
14、培训新员工,支持其需求分析以及过程开发;
15、支撑CRM2.0项目数据开发以及其他项目数据开发,支持业务创新和技术探索。
| 角色 | 职位 |
| 负责人 | 高级大数据工程师 |
| 队员 | 产品经理 |
| 队员 | UI设计师 |
| 队员 | 前端工程师 |
| 队员 | 后端工程师 |