猿急送>

广州其它兼职程序员

ID：404842

Jacken 有团队

高级大数据工程师

公司信息：
北京宇信科技集团有限公司

工作经验：
12年

兼职日薪：
800元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
广州
天河

技术能力

1、熟悉大数据架构,熟练开发运维数据仓库,数据集市;掌握范式建模,维度建模。
2、熟悉掌握Hadoop,Yarn,HDFS,MR,Hive,Spark,Flink,Iceberg,Kylin,ZK,Kafka,
Airflow,Dolphin,ES,Atlas,Griffin,SeaTunnel原理架构,环境搭建及应用。
3、熟练使用华为FI集群,阿里云,云原生及虚拟化技术Docker,Kubernetes。
4、熟悉Doris,Clickhouse,Hbase,Oracle,Mysql数据库架构、数据开发。
5、熟练使用Java ,Scala,Python,Shell语言,以及实现复杂业务逻辑Sql。
6、熟练掌握和使用Maxwell,DataX,Sqoop数据集成工具。
7、熟悉BI理论以及使用Superset,FINEBI,永洪BI工具开发。
8、熟练使用Git,Jenkins,IDEA,WindTerm,Xshell,Typora,DBeave等开发和管理。

项目经验

项目名称：北京宇信科技-广东省农村信用社客户关系管理系统
项目描述：数据源含银行核心,省核心，信贷系统，ECIF系统，股金系统，各支付系统，信用卡，理财系统，各地市系统，手机银行、网银等60余个业务系统, 根据CRM功能模块（客户评价管理,客户经理管理,客户综合管理,营销管理，产品管理，客户服务管理，系统管理,客户权益,网格管理，特色管理，报表分析等）数据需求，分解需求到模型、实施数据架构设计、ETL设计、Dolphin作业调度设计、全流程开发流批数仓；批处理每日推送的数据文件约1TB，批处理规模约1PB,Spark on Hive,Iceberg ,kylin,HDFS,Yarn批处理开发；部分实时场景下Flink on Yarn+Kafka+Doris流处理开发；优化集群跑批以满足业务的时效性,OLAP分析,固定查询,灵活查询,应用查询性能要求。
项目职责：
1、完成需求评审及需求分析,概要设计,详细设计,例如根据需求文档的功能迭代及新功能数据需求,合理拆分聚合模块数据,及时完成接口开发文档,数据仓库,集市映射文档开发；
2、使用Sqoop,DataX抽取业务库的T-1结构化数据到SDM贴源表以及企业级ODS推送T-1批量数据文件load data方式加载SDM贴源表；
3、实施完成数仓HIVE的SDM贴源层,ODM存储层,FDM轻量汇总层,MDM中度汇总模型层,ADM集市模型层开发以及Scala,Spark脚本开发,ClickHouse数据库开发,完成应用集市的数据库开发,报表开发,支撑应用功能开发等；
4、使用Python,Shell,Dolphin开发调度作业以及设计文档输出；
5、创建Hive_catalog或Hadoop_catalog,根据Hive大表创建Iceberg表,大幅优化查询性能以及突破原跑批性能瓶颈；
6、使用Kylin构建预聚合Cube数据,优化维度和提升多维度指标查询性能；
7、使用FlinkCDC完成实时采集业务变化数据到Kafka,Kafka削峰和解耦数据；
8、使用DataStream API,Table API,Flink SQL完成开发Flink各层Scala,Java脚本，基于Souce,Operator,Sink算子,时间语义,水位以及水位线,窗口以及窗口函数,合并拆分流,有状态计算,Flink集成Hive等处理数据,Flink处理完的数据存到Doris中;
9、Doris开发模型表,数据导入,集群优化,优化内存,性能优化,数据问题处理等；
10、使用Griffin完成核心数据的质量监控;按时完成UT测试,SIT,UAT测试；
11、使用SeaTunnel实时监控Kafka实时流数据；处理报错作业,维护Yarn,HDFS,Kylin,
Iceberg,Flink,Spark等组件；
12、完成性能调优和数据报障处理,如数据倾斜处理,数据模型调优,Shell脚本优化等；
13、配合处理其他应用同事的数据需求以及上下游系统数据改造；
14、培训新员工,支持其需求分析以及过程开发；
15、支撑CRM2.0项目数据开发以及其他项目数据开发,支持业务创新和技术探索。