1、目前使用过的框架
CDH,网易有数平台
spark,flink
hive,hdfs,yarn,sqoop,kafka,zookeeper,flume,maxwell,azkanba,airflow
presto,impala
tidb,starRocks,doris,mysql,ElasticSearch
2、熟练技能点
spark日志排查, sparkSql优化, flink CEP,flink Sql, Mysql/TidbSql执行计划分析
3、开发语言
Scala熟练,java熟练,python了解(会读,写不是很熟练),shell了解
项目名称:大数据数仓(无限极广东总部)
软件架构:网易有数平台 + hdfs + hive + spark + starRocks + Debezium + kafka + flink
项目描述:
公司原数仓项目由 mysql/oracle -> infa -> Oracle/TeraData 组成,因公司业务量增大与对历史数据查询要求,原数仓结构
无法迅速响应,且开发维护成本较大,所以对原架构进行优化,基于网易大数据平台(猛犸有数平台) 重构数据仓库项目,并将数仓转为
数据中台,减小维护成本,增加开发效率,并对业务需求进行快速响应交付
责任描述:
1. 负责对现有数据仓库平台的代码进行迁移与优化,确保系统稳定性和效率。
2. 针对线上Spark任务出现的错误进行精确定位,并实施有效修复,保障任务正常运行。
3. 持续对线上数据处理任务进行性能调优,提升数据处理速度和质量。
4. 在网易平台基础上开发新的功能组件,并对其进行扩展,以满足更丰富的业务需求。
5. 利用starRocks技术进行实时数据处理需求的开发,增强数据分析的时效性。
6. 参与数据仓库架构设计,确保架构的可扩展性和维护性。
7. 与团队紧密合作,共同解决技术难题,提升团队整体技术实力。
技术描述:
1、 网易平台与第三方集群兼容性问题
2、 网易平台任务问题定位
3、 starRocks Sql & spark Sql性能调优
4、 spark graph实现树结构数据迭代计算
岗位成果:
1、 提升数仓跑批效率30%左右(跑批结束时间由11点变为9点)
2、 针对数据进行主题分类,重构会员主题共享层数据,提升数据分析组提取数据效率
3、 将可复用复杂逻辑抽取开发为资源组件,提供文档供开发同事使用,提高报表开发效率
4、 针对线上树结构数据迭代计算缓慢痛点,使用sparkgraph重构,提升80%任务运行效率
5、 对其余同事进行spark日志排查培训,提升项目开发效率
6、 对接上游业务系统同事,确认数据口径并输出文档,方便其余同事使用
7、 协助同事打通spark - doris 数据计算流程,提高线上项目运行效率