开发工具:IntelliJ IDEA、Eclipse、MySQL和HDFS等开发工具
开发语言:熟悉Java相关知识,熟悉Mybatis、Redis及Spingoot等开源框架,能够利用框架进行API开发,掌握Sscala的基本语法与应用,熟悉Spark中的ScalaAPI和JavaAPI,能够利用Scala进行大数据开发数仓建模:熟悉Hadoop体系,了解数仓建设生命周期,熟悉数据仓库建模及数仓分层
数据采集:
1.熟悉Linux的开发环境及Linux操作命令具备简单Shell脚本编写能力
2.熟悉ETL工作开发流程,有DataX、Flume使用经验,熟练使用DataX在MySQL和HDFS进行导入导出
3.熟练掌握Flume的核心组件及其工作原理,能够根据业务需求灵活配置Flume,实现多场景下的数据采集、传输与存储,确保数据的高效、可靠处理;
数据存储:
1.熟练使用ClickHouse,配置和优化ClickHouse集群,调整分区、分片、索引等策略
2.熟练掌握Kafka集群的部署、配置与性能优化,能够有效解决数据丢失、重复消费等常见问题
3.熟练运用HiveSQL对数据进行统计分析,能够对其进行优化,并解决常见的数据倾斜问题
数据计算:
1.熟悉Hive的基本架构,可以熟练使用Hive进行统计分析了解Hive优化,解决一些常见问题
2.熟悉Spark体系机构,熟练使用Spark的算子SparkSQL的优化,了解Spark性能调优
3.熟练掌握Flink框架API使用,熟悉WaterMark,Checkpoint的原理,能够使用DataStreamAPI、TableAPI对数据进行实时处理;
数据展示:
1.熟练使用PowerBI,FineReport,FineBI的使用,有独自开发报表能力
2.熟练使用Powelink平台,能够管理运用powerlink
内容:
亿联主打销售自家企业级通讯设备,其主要客户主要来源海外,通过代理及经销商等中间商将亿联产品面向全球,至此需要一套
稳定完整有效率的大数据平台提供给每月十号左右经分会进行分析整体亿联盈利情况等,旧架构采用MySQL作为底层数据仓库,
使用kettle etl工具向YCRM ,OPC等业务系统数据库直接采取数据并完成数据清洗,再将每个模块严格按照数仓模型进行构建出每
个模块所需业务表,使用FineReport及PowerBI设计报表,最终powerlink呈现报表并以此来限制公司各个部门以及各个员工的数
据权限,粒度到报表行及列,新架构主要替换MySQL为StartRocks,并废弃kettle的使用,使用更高效的SQL语言直接放
DolphinScheduler调度器每天按时全量调度数据,每个模块每张报表的调度时间都不一样,基本都是每天调度三次,可以做到近
实时呈现数据
业绩:
1. 参与技术新架构的设计,并完成旧模块的数据迁移并优化
2.优化公司整体报表某模块系统,原先旧逻辑加旧架构代码冗余复杂,各个部门反馈查询效率慢,升级优化后代码整体质量上升并
查询效率提升100%,完成秒级查询响应
3.分析库存模块,原先库存预测模型预测数据不准确,导致每个月都需财务,销售手动修改预测数据,后续复杂优化模型,优化整
体预测逻辑,目前上线来预测数据准确率可达80%
6.参与设计国内项目漏斗整体重构开发
7.各个模块的运维工作,负责处理各个部门反馈的数据问题以及报表缺陷,我们通过workerLink响应各个部门的反馈,优先级最
高,可以及时处理问题并测试质量是否过关
离线项目职责: 1.参与数据仓库的搭建,明确数据域,包括用户域,流量域,交易域等主题域,参与设计DWD,DWS,ADS层 2.设计全局唯一用户标识 UUID 以及用户拉链表,解决多端用户数据关联问题,用户行为分析准确率提升40% 3.完成用户主题相关指标,日活,周活,月活,
内容: 亿联主打销售自家企业级通讯设备,其主要客户主要来源海外,通过代理及经销商等中间商将亿联产品面向全球,至此需要一套 稳定完整有效率的大数据平台提供给每月十号左右经分会进行分析整体亿联盈利情况等,旧架构采用MySQL作为底层数据仓库, 使用kettle etl工具向YC