● Linux:熟悉Linux开发环境,能使用Shell脚本实现基于服务器的开发工作。
● Hadoop:熟悉Hadoop生态体系,掌握MapReduce系列大数据系统原理。熟练从零搭建高可用(HA) Hadoop集群(包括HDFS、 YARN),独立完成SSH免密、配置文件调优、NameNode/QJM高可用、ResourceManager HA等核心配置,并在集群上部署Hive及MySQL作为Metastore,形成完整的数据分析基础环境。
● Hive\Spark:熟悉数据仓库建设,有Hive和Spark平台的海量数据处理及优化经验。
● MySQL:掌握Mysql等主流数据库,熟悉关系型数据库的使用。
● Sqoop:熟练使用Sqoop进行RDBMS体系和Hadoop生态系统之间的数据传送。
● Azkaban\Dolphinscheduler:熟悉分布式调度架构,熟练掌握Azkaban\Dolphinscheduler等调度组件。
● ZooKeeper\Kafka\Flume\Kylin:了解ZooKeeper、Kafka、Flume、Kylin等大数据组件和框架的原理及应用。
参与多个公司的大数据平台、数据中台项目:
●项目职责:
1、参与项目分层设计及技术选型;
2、负责项目数据平台的ETL设计开发,将数据从业务数据库统一集成到Hive数仓ODS源数据层;
3、负责DWD层明细数据的清洗转换、敏感数据脱敏、拉链表的设计和实现;
4、负责项目中DWB层建设,做维度关联,创建订单详情、订单结算、退款订单、商品评价事实表,形成基础数据;
5、将基础数据层数据轻度汇总,做细粒度统计,按照主题划分日统计宽表,在DWS层形成销售主题宽表、商品主题宽表、用户主题宽表等服务数据;
6、根据DWS层数据,在日维度主题宽表的基础上实现维度的上卷,根据周、月、年切割维度,对服务数据层的维度和指标进行粗粒度汇总统计后,存储到DM数据集市;
7、将数据集市层数据进行裁剪、上卷、拼接操作,根据报表或专题分析的需求计算生成个性化数据,存储到RPT报表层;