1. 熟悉编程语言:Java、Python,熟悉常用的 Linux Shell 脚本编写;
2. 熟悉基于 Python 的 Pandas、Pyspark、Numpy 等数据分析框架;
3. 熟悉 Hadoop、Zookeeper、Hive、Spark、Hbase、Kafka、ClickHouse 等大数据技术;
4. 熟练掌握 Hql,SparkSQL,熟悉常见的 SQL 调优方案,数据倾斜解决方案;
5. 熟悉数据采集工具 Flume、Sqoop、DataX,即席查询工具 Presto 的使用;
6. 熟悉任务调度工具 Oozie、Dolphinscheduler、Azkaban 的使用;
7. 掌握常见的数据分析引擎与数据可视化工具 FineBi,Tableau,Echarts;
8. 掌握后端开发框架 SpringBoot 和前端开发框架 Vue 的使用;
9. 了解阿里云离线数仓的使用,了解 hudi 的基本搭建及使用;
10. 了解 Flink,FlinkSQL,对 Flink 的基本原理和使用场景有一定的了解;
基于 Spark on Hive 的离线数据分析,将应用市场的日志数据和业务数据通过Flume 导入 Kafka,使用 Java API 消费 Kafka 中的数据,写入 HBase,利用 Spark 并进行统一分析和计算,最后将所得到的结果存入 MySQL,并对接 FineBi 和 Echarts 进行可视化报表展示。
技术架构:Flume + Kafka + Hbase + Hive + Spark + Phoenix + Sqoop + MySQL
1.通过 Flume 和 Sqoop 采集业务数据和日志数据,并将数据导入 Kafka 中;
2. 编写 Java Api 消费 Kafka 主题,将结果数据写入 Hbase;
3. 通过 Hive 关联 Hbase 中的数据,并对数仓进行分层;
4. 使用 pyspark 进行分析计算,如日活,曝光,环比,同比等,将结果写入 ADS 层;
5. 编写 shell 脚本和 python 脚本,通过 HIS 对任务定时调度;
6. 将 ADS 层中的数据,通过 Sqoop 导出到 MySQL 中,并通过 FineBi 将结果展示出来。
角色 | 职位 |
负责人 | 大数据开发工程师 |
队员 | 产品经理 |
队员 | 前端工程师 |
队员 | 后端工程师 |