大数据开发方面技能:
1、熟练使用 Linux 常用的操作命令
2、熟悉 hadoop 体系架构,理解 MapReduce 的工作原理,以及 HDFS 原理。
3、熟悉 Hadoop 的调优
3、熟悉 Hive 和 HBase,kafka。能使用 Hive 进行数据的统计分析,能对 Hive sql 进行调优
4、熟悉 Spark 体系架构,熟悉 SparkSQL,SparkStreaming
5、熟练掌握 Spark 集群架构及其工作原理,能够使用 SparkStreaming+kafka 对数据进行清洗和
实时统计分析
6、熟悉使用 flume、canal。做到日志采集分析。
7、熟练使用 Flink 的数据同步功能和原理。
8、开发和维护 Flinkx、FlinkDSL。
9、离线调度 Apache DolphinScheduler 在部门的演进和开发。
10、维护 ClickHouse、Hive、Yarn、Spark、Flink 组件。在公司实践中的遇到的问题和场景优化。
Java 开发方面技能:
1、掌握 JavaSE 和 JavaEE 相关知识
2、熟悉使用常见的 JavaEE 开源框架,如 Spring MVC、Spring、Mybatis、spring boot
项目名称:公司内部项目支撑
维护周期:2 月
项目人数:2 人
项 目 描 述 : 公 司 内 部 IT 部 门 使 用 abdi 平 台 实 现 大 数 据 低 代 码 开 发 , 维 护 Apache
DolphinScheduler,flinkx,flinkdsl,帮助业务部门使用部门的平台,并维护离线任务,实时任
务的稳定性。
责任描述:
1、负责 ods 层到 dwd 层到 dws 层到 ads 层的工作流稳定性,保障一晚几千个任务在我们离
线平台运行的稳定性,保障月故障率为 0。
2、负责 yarn 任务调度排队时间统计、资源使用率的统计开发,为离线调度的时间分配做数据
支撑。
3、在实时任务和离线同步任务的指标系统进行剪裁,剪裁多余的 flink 到 pushgateway 的推
送指标,减少 pushgateway 的压力,增加 pushgateway 的并发性能。
4、修复 hive3.0 默认 UTC 时区、distinct 报错等问题,切换 hive on tez 到 hive on spark,
对 spark sql 性能调优。
项目名称:低代码平台 CDC-ES
使用技术:flinkcdc+elasticsearch+spring boot
开发周期:2 月
项目人数:5 人
项目描述:用户仅用简单的页面配置,就能使用 flinkcdc 技术实现 oracle,mysql,sql server 向
es 同步数据的功能。
责任描述:
1、负责 flinkcdc 到 es 技术预研和缺陷分析以及模块设计。
5、负责模块拆分工作和后期的代码 review。
6、负责新员工的编码指导。
项目名称:Flink 流合并
使用技术:flinkx+spring boot
开发周期:2 月
项目人数:3 人
项目描述:用户在使用离线同步时,经常需要同步整个库或者 N 张表。但是现有的情况是一个 Flink
任务同步一张表,需要 2 核 4G 的资源。并且数据库也要建立一个连接。为了减少资源的浪费和数
据库连接(避免数据库连接超过上限)。需要支持整库同步以及数据库连接信息的复用。实现一个
任务千表同步 TB 级数据。
责任描述:
1、负责 flink 流合并的设计方案和评审。
2、负责流合并算子的编码工作和后期性能测试。
7、负责最佳实践方案编写。
项目名称:实时功能加强
使用技术:flink+spring boot
开发周期:2 月
项目人数:6 人
项目描述:参与实时 FlinkDsl 的功能增强工作,让用户能在界面上完成 Lambda 架构数据的操作
流程。简化用户开发工作。可以将 kafka 摄取的数据进行 ETL 等操作。
责任描述:
1、参与实时 FlinkDsl 的功能增强工作,负责实时调试模块的设计和开发。在用户完成实时流
的配置时,可以通过界面点击查看每个实时算子的数据流向和具体数据,降低用户的使用成本。
2、负责 Flink checkpoint 小文件合并的预研和开发工作。
项目名称:apache kylin 下推引擎修改
使用技术:apache kylin+apark+hive+trino+clickhouse+apache calcite
开发周期:3 月
项目人数:5 人
项目描述:将原有的 apache kylin 下推引擎修改为 trino 和 ClickHouse,使用 apache calcite 对
SQL 进行解析并且完成 SQL 的下推,将冷数据下推至 trino,热数据下推至 ClickHouse,提升数
据查询性能。完成基本 SQL 秒级内查询的需求。
责任描述:
1、负责 apache calcite、clickhouse 的引入和引入设计。
2、参与 ClickHouse 和 HDP 平台融合评审
3、负责 clickhouse 的参数调优和使用调优工作,输出最佳使用文档。
4、负责热数据迁移 ClickHouse 和下推至 ClickHouse 的功能。
项目名称:云 ClickHouse 开发
使用技术:ClickHouse+spring boot
开发周期:2 月
项目人数:5 人
项目描述:完成 clickhouse 上托管云的开发工作。和低代码平台融合。让用户能在低代码平台中
完成对 ClickHouse 开发工作。
责任描述:
1、clickhouse 上托管云安装设计和开发。
2、参与 ClickHouse 性能测试评审
3、负责 clickhouse 的参数调优和使用调优工作,输出最佳使用文档。
4、负责数据服务模块
项目背景:为一家本地的瑜伽工作室设计并开发一个品牌官网。官网需要展示课程信息、师资力量,并允许用户在线预约体验课。 • 我的角色:独立开发者(或说明你的角色)。 • 技术选型: • 前端:HTML5, CSS3, JavaScript (E
项目背景:为某小型公司的财务部门开发一个自动化脚本,用于每周定时从特定格式的Excel文件中提取数据,生成财务简报报表,并通过邮件自动发送给相关负责人。 • 我的角色:独立开发者。 • 技术选型: • 语言:Python。 • 核