1. 掌握 Hadoop 的三大组件 HDFS 读写流程、MapReduce 计算流程以及 Yarn 资源调度以帮助项目技术选型
2. 掌握 Hive 的基本原理,有调优经验以及大型数据库架构建模经验,熟练使用 HiveSQL 进行指标计算
3. 掌握 HiveSQL 语法 ,熟悉数据仓库相关开发,Hive 分区分桶表的相关使用,了解 Hive 在 join 的相关优化
4. 掌握 MySQL 语法,并使用 SQL 完成业务开发以及使用聚合函数、窗口函数完成需求实现
5. 掌握 Pyspark(自定义 UDAF 函数编写工具类脚本)、使用SparkSQL 进行离线数据的计算,以及常见的 Spark 优化
6. 掌握 Python语言,使用Python将Kafka和Spark进行整合编写StructStreaming程序对数据进行实时计算
7. 掌握 Sparkcore DAG运行机制和任务提交及内存调优实现降低内存开销快速打标签操作
8. 掌握 Linux 命令 ,能够编写集群启动、分发、使用 Shell 脚本完成项目的周期调度和自动化任务
9. 掌握Docker容器化开发环境、基于window、Ubuntu、VScode、jupyter开发课程实训代码
10. 掌握嵌入式系统Raspberry系统部署并集成温湿度、人体红外、光照传感器模块实时采集数据
11. 掌握部署FlinkCDC同步MySQL环境配置并进行数据实时计算。
12. 掌握 MySQL 数据源授权、DataWorks 离线 / 实时同步任务配置,含字段映射、调度依赖等;实现 MySQL 表批量 / 实时同步至 MaxCompute
13. 掌握 ODPS SQL 编写、动态分区参数配置、调度依赖设计;完成数据聚合计算,结果表按周期自动更新
14. 熟悉 DolphinScheduler 分布式架构中的监控与报警功能,以及对集群的高可用和高扩展性的理解,实现大规模任务调度和并发执行
项目一:商兴(北京)科技有限公司 2025.5-2026.3
主营业务线:人工智能、大数据、虚拟现实
一般项目:技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;教育咨询服务(不含涉许可审批的教育培训活动);教学专用仪器销售;电子专用设备销售;软件开发;信息技术咨询服务;智能控制系统集成;计算机软硬件及辅助设备零售;人工智能基础软件开发;人工智能公共服务平台技术咨询服务;会议及展览服务;实验分析仪器销售;通讯设备销售;电子产品销售;网络设备销售;计算机软硬件及辅助设备批发;业务培训(不含教育培训、职业技能培训等需取得许可的培训)。
研发课程:
大数据分析+大数据计算引擎+数据分析工具+大数据存储+大数据平台部署与运维+大数据采集+大数据挖掘+大数据可视化+大数据治理+大数据资源管理与服务协调+大数据预处理+大数据文旅综合项目开发课程
个人职责:
1、在高职院校给七个班级讲解通识课与专业课实训,专业课架构为围绕 Hive+Hbase 的实训过程;
2、开发内置Hive、Spark、Flink、Hbase、Clickhouse、radis、dataX、DS等与CDH架构服务的三台实训虚拟机与教学文档;
3、研发 Docker 容器与在内部署大数据服务组件与k-means相关算法教学文档。
4、服务器部署与容器编排管理及资源调度及容灾备份
5、基于嵌入式开发板开发可视化桌面系统并集成传感器实时采集数据并入 mariaDB(MySQL) 数据库
项目二:广州魄宇汽配中台 2025.2-2025.4
公司自2016年开始主营汽车零配件线上销售,主营美国市场, 汽车零部是长尾的标准工业产品,专业度要求高,商品动销慢。公司通过跨境电商平台向美国消费者销售汽车零部件产品。销售渠道涉及 EBay,Amazon,Walmart 和独立站。我们的愿景:希望每一个美国的车主,车身需要更换零部件的时候,都能在我们的销售渠道买到适配自己车型的零部件。经过7年发展,公司搭建及完善的美国汽车车型数据库、汽车零部件商品数据库,有自己的技术开发部门,自建了供应链对接ERP系统、Ebay刊登系统、Amazon刊登系统、订单 ERP 系统。
技术架构:
MySQL+PostgreSQL+ClickHouse+Doris+Hive+Zookeeper+DataX+DolphinScheduler+Jenkins+GitLab+Davinci Web(自研)
个人职责:
1、在Doris中构建数据仓库,构建日均处理2TB增量数据的实时分析平台,将复杂查询响应时间从25分钟缩短至8秒;
2、将近五年累计得近3TB Hive 离线数据迁移至 Doris ,划分系统商品,订单,店铺,库存业务线;
3、临时需求开发与商品刊登数据,是否自动刊登数据,订单数据量,库存更新数量等指标需求开发
4、统一指标口径与编写指标字典,元数据管理,完善维度模型与重量、成本计算模型
5、编写技术文档补充公司知识库
6、迁移初代BI系统28张核心报表,基于 Doris 物化视图技术构建15个实时数据服务API,运营团队自助生成分析报告的比例从20%提升至75%,月均减少人工取数需求60+次。
7、开发新的报表视图供给运营和数据分析师做数据分析
8、优化 Hive 核心代码逻辑减少单表九亿条数据连接查询响应时间
项目三:零售全链路分析平台 2024.9-2025.1
该项目基于人人乐大型连锁商城研发的大数据分析平台。项目背景及目标:随着业务数据量的不断增加,传统的数据处理技术已经无法满足企业的经营分析需求。公司需要基于大数据技术构建数据中心,以挖掘隐藏在数据背后的信息价值, 从而为企业提供有益的帮助,带来更大的利润和发展机会。主要围绕以下零售环节的数据和信息展开分析:销售、订单履行、会员管理、商品管理、客户服务。通过大数据分析,实现目标:提升订单履行效率、降低运营成本、提高客户服务水平、优化库存管理、增加营收、根据数据分析结果,提出具有中观指导意义的解决方案。系统架构:该项目采用离线数据仓库架构,分别对以下四个主题进行数据仓库建模分析:销售(核销)情况、会员信息、供应链、商城需求。
技术架构:
Mysql+SQLServer+CM+Zookeeper+Yarn+DataX+Pre
| 角色 | 职位 |
| 负责人 | AI大数据开发工程师 |
| 队员 | 产品经理 |
| 队员 | 前端工程师 |
| 队员 | 后端工程师 |