1. 熟练掌握Java、Scala 熟悉Linux 、Shell、Python 。
2. 熟悉MaxComputer、Hologres、clickhouse 、Presto、HBASE、Hive、Flink 、Spark、Kafka、Datahub等大数据处理技术,熟悉性能优化和问题排查等。
3. 熟悉数据仓库开发,数据建模、大数据环境搭建、大数据架构设计 。
4. 对数据采集、数据建模、数据开发、数据治理、数据应用等大数据领域有实战经验善于解决问题和分析问题,攻关系统研发中的重难点技术问题,并制定相关的技术解决方案。
项目名称: 某汽车主机厂大数据分析系统
项目介绍:分别在北汽、上汽、广汽、长安、奇瑞、威马、东风、柳汽、江铃等汽车主机厂设计实施大数据项目,该项目包含TSP数据治理、汽车销售统计模块、驾驶行为分析模块、新能源汽车充电分析模块、汽车故障分析模块、汽车实时故障告警模块、电子围栏、行车轨迹、车机埋点统计模块、电池模型、油耗模型、音乐推荐系统等模块
1. 实时数据处理
(1). TSP车辆数据、故障数据上传至华为云服务器Kafka中
(2). Flink消费kafka中TSP车辆数据进行清洗,进行车辆行程划分、电子围栏报警、行车轨迹等结果数据存入Clinkhouse中
(3). Flink消费kafka中故障数据,进行逻辑处理写入KAFKA中,进行故障报警
(4). Flink消费kafka中的TSP数据写入HDFS中作为离线数据
2. 离线数据处理
(1). 通过spark离线计算读取hdfs数据进行电池充电划分、车机埋点统计、驾驶行为分析、结果数据存入Clinkhouse中进行H5和BI展示
(2). 通过spark离线计算读取hdfs数据进行行程划分、指标统计,结果数据存储到hdfs中,提供给模型开发人员进行驾驶行为分析、油耗模型分析,模型结果数据存储到clickhouse中
(3). 通过spark离线计算读取hdfs中车机埋点数据,进行指标统计,统计结果存在到HDFS中提供给模型人员进行推荐系统开发。
项目介绍:招标数据清洗、GPS数据清洗、基于APP埋点日志和业务数据构建用户画像进行招标文件推荐、匠人推荐 1. 招标数据清洗部分 (1). 爬虫系统爬取招标、中标、拟建数据写入Kafka (2). Flink消费kafka数据进行清洗,Maxwell 同步业务
项目介绍:对用户行为、业务操作进行统计分析、数据挖掘构建用户画像、实现千人千面个性化推荐系统 1. 数据仓库建设 介绍:作为数据的管理和运算中心,为用户画像、推荐系统提供基础数据服务 (1)、数据仓库建模分层设计 (2)、数据清洗(清洗过滤、数据解析、数据集成、数据修正、