猿急送>

长沙Python兼职程序员

ID：338279

聖賢

数据开发工程师

公司信息：
惠尔康

工作经验：
2年

兼职日薪：
500元/8小时

兼职时间：
下班后

所在区域：
长沙
全区

技术能力

精通Spark技术栈，擅长利用SparkSQL配合SparkCore对结构化数据执行深度的数据清洗与分析任务，有效解决业务中的复杂数据处理需求，确保数据质量和可用性。

娴熟掌握Python编程，能够编写及优化数据分析脚本，针对不同的业务场景进行数据探索、预处理、特征提取以及初步的数据建模工作。

精于Linux系统管理，不仅熟悉日常运维所需的常见命令操作，还能编写和调试简单的Shell脚本以提升数据处理过程中的自动化程度。

深入理解Hadoop生态系统，熟知HDFS作为海量数据存储层的工作机制，了解MapReduce编程模型在大规模数据处理中的原理和应用场景，同时也通晓Yarn作为资源管理器的角色及其在集群资源分配和任务调度方面的运作机制。

数据传输与调度实战经验，熟练运用Datax、Sqoop等工具实现实时或批量的数据迁移任务，将数据从各类数据库系统高效导入至大数据仓库；同时，能够灵活运用Azkaban和Oozie等调度框架搭建数据处理工作流，确保数据管道稳定、可靠运行。

无缝对接多种数据源与存储系统，可根据具体业务需求，有效地整合MySQL、Hive等多种数据存储工具和技术，实现数据在不同系统间的顺畅流转。

扩展至数据采集领域，熟练运用爬虫技术捕获网络上的结构化与非结构化数据，将其集成至数据清洗和分析的全流程中，极大地拓宽了数据来源，支持更全面深入的业务洞察和决策支持。

项目经验

项目一：HERK用户画像个性化推荐平台
项目周期：2023.5-2023.12
项目描述：
该项目是基于我们公司的电商数据仓库，专为公司商城的用户设计的一个用户画像平台。它通过分析用户的社交属性、生活习惯和消费行为等信息，创建出一个标签化的用户模型。这个模型旨在为用户提供个性化的产品推荐，并为我们的决策提供数据支持。数据来源主要包括Mysql中的用户表、订单表、订单商品表以及用户行为日志。从四个主要维度来给用户打标签：人口属性（如性别、职业）、商业属性（如消费能力）、行为属性（如购物频率、浏览习惯）和用户价值（如购买力、忠诚度）。标签的实现方式主要有三种：规则匹配类标签（例如根据用户提供的信息判断其性别和职业）、统计类标签（例如通过分析用户的购物记录计算其消费周期和支付偏好）以及挖掘类标签（例如通过机器学习算法预测用户的潜在需求）。
项目架构：
Hadoop+SparkSQL+MySQL+Elasticsearch+DataX+Flume+SparkMLIB+DolphinScheduler

责任描述：
1. 将Hive中经过数据清洗和ETL（提取、转换、加载）处理后的订单表、订单商品表、用户表等业务数据迁移到Elasticsearch中。这些数据为后续的标签开发提供了基础。
2. 使用SparkSQL进行性别、年龄、职业等规则匹配类标签的开发工作。
3. 同样利用SparkSQL完成消费周期、支付方式等统计类标签的开发。
4.进行代码重构，针对工具类、公共模块和重复功能进行提取和封装。例如，可以将标签开发流程提炼为一个抽象的父类，以便于复用和管理。
5.通过走查代码并进行优化，如减少无条件join、精简action算子、优先过滤数据、调整分区数等，可以提升代码执行效率和资源利用率，从而提高整体性能和代码质量。