猿急送>

广州其它兼职程序员

ID：406388

咖啡不加糖

ETL工程师

公司信息：
江苏南山软件有限公司

工作经验：
4年

兼职日薪：
1500元/8小时

兼职时间：
可工作日驻场（自由职业原因）

所在区域：
广州
白云

技术能力

1、本人是计算机专业毕业，至今有四年ETL开发经验，做过银行的数据迁移和监管报送项目。
2、数悉数据治理内容和标准，包括元数据管理、数据标准管理、数据质量管理、数据资产管理、数据安全管理。
3、熟悉数据仓库的维度建模、数据仓库建模分层，数据仓库建模流程，熟悉数据分区策略，数据生命周期管理，缓慢变化维处理策略。
4、熟练掌握ORACLE数据库，熟悉数字函数、日期函数、字符函数、条件函数的使用，熟悉（PL/SQL）存储过程、函数的编写，开窗函数的使用及SQL调优。
5、熟练掌握sqoop/kettle/datax等数据抽取工具的使用，熟悉ETL的导入导出，ETL中的表输入、转换操作、表输出。
6、熟悉hadoop、hive、spark等数仓工具的使用，以及hadoop中hdfs、mapreduce、yarn等组件的使用。
7、熟悉Linux操作系统，如Ubuntu系统，熟悉文件目录类基本命令的使用、权限设置和进程管理命令使用，还有文件的解压缩命令等。
8、熟悉掌握azkaban、airflow等调度工具的使用，DAG有向无环图的使用，任务的创建，依赖的处理，设置定时器执行。
9、熟悉prometheus时序数据库的使用，熟悉snmp简单网络管理协议的使用，熟悉grafana的看板创建使用及配置。
10、熟悉linux系统shell脚本的编写，熟悉变量的使用与传参，字符串数组的使用，基本的算术、关系、逻辑、字符串、文件测试运算，还有流程控制、循环，函数的定义调用。
11、熟练掌握报表可视化工具FineReport 服务器数据集的数据库查询的添加，普通报表、自由表、交叉表、子表、图表、填报报表的创建，函数的使用、按钮控件的使用、数据字典的设置。
12、拥有微软Maintain disks and volumes的认证，帆软FCA-FineReport认证，华为数据管理与分析结课认证。
13、熟悉版本控制工具Git、SVN的使用，能够进行仓库的创建，导入导出，版本的检出，更新提交等常用操作。

项目经验

项目一广州地铁集团有限公司穗腾大数据治理项目
技术栈：hive+hadoop+数据中台
项目背景：随着业务线上化、IoT设备普及、用户行为数字化，以及业务数据量的增长，需要对数据进行统一管理，降低数据冗余度，解决数据质量低下问题，将各部门或系统独立建设的数据进行统一和跨部门共享和整合，提高业务协同处理效率。通过数据治理实现数据标准化，为数据中台提供高质量数据底座。
职责：1、参与地铁线路指标的核对整理，根据HIVE SQL代码和数据中台的数据表之间的映射关系，梳理出来源系统以及指标的计算方式，确认指标的完成度，并整理成表格。
2、参与数据的核对，参与设备所属专工会议，确定数据涉及设备的位置、编号及归属系统，以及根据不同专业系统和物模型中数据对limis编码进行关联，完成数据标准化匹配。
3、通过数据中台根据数据资产分类标准进行数据资产的分类，根据数据资产安全分类分级标准进行数据资产安全的分类分级，并分别整理成数据资产分类以及数据资产安全分类分级表格。
4、整理公共线路站点的标准表，通过标准表跟不同业务系统的线路站点表进行关联，实现数据的标准化。
5、协助业务人员进行设备数据的人工校验和修正，以确保设备数据的完整性，确保数据不缺失，无空值。
6、通过数据中台配置数据质量探查任务，探查数据质量的空值率、重复值等，用以评估表级数据、字段级数据在准确性、完整性、一致性、可靠性等方面的评分。
7、配置数据汇聚作业，配置需要采集数据的表、字段，配置汇聚作业的生命周期和采集频率，完成数据从源系统采集到目标系统的操作，实现增量或全量更新，并将数据汇集作业做成表格。
8、通过hive sql配置ods层各数据库表的comment注释表名，便于数据中台元数据采集完成采集，实现对表中文名的获取和修改。
项目二辽宁振兴银行数据下发-统一监管报送平台项目
技术栈：hadoop+linux+shell+airflow+hive+svn
项目背景：为响应央行《金融数据安全分级指南》及银保监会EAST5.0报送要求，我行需重构现有监管报送平台，解决数据口径不一致、手工加工耗时等问题，通过建设标准化数据仓库与自动化报送流程，确保合规并降低操作风险。
职责：1、通过大数据基础交换平台BDIEP进行文件订阅，在浏览器输入调度平台网址，使用账号登录，进入首页，点击左侧导航栏中的文件订阅，并在右侧根据系统名称、数据文件名等信息组合筛选想要入湖的文件，配置启动日期即可启动作业流。
2、参与业务调研，进行需求分析，理解业务过程和决策需求，识别关键业务实体和关系，编写BDM基础数据层、CDM公共模型层数据模型mapping映射文档。
3、参与BDM基础数据层开发，根据前期调研好的源表清单和mapping映射文档进行shell脚本开发，完成数据的清洗处理。
4、根据完善好的mapping映射文档进行脚本开发，定义表结构、关系和属性，确定表名、确定字段的类型、字段的属性，并进行相应的分区、分桶操作。
5、通过hive sql内置函数或UDF自定义函数，进行敏感字段的脱敏，保护个人隐私、企业机密，确保数据资产安全。
6、通过Airflow进行脚本任务调度，可视化监控ETL作业执行状态，设置告警机制及时发现处理异常情况。
项目三辽宁振兴银行储蓄系统数据迁移项目
技术栈：linux+shell+hue+hive+hadoop
项目背景：随着银行业务规模扩大，储蓄系统积累了海量数据，其中高频访问的热数据（如近期交易记录、活跃账户信息）与低频使用的冷数据（如历史流水、已销户档案）混合存储，导致查询效率下降、存储成本攀升。为优化系统性能并降低成本，现计划对数据进行分级存储迁移。
职责：1、根据需求文档，确定迁移范围(全量或增量)，识别关键数据实体(客户、联系人、交易记录等)，评估数据量大小和复杂度。
2、对来源表信息进行调研梳理，根据来源表信息整理BDM（基础数据层）基础数据映射关系，对业务口径进行调研整理。
3、采用Shell脚本开发ETL流程，整合数据抽取、清洗、转换和加载环节，通过Hue进行hive sql自测。
4、优化Hive表存储结构，根据数据特征设计合理分区策略和分桶方案，调整MR任务优化资源配置，合理利用集群并行处理能力。