ID:406388

咖啡不加糖

ETL工程师

  • 公司信息:
  • 江苏南山软件有限公司
  • 工作经验:
  • 4年
  • 兼职日薪:
  • 1500元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 广州
  • 白云

技术能力

1、本人是计算机专业毕业,至今有四年ETL开发经验,做过银行的数据迁移和监管报送项目。
2、数悉数据治理内容和标准,包括元数据管理、数据标准管理、数据质量管理、数据资产管理、数据安全管理。
3、熟悉数据仓库的维度建模、数据仓库建模分层,数据仓库建模流程,熟悉数据分区策略,数据生命周期管理,缓慢变化维处理策略。
4、熟练掌握ORACLE数据库,熟悉数字函数、日期函数、字符函数、条件函数的使用,熟悉(PL/SQL)存储过程、函数的编写,开窗函数的使用及SQL调优。
5、熟练掌握sqoop/kettle/datax等数据抽取工具的使用,熟悉ETL的导入导出,ETL中的表输入、转换操作、表输出。
6、熟悉hadoop、hive、spark等数仓工具的使用 ,以及hadoop中hdfs、mapreduce、yarn等组件的使用。
7、熟悉Linux操作系统,如Ubuntu系统,熟悉文件目录类基本命令的使用、权限设置和进程管理命令使用,还有文件的解压缩命令等。
8、熟悉掌握azkaban、airflow等调度工具的使用,DAG有向无环图的使用,任务的创建,依赖的处理,设置定时器执行。
9、熟悉prometheus时序数据库的使用,熟悉snmp简单网络管理协议的使用,熟悉grafana的看板创建使用及配置。
10、熟悉linux系统shell脚本的编写,熟悉变量的使用与传参,字符串数组的使用,基本的算术、关系、逻辑、字符串、文件测试运算,还有流程控制、循环,函数的定义调用。
11、熟练掌握报表可视化工具FineReport 服务器数据集的数据库查询的添加,普通报表、自由表、交叉表、子表、图表、填报报表的创建,函数的使用、按钮控件的使用、数据字典的设置。
12、拥有微软Maintain disks and volumes的认证,帆软FCA-FineReport认证,华为数据管理与分析结课认证。
13、熟悉版本控制工具Git、SVN的使用,能够进行仓库的创建,导入导出,版本的检出,更新提交等常用操作。

项目经验

项目一 广州地铁集团有限公司穗腾大数据治理项目
技术栈:hive+hadoop+数据中台
项目背景:随着业务线上化、IoT设备普及、用户行为数字化,以及业务数据量的增长,需要对数据进行统一管理,降低数据冗余度,解决数据质量低下问题,将各部门或系统独立建设的数据进行统一和跨部门共享和整合,提高业务协同处理效率。通过数据治理实现数据标准化,为数据中台提供高质量数据底座。
职责:1、参与地铁线路指标的核对整理,根据HIVE SQL代码和数据中台的数据表之间的映射关系,梳理出来源系统以及指标的计算方式,确认指标的完成度,并整理成表格。
2、参与数据的核对,参与设备所属专工会议,确定数据涉及设备的位置、编号及归属系统,以及根据不同专业系统和物模型中数据对limis编码进行关联,完成数据标准化匹配。
3、通过数据中台根据数据资产分类标准进行数据资产的分类,根据数据资产安全分类分级标准进行数据资产安全的分类分级,并分别整理成数据资产分类以及数据资产安全分类分级表格。
4、整理公共线路站点的标准表,通过标准表跟不同业务系统的线路站点表进行关联,实现数据的标准化。
5、协助业务人员进行设备数据的人工校验和修正,以确保设备数据的完整性,确保数据不缺失,无空值。
6、通过数据中台配置数据质量探查任务,探查数据质量的空值率、重复值等,用以评估表级数据、字段级 数据在准确性、完整性、一致性、可靠性等方面的评分。
7、配置数据汇聚作业,配置需要采集数据的表、字段,配置汇聚作业的生命周期和采集频率,完成数据从源系统采集到目标系统的操作,实现增量或全量更新,并将数据汇集作业做成表格。
8、通过hive sql配置ods层各数据库表的comment注释表名,便于数据中台元数据采集完成采集,实现对表中文名的获取和修改。
项目二 辽宁振兴银行数据下发-统一监管报送平台项目
技术栈:hadoop+linux+shell+airflow+hive+svn
项目背景:为响应央行《金融数据安全分级指南》及银保监会EAST5.0报送要求,我行需重构现有监管报送平台, 解决数据口径不一致、手工加工耗时等问题,通过建设标准化数据仓库与自动化报送流程,确保合规并降低操作 风险。
职责:1、通过大数据基础交换平台BDIEP进行文件订阅,在浏览器输入调度平台网址,使用账号登录,进入首页,点击左侧导航栏中的文件订阅,并在右侧根据系统名称、数据文件名等信息组合筛选想要入湖的文件,配置启动日期即可启动作业流。
2、参与业务调研,进行需求分析,理解业务过程和决策需求,识别关键业务实体和关系,编写BDM基础数据层、CDM公共模型层数据模型mapping映射文档。
3、参与BDM基础数据层开发,根据前期调研好的源表清单和mapping映射文档进行shell脚本开发,完成数据的清洗处理。
4、根据完善好的mapping映射文档进行脚本开发,定义表结构、关系和属性,确定表名、确定字段的类型、字段的属性,并进行相应的分区、分桶操作。
5、通过hive sql内置函数或UDF自定义函数,进行敏感字段的脱敏,保护个人隐私、企业机密,确保数据资产安全。
6、通过Airflow进行脚本任务调度,可视化监控ETL作业执行状态,设置告警机制及时发现处理异常情况。
项目三 辽宁振兴银行储蓄系统数据迁移项目
技术栈:linux+shell+hue+hive+hadoop
项目背景:随着银行业务规模扩大,储蓄系统积累了海量数据,其中高频访问的热数据(如近期交易记录、活跃账户信息)与低频使用的冷数据(如历史流水、已销户档案)混合存储,导致查询效率下降、存储成本攀升。为优化系统性能并降低成本,现计划对数据进行分级存储迁移。
职责:1、根据需求文档,确定迁移范围(全量或增量),识别关键数据实体(客户、联系人、交易记录等),评估数据量大小和复杂度。
2、对来源表信息进行调研梳理,根据来源表信息整理BDM(基础数据层)基础数据映射关系,对业务口径进行调研整理。
3、采用Shell脚本开发ETL流程,整合数据抽取、清洗、转换和加载环节,通过Hue进行hive sql自测。
4、优化Hive表存储结构,根据数据特征设计合理分区策略和分桶方案,调整MR任务优化资源配置,合理利用集群并行处理能力。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服