1.熟练使用Linux常用的操作命令,能编写常用的shell脚本;
2.熟悉Java,Python语言的使用,能独立编码、有良好的编程风格, 熟悉并使用过python web框架 Flask,对django框架有一定的了解;
3.对关系型数据库MySQL、Oracle有编程经验, 熟悉数据库索引优化,对前置/后置触发器有使用过;
4.熟悉 python常用的爬虫请求库urllib、requests、selenium自动化以及解析库 Xpath,bs4等,了解并使用过 Scrapy 爬虫框架;
5.掌握Hadoop体系架构,理解MapReduce的工作原理,以及Hadoop的分布式存储机制HDFS原理,Yarn工作原理,常用的调度策略等,熟练搭建Hadoop集群;
6.熟悉Hive的架构及原理,掌握Hive开窗函数、系统自带函数、自定义UDF和UDTF函数,熟悉Hive优化、数据倾斜问题的解决,能够使用HQL对海量数据进行处理分析;
7.熟悉数据仓库分层,维度建模,事实表设计等流程,熟悉一些常用的指标计算,对数据治理有一定的了解,对于数据标准管理、数据质量管理以及Atlas元数据管理等有过项目实践;
8.对ETL有成熟认识,能熟练利用sqoop,datax完成Mysql、HDFS、Hive数据导入导出工作,并能编写cron任务完成数据定时提取和转存(对Dolphinscheduler、Azkanban定时调度任务也有使用过);
9.掌握Zookeeper常用命令、熟悉zookeeper的选举机制、节点类型以及监听器的使用;
10.掌握Kafka基本组成架构,熟悉kafka分区分配原则、ack应答机制、副本同步策略、ISR同步队列以及幂等性+事务;
11.熟悉Spark工作原理和Job工作流程,熟练使用Spark SQL做数据清洗,数据汇总,指标计算, 掌握RDD、DataFrame、DataSet的相互转换以及自定义UDF函数,了解SparkStreaming与StructuredStreaming的原理及区别;
12.掌握开发工具包pandas,numpy的使用,熟悉Matplotlib等可视化工具做可视化分析;
13.熟悉常用的机器学习算法(如朴素贝叶斯,决策树等),熟练运用Scikit-learn中提供的机器学习算法;
14.掌握常用
项目名称:智慧金融平台项目
项目角色: 数据开发工程师
职责内容:智慧金融平台为金融系的业务中台,用于支撑各bu之间的数据共享及工作协同,我负责的主要分为4个项目的开发,分别是:舆情Risk+系统(负责整个系统的前后端开发以及nlp舆情评分模型接入,用到的技术有python Flask, Bootsrtap, Javascript, Axios,nlp等);金控战略管理驾驶舱数仓(主要负责的是数据采集、数据清洗、数据指标梳理、搭建数据仓库以及sql指标开发等)以及资本数据湖平台搭建(搭建hadoop HA集群、hive数仓对接业务系统以及集团协同数据,通过ETL抽取业务数据到HDFS中、以及各业务系统之间的数据共享,业务报表指标开发,用到的技术有datax、sqoop, dolphinscheduler、hadoop、 hive、spark等);金融研究系统主要负责数据采集、数据监测的工作(requests爬虫、rpa自动化爬虫,Scapy框架等,并对各种反爬反反爬机制有所研究,如旋转滑块验证码,图片数字验证码、短信验证码等等)。
项目名称: 交通数据项目
项目角色: 数据开发工程师
软件架构:MRS+DWS+dataxweb+datax+kafka+java+clickhouse+dataease
项目描述:负责大数据组件的安装和部署以及二次开发,接入项目中的离线和实时不同类型的数据源到DWS数据库,并分析业务需求做数据仓库的建模和开发和可视化页面各种图标的开发。后期对数据服务做监控和维护。
责任描述:
1.负责项目上datax,datax-web的安装部署以及datax-web的二次开发,并对clickhouse,postgres,DWS等数据库的数 据做ETL并设置数据调度任务和监控。
2.基于华为数据库DWS做交通数据的建模开发,使用开源dataease做数据的可视化展示
3.实时接入kafka的数据到clickhouse数据库,并对数据指标做实时的汇总计算最后展示在前端页面。
4.对DWS数据库中接入的数据做AES-ECB模式的加密和解密的数据服务功能。
1.立项背景和目标:需要对主流金融网站上的常见金融指标数据进行分析,需要获取实时的数据做量化分析 2.软件功能、核心功能模块的介绍:(1) 爬虫任务定时执行、任务状态检测平台采用dolphinschduler开源框架 (2) 爬取数据采用request,selenium,pla
项目名称: 亚马逊商品关键词分析和广告搜索排名报表开发 软件架构:AWS+EMR+python+sqoop+mysql+hive+clickhouse+powerbi 项目描述: 负责开发公司亚马逊关键词的分析报表、商品广告自然搜素排名报表,分析对比公司商品与竞品的关键