ID:141033

狂气科科

大数据工程师

  • 公司信息:
  • 深圳市筑龙信息技术优先公司
  • 工作经验:
  • 5年
  • 兼职日薪:
  • 800元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 深圳
  • 福田

技术能力

1 大数据
对apache hadoop 和cdh hadoop 较为了解,善于设计大数据库平台架构,能编写自动部署脚本;
可以快速搭建起大数据平台,并且会维护

对hive hbase spark kafka等技术熟悉,阅读过spark的源码

善于用pyspark scala 进行数据挖掘,熟悉spark core sparksql sparkgraphx spark mllib

善于解决hadoop生态圈林林种种的坑。

2 python 熟悉python边边角角
数据分析:numpy scipy pandas 等
python web:掌握django flask
运维:掌握linux和fabric
机器学习:熟悉sklearn库,熟悉分类/聚类/推荐 神经网络等
图像处理:PIL
3 数据仓库
主要对四大关系型数据库:postgresql mysql sqlserver oracle 熟悉,善于数据库编程

数据仓库建模,善于使用ETL工具---kettle为主,善于设计数据仓库。

项目经验

1 深圳市企业统一代码大数据仓库库搭建

以深圳市工商企业登记数据为核心,整合税务/社保公积金/法务/招商等部门的数据,搭建统一代码库;

1)该数据仓库难点在,涉及部门多,每个部门数据交互方案不同;

2)业务复杂,ETL程序编写繁重而复杂

3)放弃传统数据库,基于hadoop平台搭建
选择云服务器,选择了redhat 7,3 作为集群的操作系统;选择了cdh,作为hadoop平台,数据存储在hive和hbase中;
用kettle编写ETL程序。
该项目历时1年半,我从零参与,主导所有流程。

2 深圳市筑龙科技,深圳市数据中心搭建

该项目搭建中:也是以cdh作为数据平台,业务为招投标数据;

不一样的地方在关系数据特别多,涉及许多图算法

1)搭建neo4j图数据库

2) 批量图运算,借助sparkx

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服