ID:250184

kevin2010

高级数据架构师

  • 公司信息:
  • di_di
  • 工作经验:
  • 4年
  • 兼职日薪:
  • 1000元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 杭州
  • 余杭

技术能力

1.了解Linux操作系统,掌握大数据集群相关Linux指令。能够编写数仓相关的Shell脚本。
2.精通Hadoop。熟悉HDFS的文件管理系统的结构和存储机制,熟悉Yarn的资源
调度的过程以及任务分配流程,以及看过一部分相关的MapReduce的源码。
3. 熟悉Flume日志采集功能,了解Sink、Channel、Source的架构,可以根据需求,选择合理的sink、source类型,并且编写相应的配置文件。
4. 精通Kafka框架。掌握Kakfa的基本架构。并且可以搭建维护Kafka集群。熟悉Kafka
的底层存储文件机制,能够运用Kafka和Flink实现精准一次性消费。
5. 熟悉ZooKeeper工作机制,了解ZooKeeper同步数据原理,能够运用ZooKeeper解决集群单点故障。
6. 熟悉 MySQL 数据库,了解一些SQL的优化。以及一些SQL语句的执行顺序。
7. 熟悉 Sqoop的原理。能完成将数据从Mysql、HDFS、Hive 三者之间互相传输的操作。
8. 精通Hive 工具,了解Hive基本的运行原理。可以通过编写hive的HQL语句实现业务
需求。
9.熟练掌握Spark框架,熟悉Spark底层运行原理,能够灵活应用Spark+Redis、Spark+MySQL、Spark+ES完成实时需求。
10.熟悉Redis数据库,基本掌握五大数据类型。能够运用过期函数和同步锁。
11.熟悉Kettle,可以通过Kettle对文件离线或者实时做ETL操作。
12.熟练掌握Flink框架,理解水位线、检查点等概念。可以通过SQLAPI以及底层API实现
基本需求指标。
13.了解ElasticSearch数据库。可以通过创建模板向ElasticSearch里面传输数据,通过
倒排索引进行模糊查询查询数据。
14.熟练掌握HBase数据库。针对HBase相关测试、部署、调优有着一定的经验。负责HBase底层开发工作。

项目经验

• HBase 框架RDMA特性开发项目

开发环境:Linux Idea
框架技术:HBase、Netty、RDMA
项目描述:
HBase原生采用Netty实现的RPC远程调用,实现方式为传统的TCP/IP技术,对于网络传输需要CPU将数据进行copy。而RDMA可以通过具有其特性的以太网卡进行源与目标之前的可靠连接。使用RNIC的应用程序之间使用专注的QP和CQ进行通讯。不需要CPU的参与,减少上下文切换。
主要职责:
1、分析HBase底层Netty实现。梳理源码调用流程。分析相关接口。整理调用栈。
2、设计RDMA接口,梳理RDMA调用关系。适配其客户端与服务端代码。
3、编译、部署、并执行相关测试用例分析性能结果。
技术描述:
1、分析当RegionServer 为服务端,客户端发送请求时的整个调用流程,画出调用关系栈,找出相关接口进行调配。
2. 设计RDMA客户端与服务端接口,首先通过Buffer将数据在内存中注册。然后把需要发送的请求封装为相应的call添加到Buffer中。把注册好的内存封装为Sge放入到消息列表。再将消息列表添加到WR中,当WR被放入SQ队列中之后具有RDMA功能的网卡会驱动发送数据。发送成功后返回给CM队列。代表数据发送的任务成功。接收端与发送端逻辑一致。
3.对修改后的RDMA代码的HBase进行编译部署,通过PE工具进行测试验证。

• 实时数据分析系统_Flink

开发环境:Linux、Idea
框架技术:Flume、Kafka、Flink、MySql、Scala、Canal、Redis
项目描述:
面对越来越高的实时性需求,公司决定引进Flink框架对原来有的Spark
Streaming 程序进行完善。将实时部分的项目渐渐迁移到Flink来完成。由此获取
低延时,高容错性的结果。为用户提供更完美的购物体验,从而提高公司商品的销
量,增加公司利润。
主要职责:
1、负责业务数据和用户行为日志的实时采集、计算、存储。
2、负责开发实时指标:实时统计用户人数,交易总额总数。
3、负责开发实时指标:实时统计一个小时内商品TOPN详情指标。
4、负责开发实时指标:实时监控用户登录,以及支付状态异常。
5、负责开发实时指标:实时统计各APP分渠道用户数量。
6、负责开发实时指标:实时更新订单以及订单详情状态。
技术描述:
1、实时项目的数据来源主要有两种。一种为前端埋点的Log日志,另一种为
在Mysql中变动产生Binlog日志。
2、Flink将前端的流量数据与MySQL的业务数据同时读入Kafka的不同Topic。
3、实时架构分为三层,分别为OSD(数据操作层),DWD(明细层),以及DIM(维
表层)。其中ODS、DWD、DIM层均存储在Kafka内。
4、将来自埋点的流量数据以及Binlog的数据存入ODS层。
5、从Kafka中读流量数据和MySQL事实表变化数据进行解析,脱敏,ETL,之
后存入DWD层,其中业务数据是从Mysql中通过Canal读入Kafka内。
6、从MySQL中读取到的维度表相关业务数据通过Canal导入MySQL最终读入
Kafka生成DIM层数据。
7、编写Flink的API对数据进行业务处理,获得结果存入MySQL内
8、通过SuperSet连接MySQL进行实时大屏展示指标数据。

案例展示

  • HBase框架RDMA特性开发项目

    HBase框架RDMA特性开发项目

    开发环境:Linux Idea 框架技术:HBase、Netty、RDMA 项目描述: HBase原生采用Netty实现的RPC远程调用,实现方式为传统的TCP/IP技术,对于网络传输需要CPU将数据进行copy。而RDMA可以通过具有其特性的以太网卡进行源与目标之前的可

  • 实时数据分析系统_Flink

    实时数据分析系统_Flink

    开发环境:Linux、Idea 框架技术:Flume、Kafka、Flink、MySql、Scala、Canal、Redis 项目描述: 面对越来越高的实时性需求,公司决定引进Flink框架对原来有的Spark Streaming 程序进行完善。将实时部分的项目渐渐迁移

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服