ID:332700

二十一克灵魂

数据工程师

  • 公司信息:
  • 小米
  • 工作经验:
  • 4年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日远程
  • 所在区域:
  • 北京
  • 海淀

技术能力

1. 熟悉使⽤ Java、Scala 编程语⾔;
2. 熟悉 JVM,了解基本的 JVM 调优;、
3. 熟悉常⽤的大数据工具;
4. 熟悉常⻅的数据结构和算法;
5. 熟悉 Spark、Flink、Hbase、Kafka 等⼤数据组件;
6. 阅读过 Spark 核⼼源码,熟悉 Spark 任务提交、存储系统、Spark SQL 等组件的流程与实现。
7. 阅读过 Flink 核⼼源码,熟悉 Flink 任务提交、Graph ⽣成过程、State 管理等组件的流程与实现。

项目经验

1. ⼈群标签开发
项⽬描述:标签管理是 DMP 平台的主要功能之⼀,通过对上游数据基于 Spark、Flink 进⾏加⼯,⽣成⼈群标签 供⼴告主进⾏圈选,⽤于⼴告定向。
责任描述:
1. 负责 OTT 设备所有标签开发以及⼿机设备的⽤户⾏为标签开发,使⽤ Spark 处理上游⽤户画像宽表,每⽇定 时调度,产出离线标签,封装成 Bitmap,存⼊ HBase 中;
2. 使⽤ Flink 处理⽤户⾏为打点⽇志,产出实时标签,写⼊ Redis 中,供⼴告引擎在线读取;
主要成果:
产出基础属性、设备属性、⽤户⾏为、兴趣娱乐、消费能⼒ 5 类共 25 个标签。

2. 离线任务优化
项⽬描述:
针对 DMP 平台原有以 Spark Client ⽅式提交的离线任务进⾏优化。
责任描述:
1. 独⽴完成服务的架构设计、开发
2. 以 DB 为队列,通过建⽴⼀个调度表存放任务信息,通过接⼊⼀层 dispatcher 服务消费 DB 中的任务,以 Spark Cluster 的⽅式提交任务,并通过 YARN 接⼝实时检测任务的执⾏状态及时进⾏失败重试;
主要成果:⽬前已接⼊ 5 类 DMP 离线任务,⽇均任务 1500+,优化前平均等待时间 150 分钟+,优化后平均等 待时间 40 分钟+,缩短 110 分钟,效率提升近 2/3

算法实时特征
1. ⽤户 APP 实时使⽤特征
项⽬描述:对⽤户使⽤ APP 的下载、安装、更新、打开等实时事件进⾏处理,⽣成实时序列、统计量特征,写⼊ 特征管理平台,供算法团队使⽤。
责任描述:
通过消费上游设备事件埋点⽇志,处理⽤户⾏为⽇志,利⽤ Flink 的 ProcessFunction + Timer 实现每分钟更 新⽤户过去⼀⼩时的实时时间,⽣成不同维度的特征序列写⼊特征管理平台。
主要成果:处理上游 5W 条/S ⽇志信息,向下游输出 100W 条/S 特征,产出各种维度组合特征 60 个

案例展示

  • DMP 平台

    DMP 平台

    DMP (Data Management Platform) DMP可以被解释为数据管理平台,从各方搜集数据并分析后,它可以协助广告投放平台去锁定特定人群,使广告投放更精准。 DMP被设计做为协助广告投放平台锁定人群投放广告的功能,它会从不同来源收集数据,然后对该数据

  • Spark 离线任务优化

    Spark 离线任务优化

    项⽬描述: 针对 DMP 平台原有以 Spark Client ⽅式提交的离线任务进⾏优化。 责任描述: 1. 独⽴完成服务的架构设计、开发 2. 以 DB 为队列,通过建⽴⼀个调度表存放任务信息,通过接⼊⼀层 dispatcher 服务消费 DB 中的任务,以 Sp

  • Spark 离线任务优化

    Spark 离线任务优化

    项⽬描述: 针对 DMP 平台原有以 Spark Client ⽅式提交的离线任务进⾏优化。 责任描述: 1. 独⽴完成服务的架构设计、开发 2. 以 DB 为队列,通过建⽴⼀个调度表存放任务信息,通过接⼊⼀层 dispatcher 服务消费 DB 中的任务,以 Sp

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服