ID:409829

starzy 有团队

大数据高级专家

  • 公司信息:
  • 波司登
  • 工作经验:
  • 13年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 天津
  • 全区

技术能力

数据架构:数据建模(维度/范式)、数据中台、湖仓一体、实时数仓
数据治理:元数据管理、数据质量、主数据标准化以及数据安全
技术栈:精通 Hadoop、Spark、Flink、Starrocks、kafka 等大数据计算和存储技术栈;
了解 HDFS、Hive、Spark 源码和 shuffle 原理机制,以及善于 Hive、Spark、Flink 的调优;
理解 IO、多线程、集合等基础框架,熟悉 Spring、SpringBoot、Mybatis 等开源框架;
熟悉业界相关大数据平台(dataworks,dataphin)和 BI 产品(smartBI、帆软);
编程语言:熟悉常用数据结构和算法,擅长 Java、scala 编程语言,熟悉 JVM 机制,熟悉 shell、python
等脚本语言;

项目经验

特征工程
项目架构:
• 实时特征计算体系:基于 Kafka 构建高吞吐行为日志管道,通过 Flink 实现分钟级窗口聚合、多流
Join 等实时计算,结合 Redis 维护用户行为状态,产出实时特征写入 HBase 提供低延迟查询
• 离线特征计算体系:采用 Spark 进行 TB 级历史数据批处理,通过 Hive 构建分层主题数仓
(ODS/DWD/DWS),利用 DolphinScheduler 实现特征任务 DAG 调度与资源动态伸缩,计算结
果持久化至 HBase 与业务系统对接
• 特征服务平台:基于 HBase 二级索引与 Redis 缓存构建特征服务 API,支持推荐/搜索系统毫秒级获
取百维特征向量
项目描述:
构建集团级全渠道特征中台,整合用户端埋点、订单交易、商品库存等 10+业务系统数据,覆盖用户画
像、商品热度、门店运营、渠道转化等 8 大主题域,设计 2000+标准化特征指标。通过准实时(5 分钟延迟)
与 T+1 双链路更新机制,支撑搜索排序、推荐召回、广告 CTR 预估等 10+业务场景的算法模型迭代,日均特
征调用量超 5 亿次,助力核心场景 GMV 提升 12%。
职责与成果:
1. 架构设计:主导特征平台技术选型,设计 Lambda 架构实现实时/离线特征统一存储(HBase 宽表设
计),通过 Flink CDC 实现跨数据源增量同步,解决离线数据与实时业务库数据一致性难题
2. 数据治理:构建特征血缘追踪系统,基于 Spark SQL 开发自动化特征质量检测模块,实现特征覆盖
率、数据分布偏移等 20+监控指标的常态化检查,将特征异常发现时效从小时级提升至分钟级
3. 性能优化:针对 Hive 大规模关联查询场景,创新采用「维度预关联+增量快照」策略,优化后周级特
征计算任务耗时从 4 小时降至半小时以内;通过 Redis Pipeline 改造特征写入流程,吞吐量提升 8 倍
4. 特征开发:主导开发用户复购周期、商品热度衰减指数等 15 个核心业务特征,设计实时特征漂移告警
机制,推动特征回填框架落地,使新特征上线周期从天缩短至分钟级
5. 工程化落地:搭建 DolphinScheduler 集群实现 300+特征任务的智能调度(故障重试/资源动态分
配),通过 Spark 动态资源分配策略降低 30%集群资源消耗,特征服务 SLA 达到 99.95%

团队情况

  • 整包服务: 微信小程序开发   PC网站开发   App开发   运维类开发   DBA开发   
角色 职位
负责人 大数据高级专家
队员 前端工程师
队员 后端工程师

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服