ID:292729

周粥舟

大数据开发工程师

  • 公司信息:
  • 惊弘全智能股份有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日远程
  • 所在区域:
  • 深圳
  • 宝安

技术能力

熟练 Hive、Spark、 进行数据离线分析。
熟悉 Java、Scala 语言 ,遵循阿里 Java 开发规范。
熟悉 Kafka 消息队列;
熟悉 ElasticSearch 全文检索;
熟悉 MySQL、 Redis 数据库与 ClickHouse 数据库管理系统。
使用过 Hbase、 Presto、Azkaban、 Sqoop、 Flume、 DataX 等大数据组件;

项目经验

项目一:数仓分析平台
项目描述:
该项目为分析平台,通过对该平台的用户海量行为数据的采集,统计平台产品的使用数量、年龄分布、地域分 布等数据,用于部门决策和分析,投放对应数量的产品,保证产品对人群使用产品数量的饱和,来提高产品的收益。 离线架构:DataX + Hadoop + Hive + Azkaban
实时架构:Nginx + Zookeeper + Kafka + MySQL + Canel + HDFS + Hive + spark + Hudi + Presto
监控架构:nginx-lua-prometheus + Burrow + burrow-exporter + Prometheus + Grafana + Supervisor + IM 职责:
1、 负责将 Nginx 采集的行为日志数据同步到 Kafka 集群;使用 Canel 监听 MySQL 业务数据库,将业务数 据同步到 Kafka 集群,每张表的数据推送到 Kafka 的指定 Topic;
2、 负责开发 Spark Streaming 程序消费 Kafka 中的行为日志数据与业务数据,对数据进行 ETL 后将数据 先写入 Hudi,之后由 Hudi 同步到 Hive;
3、 负责常规数据指标的 SQL 编写,比如商品分类销量 TOPN,用户消费 TOPN,分地域的订单量等等。 同时 负责常用的 UDF 和 UDAF 的开发,比如 IP 转城市(ip2city),电话号码转城市(phone2city),身份证号转城市 (id2city)以及用户深度分析模型等等;
难点与业绩:
1、 Canal 同步 BinLog 发送 Kafka,BinLog 消息顺序问题,解决方式为设置 Canel 的路由方式为多 Topic 单分区,可以保证表级别的顺序性,一张表写入到一个 topic 的单分区中;
2、 解析数据时,为了保证数据的准确性,先通过请求元数据中心的 Meta 信息,通过 Meta 信息动态生, Schema,数据经过解码后,得到原始 JSON 数据,此时只解析 Meta 信息中存在的字段信息,保证数据的准确性。 如果新增了一个埋点字段,只需要在元数据管理中心,添加一条记录即可;
3、在获取用户深度模型中,连续表的 join 很消耗性能,所以开发 Presto 的 UDAF 来避免多表之间的 Join, 达到提升性能并减少耗时的目的。首先计算出每个用户的漏斗深度,实现 depth 函数,之后根据深度合并得到每 次漏斗的人数,实现 depth_merge 函数。

项目二:GC电商数据平台
技术架构:Master爬虫+Redis(Url池)+Kafka(脏数据处理)+Python(处理数据入库到MongoDB)+Java+ES(存储后端开发所需数据)+Docker+Hanlp

项目介绍:
主要为用户提供各种商户的产品数据,将用户流量的提供给合作电商平台、方便用户选择自己合适的产品,从而选择ES做为搜索引擎,结合Hanlp组件对海量数据进处理分词,实现智能、快速、准确搜索。团队主要包括前端页面平台开发、python数据处理、数据平台开发以及后端数据开发,将处理好数据url通过代理提供给用户浏览,从而实现数据平台的价值。
项目职责:
1.负责 数据集群ES结合Hanlp分词的开发,通过Docker、K8s、本地服务器多种方式搭建数据集群,以及各种组件版本的功能和兼容性。
2.将处理好的Kafka中的数据,使用java程序入库到ES中。在ES中构建相关索引对数据进行分类处理,提供后端数据的调取。
3.负责数据索引的创建、重构、数据迁移,实现数据查询可视化,以及数据共享
4.负责Hanlp分词的优化,实现分词时的准确性,智能性。

难点与业绩:
1.在搭建ES多集群时,刚开始使用Docker进行的搭建,由于Docker会使用自己的一个IP,在后端提取数据时,不能通过docker的IP进行访问多集群,从而无法抓取数据,后面我们使用虚拟机的IP进行搭建ES集群,经过测试是可以抓取数据的。
2.Hanlp分词时,存在很多的标点符、停用词,从而影响搜索的准确性,后面通过加载停用词字典实现停用词的去除。

项目三:用户画像系统
技术框架:
数仓+Spark+SQL+Bitmap+ClickHouse+Milvus+SpringBoot
算法:HanLP+TF-IDF+Word2Vec
项目描述:
该用户画像系统的构建,主要为了进行用户圈定、用户数量的预估、用户向量化特征表示,做相似用 户的搜索,同时作为推荐系统的用户特征向量。采用ClickHouse+Bitmap 方案存储用户最终的

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服