项目角色:大数据开发工程师(核心开发)
技术栈:Flink、Kafka、HBase、Redis、Java/Python
项目描述:
构建高吞吐、低延迟的数据采集系统,日均处理百亿级日志数据(用户行为、设备埋点、业务日志),完成数据清洗、实时ETL、指标计算及存储。
核心贡献:
数据采集:基于Kafka + Flink搭建分布式采集管道,优化并行度与反压机制,单集群峰值处理能力达50万条/秒。
数据清洗:使用Flink State处理脏数据(去重、格式校验、异常过滤),数据可用率提升至99.9%。
实时统计:通过Flink窗口计算(Tumbling/Sliding Window)实时生成PV/UV、设备活跃度等指标,写入HBase供业务查询。
存储优化:设计HBase RowKey分区策略,避免热点问题,查询延迟控制在100ms内。
成果:
系统稳定运行1年+,日均处理数据量100亿+,延迟<1秒。
替代原有Storm方案,资源消耗降低40%,运维成本大幅减少。