技术:数据架构:数据建模(维度/范式)、数据中台、湖仓一体、实时数仓 数据治理:元数据管理、数据质量、主数据标准化以及数据安全 技术栈:精通 Hadoop、Spark、Flink、Starrocks、kafka 等大数据计算和存储技术栈; 了解 HDFS、Hive、Spark 源
项目:特征工程 项目架构: • 实时特征计算体系:基于 Kafka 构建高吞吐行为日志管道,通过 Flink 实现分钟级窗口聚合、多流 Join 等实时计算,结合 Redis 维护用户行为状态,产出实时特征写入 HBase 提供低延迟查询 • 离线特征计算体系:采用 Spark
案例: WEB网站