从0到1基于ClickHouse和CDC技术实现广告商品信息的秒级延迟同步;支持高并发、低延迟、分析型查询,赋能广告、卖家产品实现商品名称、价格、库存等维度的分析查询;
整合多条业务线的核心表,采用至少一次的更新机制和ClickHouse的合并树实现插入更新,在生产环境大规模数据场景下,创新性地解决了列存引擎的更新问题;
通过数据分区实现数据版本的无感知切换,设计离线与实时交替摄入的机制解决数据冷启动问题;
设计系统架构,基于Spring Batch, Spark离线任务, Airflow调度, Livy服务器,HDFS实现离线数据同步系统;
通过数据分区结合Spark并行处理技术完成海量数据处理;配合消息队列实现数十万QPS的数据实时写入;
对接多种广告业务包括:广告创建、业务表现分析、数据工具开发等,面向公司内/外提供分析数据接口;方便用户通过多种维度,访问广告数据与用户行为数据;
结合业务情况,重构数据存储架构,通过压力测试找到查询延迟与QPS之间的平衡点;剥离高度聚合、高QPS的查询,将主要场景下的QPS提升30倍,解决由于用户量增加产生的查询并发量瓶颈;