项目背景:
华为云 DCS 控制台原有架构为单体模式,扩展性差,用户创建实例耗时较长。需重构为微服务架构,支持高并发访问和实例生命周期自动化管理。
技术栈:
Java 8/11、Spring Cloud Huawei、Redis、Kafka、MySQL、Kubernetes、Prometheus
核心技术挑战:
实例创建流程涉及网络、计费、监控等多系统调用,原有串行逻辑导致平均创建耗时 65 秒。
需支持 Redis 集群版实例的自动分片与节点容错。
要求新系统具备 99.99% 可用性,并平滑迁移百万级存量实例。
个人贡献与行动:
设计并实现了创建流程的 异步编排框架(基于 Kafka + 状态机),将串行调用改为并行执行,创建耗时从 65 秒降至 23 秒。
开发 Redis 集群自动分片模块,实现基于哈希槽的分片策略,支持单实例从 2GB 动态扩展到 512GB。
编写 平滑迁移脚本(Shell + Java),采用双写校验机制完成存量实例迁移,数据零丢失、服务零中断。
配置 Kubernetes HPA 规则,根据 CPU 和消息堆积数自动扩缩容控制台服务,保障高峰时段 QPS 达 5000+。
项目成果:
实例创建成功率从 97.3% 提升至 99.6%。
控制台接口 TP99 延迟由 1.2 秒降至 180 毫秒。
支持 Redis 集群版实例覆盖华为云全球 10+ 区域,累计创建实例数超过 20 万个。