系统与网络:精通 Linux 系统管理、性能调优与故障排查;熟悉 TCP/IP、HTTP 协议,具备网络排错能力
数据库与中间件:熟悉 MySQL、Oracle、PostgreSQL 高可用架构(主从、RAC)、备份恢复及 SQL 优化;熟练使用 Redis、Nacos、Kafka、Elasticsearch、Nginx、consul、Kong/APISIX;有 OGG 实时同步实施经验
自动化与 CI/CD:精通 Shell/Python/go,能编写各类运维工具;熟练使用 Ansible、Puppet 实现配置管理;具备 Jenkins、GitLab CI 流水线搭建经验,推动持续交付落地
监控与日志:熟悉 Prometheus + Grafana + Alertmanager、Zabbix 监控体系,配置多维度告警;熟练部署 ELK 日志平台,实现错误日志实时告警
容器与云原生:熟悉 Docker、Kubernetes 集群部署与维护,能编写 Dockerfile 及 YAML 资源清单;熟悉微服务架构、灰度发布与流量无损上下线
云平台:具备阿里云、腾讯云、联通云等多个云平台核心产品使用经验(ECS、SLB、RDS、OSS、DTS、EDAS 等)
SRE 能力:高可用架构设计、稳定性保障、故障治理、自动化提效、运维标准化
负责2000+服务器、网络、存储等基础设施运维,保障产品稳定运行
主导CICD 自动化体系搭建,基于 GitLab+Jenkins 设计流水线、编写 Pipeline 脚本,实现发布自动化与版本可追溯,显著降低发布故障率
搭建Prometheus+Grafana+AlertManager全链路监控体系,覆盖服务器、MySQL、Redis、Nginx、业务接口,实现异常分钟级告警,保障服务稳定性
独立部署 ELK 日志平台,统一收集 Nginx 与应用日志,建立错误日志告警机制,提升问题定位效率
负责 MySQL、Redis 等数据库日常运维、备份恢复、慢查询优化;引入 Archery 实现 SQL 审计与规范化管理
主导微服务架构升级,引入 Nacos、APISIX,实现服务注册发现、动态上下线、无损灰度发布,提升系统弹性
K8s 集群搭建,协助业务改造切换,优化 CICD 发布流程,支撑业务快速迭代
沉淀运维规范、自动化脚本(Shell/Python)与知识库,提升团队运维效率与标准化水平
对 Kubernetes 有深入的理解和丰富的实战经验,不仅熟练掌握其核心架构(如 API Server、etcd、Scheduler、Controller Manager 等组件的交互机制),还能独立完成集群的规划、部署与日常运维。在实际项目中,我曾主导过基于 K8s 的微服务
对主流数据库体系有深入的理解与丰富的实战经验,熟练掌握 MySQL、PostgreSQL 及 Redis 的底层原理与高可用架构部署。在关系型数据库方面,我精通 MySQL 的主从复制、MHA 自动故障转移以及 MGR 强一致性集群方案;同时也熟悉 PostgreSQL 的流复制