1.容器与编排
掌握Kubernetes集群的应用部署与版本管理,包括容器镜像更新、Deployment/StatefulSet 发布、配置变更、滚动更新与回滚,具备集群配置、维护与弹性扩展能力,能快速定位 Pod CrashLoopBackOff、OOMKilled、调度失败等问题,故障排查。
熟悉Docker镜像构建与容器管理与DockerFIle文件编写,熟悉容器网络配置(如bridge、host、overlay网络模式)和存储配置,能快速排查启动失败、端口冲突、镜像拉取错误等问题,熟练使用容器调试工具进行故障分析。
2.持续集成/持续交付(CI/CD)
熟悉Jenkins、Git、Maven、Harbor/ACR实现微服务端到端自动化部署。
能处理镜像推送失败、构建脚本报错及流水线中断问题,熟悉回滚策略,保障应用部署可靠性。
3.监控与日志
能够使用Prometheus对系统和容器现有指标进行基本查询和分析,能够使用Grafana构建简单实时仪表盘,实现指标可视化和资源监控;熟悉ELK(Elasticsearch、Kibana)日志查询与分析,能够快速定位异常和排查故障,支撑业务稳定运行。
4.数据库运维
掌握搭建和维护MySQL主从复制及读写分离架构,熟练进行安装、配置、参数调优,优化InnoDB 缓冲池、连接池、binlog 等关键参数;掌握备份与恢复策略(mysqldump、xtrabackup、binlog),能快速处理主从延迟、复制中断及性能瓶颈问题。
5.高可用和负载均衡
具备实际项目经验,能独立搭建和维护 Nginx + Keepalived 或 LVS 高可用集群,实现主备故障切换与流量负载均衡,保障业务连续性与系统高可用;熟悉虚拟 IP 配置、健康检查、会话保持及流量分发策略优化。
6.系统运维和自动化
掌握Linux操作系统基本命令与服务管理,能排查系统资源不足、权限错误、日志告警等问题、能编写常用Shell脚本、sed/awk/grep正则表达式,能通过 dstat、iostat、sar、top 等工具分析系统性能瓶颈,会使用自动化运维工具Ansible。
7.云平台经验
熟悉阿里云 ACK、ECS、RDS、SLB 等核心产品,能够在云端环境下进行 Kubernetes 集群管理、负载均衡配置、数据库高
“万购通线上商城”--电商平台项目
背景:客户为拓展线上业务、提升用户体验并应对日益增长的流量压力,决定构建其核心电商平台。该项目旨在打造一个高可用、可扩展、安全合规且具备高效运维能力的云原生电商系统。
技术栈:Jump Server、ACK、ECS、RDS、OSS、NAS、VPC、交换机、Docker、Dockerfile、Jenkins、GitLab、Maven、Pipeline、Webhook、Spring Boot(Java)、Nacos、Sentinel、Gateway、RabbitMQ、Kafka、Prometheus、Grafana、Altermanager(ARSM)、EFK、Redis、MongoDB
主要工作:
1、对 ECS、RDS、ACR、SLB、OSS、NAS、VPC、ARSM、SLS 等云资源的申请,以及对云成本的预算。
2、负责 阿里云 ACK 集群的部署、维护及优化,设计高可用方案,配置 VPC + 交换机 网络策略,实现业务隔离与安全组管控。
3、 Jenkins Pipeline、Maven、Git、Docker 、Harbor/阿里ACR的 端到端 CI/CD 自动化流程,实现应用构建、测试到 Kubernetes 集群的自动化部署,利用 Pipeline + Webhook 触发自动化测试与部署,提高发布频率,减少人工干预。
4、配合开发团队维护 Spring Boot(Java) 微服务架构,通过 Nacos 实现服务注册与动态配置管理。
5、制定数据库全量与增量备份策略。
6、维护 RabbitMQ 集群,保障调度指令的可靠异步传输,降低消息堆积率。
7、搭建 Kafka 实时数据流,对运行数据采集与分析。
8、基于阿里云ARMS, Prometheus + Grafana +Alertmanager 搭建监控平台,并配置告警规则。
9、利用SLS替换 传统EFK 日志采集系统,实现日志实时检索与分析。
10、管理 RDS,通过DTS工具进行数据迁移、维护 Redis 缓存集群,通过RDS数据代理实现读写分离。
11、通过 JumpServer 实现运维堡垒机管理,并创建用户,分配权限。保障操作审计与安全合规项⽬成果:通过云原生架构改造、自动化运维、智能监控、高并发优化及安全加固,项目成功实现:系统稳定性:全年可用性大大提高,重大故障归零。运维效率:CI/CD 发布效率提升,告警响应时间缩短。
12、对接客户与故障处理,编写运维手册,标准化故障处理流程。
项目成果:
•基础架构稳固交付: 成功完成基于阿里云ACK的高可用Kubernetes集群建设,完成VPC网络规划与安全组策略配置,确保业务隔离与安全基线达标。完成所有云资源(ECS/RDS/OSS/NAS/SLB等)的申请与初始化配置,为平台运行奠定坚实基础。
自动化能力显著提升: 实现了端到端的CI/CD自动化流水线(Jenkins Pipeline + GitLab + Maven + Docker + ACR + Webhook),将应用构建、测试、镜像发布及K8s部署流程全面自动化。显著提升发布效率极大减少了人工操作风险和干预成本。