1、编程与自动化:熟练使用 Shell、Python 编写自动化脚本;掌握 Ansible、SaltStack等自动化运维工具,具备“一切自动化”的实践经验。
2、CI/CD 与版本管理:精通 Git/SVN 版本控制与 Jenkins 持续集成,精通 CI/CD 流程设计与自动化交付实践。
3、服务与中间件:精通 Nginx、LNMP、NFS、Rsync、LVS、Keepalived 等常见服务的安装、配置与性能优化;熟悉常见监控系统的搭建与维护。
4、数据库与消息队列:精通 MySQL、NoSQL 的高可用与容灾备份方案, InfluxDB、Kafka、Flume、RabbitMQ 的运维与优化。
5、日志与监控体系:可独立搭建 ELK 日志收集与分析平台,具备日志体系规划与指标监控能力。
6、容器与云原生: 精通Docker 及其生态,熟练使用基于 Docker 的云计算平台,如 Kubernetes、Rancher 等容器编排与管理工具。
1、主导公司 DevOps 平台与服务流水线建设,从 SRE视角优化 CI/CD 流程,保障全链路服务稳定性与高可用性;
2、利用 Jenkins、GitLab CI、Docker 等工具实现 构建、测试、发布自动化,同时引入失败重试、灰度发布和回滚机制,提升部署可靠性与交付效率;
3、负责公司各类产品云平台运维与管理,包括 阿里云、AWS 等多云环境,保障系统稳定与资源优化;
4、维护公司监控平台,负责平台运维、报警接入、订阅管理及推送,确保业务可观测性与及时响应;
5、为大客户设计业务架构方案,确保系统高可用性、可靠性及可扩展性;
6、使用 Ansible 维护和编写自动化部署脚本,实现服务上线、配置管理及运维自动化。
技术选型与架构设计: 对比主流方案后,选定 Prometheus(指标) + Loki(日志) + Tempo/Jaeger(链路) 的开源组合,通过Grafana进行统一展示。 设计并实现了基于Kubernetes Operator的自动化部署与配置管理方案。 核心能
1、 DevOps 平台与服务流水线建设,从 SRE视角优化 CI/CD 流程,保障全链路服务稳定性与高可用性; 2、利用 Jenkins、GitLab CI、Docker 等工具实现 构建、测试、发布自动化,同时引入失败重试、灰度发布和回滚机制,提升部署可靠性与交付效率;