容器与编排:精通Kubernetes,具备集群部署、管理、故障排查及Helm Chart开发与部署经验。
CI/CD与自动化:熟练掌握CI/CD流水线设计与实施(如Jenkins、GitLab CI),精通Ansible进行自动化配置与管理,熟练编写Shell及Python脚本实现自动化运维。
监控与日志:熟悉Prometheus监控系统搭建与告警配置,具备ELK栈部署与维护经验,用于日志收集与分析。
云平台与网络:熟悉阿里云、AWS等云平台服务,掌握山石防火墙等网络安全设备的配置与管理。
认证资质:持有阿里云大数据认证、RHCE(红帽认证工程师)、AWS认证解决方案架构师及山石防火墙认证。
项目名称:业务系统容器化改造与 DevOps 落地
时间:2023.06 – 2023.9
职责:
- 搭建 Kubernetes 集群,部署核心业务服务超 40+;
- 使用 Helm 模板化部署应用,支持快速部署;
- 通过 GitLab jenkins实现 CI/CD 自动构建、测试、发布;
- 容器部署成功率达 99%,回滚时间缩短至 1 分钟内;
- 降低环境依赖问题,减少运维故障工单约 70%。
项目名称:统一监控告警与日志平台搭建
时间:2024.1 – 2024.02
职责:
- 基于 Prometheus + Node Exporter 实现主机、服务指标采集;
- 搭建 Grafana 多视图仪表盘,监控数据库、中间件、接口性能;
- 配置 Alertmanager 钉钉+邮件告警渠道,平均告警响应缩短 60%;
- 搭建 ELK 日志收集平台,支持关键词搜索、图表展示;
- 提升故障排查效率,定位时间从 1 小时缩短至 10 分钟。
项目名称:企业多云环境资源管理与优化
时间:2024.09 – 2024.12
职责:
- 管理阿里云、腾讯云共计超 100 台云主机资源;
- 使用 Terraform 编写基础设施 IaC 脚本,实现云资源自动创建与变更;
- 实现 ECS、RDS、SLB 等多种资源跨云统一管理;
- 对历史实例资源进行精简与自动关停,节省月均云成本约 35%;
- 配合财务输出多维度成本报表,提升资源利用率。
Atlas2.0监管控一体化系统 1.可以对私有云或公有云设备进行监控,资产整合 2.可以进行域名管理 3.可以部署CI/CD流程
告警自动化--企业微信 通过prometheus+alertmager+企业微信+邮箱进行告警 通过EFK,抓取错误日志,并告警,展示,快速定位问题。