1. 阿里云平台SRE运维能力:精通阿里云核心产品(ECS、RDS、OSS、SLB、OOS、ROS、CMS、ESS)的部署、配置、监控与优化,具备阿里云平台从0到1搭建与SRE体系落地能力,可独立完成账号RAM权限分级管控、VPC网络架构设计、负载均衡配置、安全基线加固及资源弹性调度与成本优化,熟悉云上合规要求(ICP备案、SSL部署),建立云上资源高可用架构与故障应急预案,保障业务连续性。
2. 可观测性平台搭建能力:熟练运用ELK技术栈(Elasticsearch、Logstash、Filebeat、Kibana),搭建企业级日志可观测平台,完成日志采集、清洗、结构化解析、分布式存储及可视化监控,通过Kibana配置异常告警、日志追溯链路,联动Prometheus等监控工具,实现业务全链路可观测,快速定位线上故障根因,缩短MTTR(平均故障恢复时间)。
3. 容器化SRE运维能力:精通Rancher与Kubernetes(K8s)运维,熟悉容器化架构设计与SRE运维规范,可独立完成K8s集群部署、节点运维、网络配置(Calico)、工作负载调度、命名空间划分及RBAC权限管控,负责业务容器化迁移、Docker镜像(对接Harbor)版本管理,搭建容器集群监控告警体系,保障容器集群高可用、高并发运行,优化容器资源利用率。
4. 自动化运维与持续交付能力:熟练搭建与维护Jenkins CI/CD自动化流水线,集成Git、Harbor、Docker构建环境,实现代码拉取、编译打包、镜像构建推送、K8s自动部署(滚动更新/回滚)全流程自动化,落地SRE自动化运维理念,编写运维脚本、配置OOS自动化运维模板,减少人工操作,降低人为故障风险,提升研发交付效率与运维标准化水平。
5. SRE核心保障能力:具备云原生基础设施全栈SRE思维,精通Prometheus、Grafana等监控工具,建立全链路监控体系,针对平台架构设计、部署实施、日常运维、故障排查、容量规划等环节提供SRE解决方案,具备资源容量评估、性能优化、风险管控及跨团队协同能力,支撑业务7×24小时稳定运行,平衡系统稳定性与迭代效率。
1. 阿里云平台0到1建设:牵头完成阿里云平台从无到有的全流程搭建,包括账号体系规划、RAM权限分级管控、资源架构设计(根据业务需求选型ECS实例、配置VPC子网与路由、部署SLB实现负载均衡)、OSS对象存储配置、RDS数据库部署及备份策略制定,通过运维编排服务OOS搭建自动化运维模板,配置云监控CMS实现资源实时监控与异常告警,完成ICP备案、SSL证书部署及安全基线检查,保障云上资源合规、高可用,为后续业务部署奠定基础,同时结合弹性伸缩ESS优化资源成本,实现资源动态调配。
2. ELK日志平台建设:基于Elastic Stack构建企业统一日志中心,采用Filebeat轻量化采集服务器及微服务日志,通过Logstash进行日志格式化、字段提取与过滤清洗,数据存入Elasticsearch分布式集群(配置分片与副本保障高可用),结合Kibana实现全文检索、趋势图表展示、异常告警配置,联动Prometheus补充监控,实现全链路日志集中管理,大幅缩短线上问题排查时长。
3. Rancher容器平台运维:基于Rancher管理Kubernetes集群,负责集群节点运维、网络配置(Calico)、工作负载管理、命名空间划分、RBAC权限管控及资源监控告警,完成业务系统Docker容器化迁移、镜像版本管理(对接Harbor),保障容器集群稳定运行。
4. CI/CD持续交付体系:基于Jenkins搭建企业级自动化流水线,集成Git代码仓库、Harbor镜像仓库、Docker构建环境,实现代码自动拉取、编译构建、Docker镜像打包推送、K8s服务自动部署(滚动更新),打通研发、测试、上线全流程,实现无人值守发布,降低人工发布风险,提升迭代效率。
自动化运维与持续交付能力:熟练搭建与维护Jenkins CI/CD自动化流水线,集成Git、Harbor、Docker构建环境,实现代码拉取、编译打包、镜像构建推送、K8s自动部署(滚动更新/回滚)全流程自动化,落地SRE自动化运维理念,编写运维脚本、配置OOS自动化运维模板,减
容器化SRE运维能力:精通Rancher与Kubernetes(K8s)运维,熟悉容器化架构设计与SRE运维规范,可独立完成K8s集群部署、节点运维、网络配置(Calico)、工作负载调度、命名空间划分及RBAC权限管控,负责业务容器化迁移、Docker镜像(对接Harbor)版
负责企业GitLab 代码托管平台的部署、配置、权限管控、分支策略规范(GitFlow)、CI Runner 搭建、代码审计与备份恢复,实现研发代码统一管理、权限隔离与安全合规,支撑自动化流水线源码拉取。