一、编程与脚本语言(核心开发能力)
Python(自动化脚本、运维平台开发)、Go(云原生生态首选,K8s/Operator开发)、Shell/Bash(服务器标配)、Java(应对微服务治理)、Ruby/PHP(遗留系统维护)、Rust(高性能工具链)。
二、操作系统与网络基建
Linux性能调优(内核参数/文件系统)、TCP/IP协议栈、DNS、负载均衡(LVS/HAProxy)、反向代理(Nginx/Envoy)、SSL/TLS、iptables、eBPF(内核可观测)、Cilium。
三、云与容器编排(生态重灾区)
· 公有云:AWS、Azure、GCP、阿里云/腾讯云/华为云(需精通IAM/VPC/计费体系)。
· 容器与调度:Kubernetes、Docker、Containerd、Helm、Kustomize。
· 服务网格:Istio、Linkerd、Consul。
四、基础设施即代码(IaC)与配置管理
Terraform、Ansible(必备)、Pulumi、Crossplane、SaltStack、Chef、Puppet。
五、CI/CD与GitOps
Jenkins、GitLab CI、ArgoCD、FluxCD、GitHub Actions、Tekton、Spinnaker。
六、可观测性三大支柱(监控/日志/链路)
· 监控与告警:Prometheus、Grafana、Thanos、VictoriaMetrics、Zabbix、Nagios、Datadog、Dynatrace。
· 日志聚合:ELK、Loki、Splunk、Graylog。
· 链路追踪:Jaeger、Zipkin、SkyWalking、Tempo。
· 采集与标准:OpenTelemetry。
七、数据存储与中间件
MySQL、PostgreSQL、Redis、MongoDB、Elasticsearch、Kafka、RabbitMQ、Nginx。
八、安全与合规(DevSecOps)
Vault、OPA、Trivy、Clair、Falco、IAM策略治理、CSPM。
九、混沌工程与压测
Chaos Mesh、Gremlin、Litmus,以及JMeter、Locust(压测工具)。
拥有5年以上大型分布式系统SRE实战经验,专注于高并发互联网架构的稳定性保障与成本优化。核心优势在于将系统工程思维与软件开发深度融合,通过自动化手段解决运维痛点,保障业务连续性。
核心技术栈:
精通云原生生态,熟练掌握Kubernetes、Docker容器编排与服务网格(Istio);具备AWS/Azure/阿里云大规模治理经验。基础设施即代码(IaC)擅长Terraform与Ansible,精通Python/Shell/Golang开发。可观测性领域,熟练搭建Prometheus+Grafana监控体系及ELK/Loki日志平台,实现全链路追踪。
核心项目成果:
1. 稳定性治理:主导核心系统容器化迁移,通过HPA弹性策略在双11流量洪峰(峰值QPS 10万+)下保持99.99%可用性;优化K8s资源调度,年度云成本降低25%。
2. 效率与自动化:重构CI/CD流水线,将部署效率提升40%,变更失败率降低50%;开发故障自愈平台,实现Pod异常与节点故障的分钟级自动修复。
3. 可观测性建设:建立立体监控体系,定义SLO/SLI核心指标,将平均故障恢复时间(MTTR)从30分钟缩短至5分钟以内;定期主导混沌工程实验,提前探测系统隐患。
工作理念:
坚信“自动化即救赎”,擅长通过错误预算策略平衡迭代速度与稳定性。目前以自由工程师身份承接项目,可提供架构评审、性能压测、成本优化、故障排查及SRE体系搭建等兼职服务,用工程化手段为企业数字化业务保驾护航。
项目一:核心交易系统容器化迁移与稳定性护航
· 项目背景:原物理机架构扩容耗时长达30分钟,难以应对大促突发流量,且资源利用率低。
· 负责工作:主导核心应用迁移至Kubernetes集群,设计HPA(水平弹性伸缩)与Cluster Autoscaler联动策略;引入Istio服务网格实现灰度发布与流量精细化管理。
· 核心成果:在大促峰值QPS突破12万的场景下,实现秒级自动扩容,平均扩容时间缩短至2分钟;通过优化Pod调度与资源请求,年度云成本降低28%,核心链路可用性维持在99.99%。
项目二:全链路可观测性体系与故障自愈平台建设
· 项目背景:原有监控(Zabbix)与日志(ELK)割裂,故障定位平均耗时约25分钟,且大量重复性故障需人工介入。
· 负责工作:基于Prometheus + Thanos构建统一指标池,引入Loki日志与Jaeger链路追踪,建立“黄金信号”立体监控体系;开发故障自愈Operator,针对Pod CrashLoop、节点NotReady等场景编写自动化修复逻辑。
· 核心成果:故障平均恢复时间(MTTR)从25分钟锐减至5分钟以内,自愈覆盖率达65%,全年人工处理工单减少40%。
项目三:多云架构下的FinOps成本优化专项
· 项目背景:混合云环境(AWS+IDC)资源闲置严重,CPU平均利用率仅15%,月均云账单持续超标。
· 负责工作:利用Terraform重构资源编排,通过监控数据识别闲置资源;引入在线离线业务混部技术,结合Spot实例与预留实例动态调配策略。
· 核心成果:整体CPU利用率提升至45%,年度云资源总成本节省约30%,同时通过优化集群拓扑确保了业务SLA不受影响。