猿急送>

北京运维兼职程序员

ID：423705

林枫

SRE工程师

公司信息：
飞鹤集团

工作经验：
5年

兼职日薪：
600元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
北京
海淀

技术能力

一、编程与脚本语言（核心开发能力）
Python（自动化脚本、运维平台开发）、Go（云原生生态首选，K8s/Operator开发）、Shell/Bash（服务器标配）、Java（应对微服务治理）、Ruby/PHP（遗留系统维护）、Rust（高性能工具链）。

二、操作系统与网络基建
Linux性能调优（内核参数/文件系统）、TCP/IP协议栈、DNS、负载均衡（LVS/HAProxy）、反向代理（Nginx/Envoy）、SSL/TLS、iptables、eBPF（内核可观测）、Cilium。

三、云与容器编排（生态重灾区）

· 公有云：AWS、Azure、GCP、阿里云/腾讯云/华为云（需精通IAM/VPC/计费体系）。
· 容器与调度：Kubernetes、Docker、Containerd、Helm、Kustomize。
· 服务网格：Istio、Linkerd、Consul。

四、基础设施即代码（IaC）与配置管理
Terraform、Ansible（必备）、Pulumi、Crossplane、SaltStack、Chef、Puppet。

五、CI/CD与GitOps
Jenkins、GitLab CI、ArgoCD、FluxCD、GitHub Actions、Tekton、Spinnaker。

六、可观测性三大支柱（监控/日志/链路）

· 监控与告警：Prometheus、Grafana、Thanos、VictoriaMetrics、Zabbix、Nagios、Datadog、Dynatrace。
· 日志聚合：ELK、Loki、Splunk、Graylog。
· 链路追踪：Jaeger、Zipkin、SkyWalking、Tempo。
· 采集与标准：OpenTelemetry。

七、数据存储与中间件
MySQL、PostgreSQL、Redis、MongoDB、Elasticsearch、Kafka、RabbitMQ、Nginx。

八、安全与合规（DevSecOps）
Vault、OPA、Trivy、Clair、Falco、IAM策略治理、CSPM。

九、混沌工程与压测
Chaos Mesh、Gremlin、Litmus，以及JMeter、Locust（压测工具）。

项目经验

拥有5年以上大型分布式系统SRE实战经验，专注于高并发互联网架构的稳定性保障与成本优化。核心优势在于将系统工程思维与软件开发深度融合，通过自动化手段解决运维痛点，保障业务连续性。

核心技术栈：
精通云原生生态，熟练掌握Kubernetes、Docker容器编排与服务网格（Istio）；具备AWS/Azure/阿里云大规模治理经验。基础设施即代码（IaC）擅长Terraform与Ansible，精通Python/Shell/Golang开发。可观测性领域，熟练搭建Prometheus+Grafana监控体系及ELK/Loki日志平台，实现全链路追踪。

核心项目成果：

1. 稳定性治理：主导核心系统容器化迁移，通过HPA弹性策略在双11流量洪峰（峰值QPS 10万+）下保持99.99%可用性；优化K8s资源调度，年度云成本降低25%。
2. 效率与自动化：重构CI/CD流水线，将部署效率提升40%，变更失败率降低50%；开发故障自愈平台，实现Pod异常与节点故障的分钟级自动修复。
3. 可观测性建设：建立立体监控体系，定义SLO/SLI核心指标，将平均故障恢复时间（MTTR）从30分钟缩短至5分钟以内；定期主导混沌工程实验，提前探测系统隐患。

工作理念：
坚信“自动化即救赎”，擅长通过错误预算策略平衡迭代速度与稳定性。目前以自由工程师身份承接项目，可提供架构评审、性能压测、成本优化、故障排查及SRE体系搭建等兼职服务，用工程化手段为企业数字化业务保驾护航。
项目一：核心交易系统容器化迁移与稳定性护航

· 项目背景：原物理机架构扩容耗时长达30分钟，难以应对大促突发流量，且资源利用率低。
· 负责工作：主导核心应用迁移至Kubernetes集群，设计HPA（水平弹性伸缩）与Cluster Autoscaler联动策略；引入Istio服务网格实现灰度发布与流量精细化管理。
· 核心成果：在大促峰值QPS突破12万的场景下，实现秒级自动扩容，平均扩容时间缩短至2分钟；通过优化Pod调度与资源请求，年度云成本降低28%，核心链路可用性维持在99.99%。

项目二：全链路可观测性体系与故障自愈平台建设

· 项目背景：原有监控（Zabbix）与日志（ELK）割裂，故障定位平均耗时约25分钟，且大量重复性故障需人工介入。
· 负责工作：基于Prometheus + Thanos构建统一指标池，引入Loki日志与Jaeger链路追踪，建立“黄金信号”立体监控体系；开发故障自愈Operator，针对Pod CrashLoop、节点NotReady等场景编写自动化修复逻辑。
· 核心成果：故障平均恢复时间（MTTR）从25分钟锐减至5分钟以内，自愈覆盖率达65%，全年人工处理工单减少40%。

项目三：多云架构下的FinOps成本优化专项

· 项目背景：混合云环境（AWS+IDC）资源闲置严重，CPU平均利用率仅15%，月均云账单持续超标。
· 负责工作：利用Terraform重构资源编排，通过监控数据识别闲置资源；引入在线离线业务混部技术，结合Spot实例与预留实例动态调配策略。
· 核心成果：整体CPU利用率提升至45%，年度云资源总成本节省约30%，同时通过优化集群拓扑确保了业务SLA不受影响。