猿急送>

成都运维兼职程序员

ID：404297

@零有团队

运维工程师

公司信息：
铁骑力士

工作经验：
5年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
成都
双流

技术能力

服务器运维工程师，拥有8年扎实Linux操作系统经验，持有CKA认证和软件设计师证书。精通Linux管理、优化与安全，为系统稳定高效运行奠定基石。深入的Kubernetes（K8S）专业知识与实践能力，主导公司核心系统的容器化迁移项目，显著提升了系统的弹性伸缩能力和部署效率，对阿里云生态及其运维体系拥有丰富的经验。掌握Python，并大量编写脚本和工具来自动化部署、监控、日志分析和日常运维任务，有效提升运维效率、减少人为错误、保障系统可靠性。
统筹 100 + 台物理服务器及虚拟化平台运维，部署 Prometheus+Grafana 构建全维度监控体系，实现服务器资源、服务状态、网络流量的实时可视化管控；
开发 Shell/Python 自动化脚本，深度赋能日志智能分析、批量配置同步等核心运维场景，大幅提升运维效率；搭建 Harbor 私有镜像仓库，制定容器标准化构建规范，配置 Calico 集群网络与 NFS/Ceph 存储方案，筑牢容器化基础架构；基于 Jenkins 打造自动化流水线，无缝集成 GitLab 代码仓库，建立 SonarQube 代码质量扫描机制，构建完整 DevOps 闭环。

项目经验

项目一：公司核心系统容器化迁移与 K8s 平台搭建
项目描述：针对公司传统架构部署效率低、资源利用率不足的问题，主导完成核心业务系统（包括交易平台、用户服务等）的容器化迁移，构建基于 Kubernetes 的容器编排平台，支撑日均百万级用户访问的业务场景。
负责设计 K8s 集群架构，部署高可用集群（3 主 6 从节点），配置 Calico 网络插件实现 Pod 间通信隔离，集成 NFS 与 Ceph 构建混合存储方案，满足不同业务的存储需求；
搭建 Harbor 私有镜像仓库，制定容器镜像标准化构建规范（包括基础镜像版本控制、安全扫描流程），杜绝高危镜像上线；
设计灰度发布策略，通过 K8s 的 Deployment 资源与 Service 流量控制，实现核心系统无感知迁移，迁移过程零业务中断；
优化 K8s 资源调度策略，基于 Pod 亲和性 / 反亲和性配置，将关键服务调度至高性能节点，提升系统响应速度。
技术栈：Kubernetes、Calico、Harbor、Ceph、NFS、Docker
项目成果：
部署效率提升 70%，从传统部署的 4 小时缩短至 1 小时内；
服务器资源利用率从 30% 提升至 65%，减少 20% 硬件采购成本；
系统弹性伸缩能力增强，支持流量峰值时 5 分钟内扩容 10 倍实例。

项目二：全维度监控体系建设（Prometheus+Grafana）
项目描述：为解决 100 + 台物理服务器、虚拟化平台及业务系统的监控盲区问题，构建覆盖 “服务器 - 网络 - 应用 - 容器” 的全链路监控平台，实现故障早发现、问题可追溯。
部署 Prometheus 集群（含 Thanos 分布式存储），开发自定义 Exporter 采集业务指标（如交易成功率、接口响应时间），结合 Node Exporter、cAdvisor 等组件，实现全栈指标覆盖；
设计 Grafana 可视化看板，按业务域（支付、用户、日志服务）划分监控视图，支持多维度下钻分析（如按机房、服务器型号筛选）；
配置 Alertmanager 告警规则，基于 SLO/SLA 定义多级告警阈值（如 CPU 使用率 > 85% 触发警告，>95% 触发紧急告警），集成企业微信与邮件通知渠道，确保告警 15 分钟内响应。
技术栈：Prometheus、Grafana、Alertmanager、Thanos、Python（自定义 Exporter）
项目成果：
系统故障平均发现时间从 2 小时缩短至 10 分钟，故障修复效率提升 60%；
成功预警 3 次潜在硬件故障（通过磁盘 IO 异常波动指标），避免业务中断；
减少 80% 人工巡检工作量，运维团队专注于问题解决而非数据收集。

项目三：自动化运维平台开发与 DevOps 流程落地
项目描述：针对日常运维中重复操作多、人为错误率高的问题，开发自动化工具链并搭建 DevOps 流水线，实现 “代码提交 - 测试 - 部署” 全流程自动化。
基于 Python 开发运维自动化工具集：
日志分析工具：结合 ELK 栈，通过 Python 脚本提取关键错误日志（如支付失败、接口超时），生成每日故障报告；
批量配置工具：使用 Paramiko 库实现 100 + 服务器的配置文件同步、软件包批量升级，支持操作回滚机制；
搭建 Jenkins 自动化流水线，集成 GitLab 代码仓库与 SonarQube 代码质量扫描，实现 “提交触发构建 - 单元测试 - 镜像构建 - 自动部署” 闭环；
制定 DevOps 规范，包括代码分支管理策略（master/develop/feature 分支模型）、镜像版本命名规则，组织跨团队培训 5 场。
技术栈：Python、Shell、Jenkins、GitLab、SonarQube、ELK、Paramiko
项目成果：
日常运维任务自动化率从 30% 提升至 85%，每月减少 120 + 小时重复劳动；
代码部署人为错误率降为 0，版本发布周期从每周 1 次缩短至每日 2 次；
代码质量问题（如安全漏洞、冗余代码）检出率提升 90%，线上 bug 数量减少 40%。

项目四：阿里云混合云架构运维与优化
项目描述：支撑公司 “本地 IDC + 阿里云” 混合云架构的稳定运行，负责云资源管理、成本优化与灾备方案设计，保障业务连续性。
管理阿里云 ECS、RDS、SLB 等资源，通过 Terraform 实现基础设施即代码（IaC），统一管理云上与本地资源配置；
设计跨地域灾备方案：基于阿里云 OSS+VPN，实现本地数据每日增量备份至云端，RTO（恢复时间目标）控制在

团队情况

整包服务：运维类开发

角色	职位
负责人	运维工程师
队员	产品经理
队员	前端工程师
队员	后端工程师

案例展示

网站后台管理系统

网站后台管理系统项目简介一、整体定位这是一套面向网站运维场景的一体化后台管理系统，聚焦数据库与文件传输两大核心模块，为多站点、多业务系统的稳定运行提供基础支撑，覆盖企业官网、业务平台等各类 Web 应用的后端运维需求。二、核心模块功能与价值（一）数据库管理模块（M
铁骑力士养殖业务容器化与监控系统升级

集团原有 180 余套单体系统，发布靠手工、日志分散在 14 种格式、监控只有主机级告警。业务高峰期（节假日前后）排障平均 2 h，直接影响调度和出栏计划。技术部决定先把最核心的 30% 应用迁到容器，并统一日志与监控，降低运维门槛。做的事容器化 • 选用 RKE2 做