服务器运维工程师,拥有2年扎实Linux操作系统经验。精通Linux管理、优化与安全。深入的Kubernetes(K8S) 专业知识与实践能力,主导公司核心系统的容器化迁移项目,显著提升了系统的弹性伸缩能力和部署效率,对腾讯云生态及其运维体系拥有丰富的经验。掌握Python,并大量编写脚本和工具来自动化部署、监控、日志分析和日常运维任务,有效提升运维效率、减少人为错误、保障系统可靠性。
统筹 50+ 台物理服务器及虚拟化平台运维,部署 Prometheus+Grafana 构建全维度监控体系,实现服务器资源、服务状态、网络流量的实时可视化管控;
开发 Shell/Python 自动化脚本,深度赋能日志智能分析、批量配置同步等核心运维场景,大幅提升运维效率;搭建 Harbor 私有镜像仓库,制定容器标准化构建规范;基于无缝集成 GitLab 代码仓库,建立 SonarQube 代码质量扫描机制,构建完整 DevOps 闭环。
项目一:公司核心系统容器化迁移与 K8s 平台搭建
项目描述:针对公司传统架构部署效率低、资源利用率不足的问题,主导完成核心业务系统(包括交易平台、用户服务等)的容器化迁移,构建基于 Kubernetes 的容器编排平台,支撑日均百万级用户访问的业务场景。
负责设计 K8s 集群架构,部署高可用集群(3 主 6 从节点),配置 Calico 网络插件实现 Pod 间通信隔离,集成 NFS 与 Ceph 构建混合存储方案,满足不同业务的存储需求;
搭建 Harbor 私有镜像仓库,制定容器镜像标准化构建规范(包括基础镜像版本控制、安全扫描流程),杜绝高危镜像上线;
设计灰度发布策略,通过 K8s 的 Deployment 资源与 Service 流量控制,实现核心系统无感知迁移,迁移过程零业务中断;
优化 K8s 资源调度策略,基于 Pod 亲和性 / 反亲和性配置,将关键服务调度至高性能节点,提升系统响应速度。
技术栈:Kubernetes、Calico、Harbor、Ceph、NFS、Docker
项目成果:
部署效率提升 70%,从传统部署的 4 小时缩短至 1 小时内;
服务器资源利用率从 30% 提升至 65%,减少 20% 硬件采购成本;
系统弹性伸缩能力增强,支持流量峰值时 5 分钟内扩容 10 倍实例。
项目二:全维度监控体系建设(Prometheus+Grafana)
项目描述:为解决 100 + 台物理服务器、虚拟化平台及业务系统的监控盲区问题,构建覆盖 “服务器 - 网络 - 应用 - 容器” 的全链路监控平台,实现故障早发现、问题可追溯。
部署 Prometheus 集群(含 Thanos 分布式存储),开发自定义 Exporter 采集业务指标(如交易成功率、接口响应时间),结合 Node Exporter、cAdvisor 等组件,实现全栈指标覆盖;
设计 Grafana 可视化看板,按业务域(支付、用户、日志服务)划分监控视图,支持多维度下钻分析(如按机房、服务器型号筛选);
配置 Alertmanager 告警规则,基于 SLO/SLA 定义多级告警阈值(如 CPU 使用率 > 85% 触发警告,>95% 触发紧急告警),集成企业微信与邮件通知渠道,确保告警 15 分钟内响应。
技术栈:Prometheus、Grafana、Alertmanager、Thanos、Python(自定义 Exporter)
项目成果:
系统故障平均发现时间从 2 小时缩短至 10 分钟,故障修复效率提升 60%;
成功预警 3 次潜在硬件故障(通过磁盘 IO 异常波动指标),避免业务中断;
减少 80% 人工巡检工作量,运维团队专注于问题解决而非数据收集。
项目三:腾讯云架构运维与优化
项目描述:支撑公司 “本地 IDC +腾讯云” 混合云架构的稳定运行,负责云资源管理、成本优化与灾备方案设计,保障业务连续性。
管理腾讯云 ECS、RDS、SLB 等资源,通过 Terraform 实现基础设施即代码(IaC),统一管理云上与本地资源配置;
设计跨地域灾备方案:基于腾讯云 OSS+VPN,实现本地数据每日增量备份至云端,RTO(恢复时间目标)控制在
网站后台管理系统项目简介 一、整体定位 这是一套面向网站运维场景的一体化后台管理系统,聚焦数据库与文件传输两大核心模块,为多站点、多业务系统的稳定运行提供基础支撑,覆盖企业官网、业务平台等各类 Web 应用的后端运维需求。 二、核心模块功能与价值 数据库管理模块(MySQL 为核
容器化 • 选用 RKE2 做底座,先在测试场站跑通 18 个微服务,验证后再扩展到 4 个业务域。 • 用 Helm 做模板,GitLab CI 做流水线,把原来需要 2 周的升级压缩到 1-2 天。 • 边缘节点网络不稳,加了 DaemonSet 方式的离线缓存,断网
容器化 • 选用 RKE2 做底座,先在测试场站跑通 18 个微服务,验证后再扩展到 4 个业务域。 • 用 Helm 做模板,GitLab CI 做流水线,把原来需要 2 周的升级压缩到 1-2 天。 • 边缘节点网络不稳,加了 DaemonSet 方式的离线缓存,断网