精通Linux服务器运维与故障排查,可高效部署各类服务(支持容器化);熟练编写Python/Shell脚本,开发自动化运维工具;掌握Docker与容器编排技术;同时具备数据治理能力,涵盖数据质量、数据处理、元数据、数据资产管理及流程优化。
Linux运维与故障排查
某公司业务高峰期,服务器CPU与负载持续飙升,通过分析系统日志、strace追踪异常进程、结合vmstat和perf定位到Nginx工作线程池配置不当,故障恢复时间缩短至5分钟内。
服务容器化部署
将原本在物理机上运行的Java微服务、Redis、MySQL等组件打包为Docker镜像,编写docker-compose在测试/生产环境一键部署,部署效率提升80%,实现环境一致性。
Python/Shell脚本与运维工具开发
开发基于Python的自动化巡检平台,通过paramiko批量连接数百台服务器,采集CPU/内存/磁盘/关键进程状态,并生成HTML报表;另用Shell脚本实现日志自动切割、清理与归档,每周节省人工操作约10小时。
Docker & Kubernetes
主导将业务系统迁移至K8s集群,编写Deployment、Service、Ingress及HPA配置,利用Prometheus+Alertmanager实现自动伸缩与告警;通过Velero完成集群备份与恢复演练,显著提升业务可用性。
数据治理
参与公司数据治理平台建设,负责元数据采集脚本开发(基于Python读取Hive/Presto库表结构),制定数据质量校验规则(空值、唯一性、值域范围),并通过调度系统定期产出质量报告,推动数据问题修复率提升60%。
| 角色 | 职位 |
| 负责人 | 运维开发工程师 |
| 队员 | iOS工程师 |