Kubernetes 集群管理: 负责生产级Kubernetes集群的部署、日常运维、故障排查与性能调优,保障容器平台的稳定性和高可用性,为核心业务提供可靠的容器化基础架构。云原生技术栈运维: 深度运维基于Kubernetes的云资源池,并管理OpenStack、VMware等虚拟化平台,实现资源的统一调度与高效利用。监控与告警: 构建并维护基于Prometheus和Grafana的监控告警体系,实现对公司IDC机房内业务平台(如BOSS、DNS)及K8s集群、节点、Pod的全方位监控。自动化与DevOps: 利用SaltStack实现基础架构的自动化配置与管理,提升运维效率。支持CI/CD流水线与K8s的集成,助力业务敏捷交付。安全与合规: 严格遵循运营商等保三级要求,落实集群网络安全策略(Network Policies)、漏洞扫描(Nessus)与基线加固,确保平台通过集团安全审计(零漏洞)。基础设施保障: 具备强大的底层排障能力,能独立处理服务器硬件(HP/Dell/华为)及操作系统(Linux)问题,为上层容器平台提供坚实基础。
构建从基础设施到业务逻辑的全方位监控体系。
整合Prometheus+Grafana+ELK实现指标、日志、追踪三位一体监控
开发智能告警收敛模块,
| 角色 | 职位 |
| 负责人 | 运维工程师 |
| 队员 | 产品经理 |