技术:技能状况: 人工智能与机器学习运维 * 深度学习框架:精通TensorFlow和PyTorch,具备GPU资源管理(GPU Manager)和分布式训练 (kubeflow)的应用经验,能够高效部署和维护AI模型训练与推理环境。 * AI基础设施:熟悉AI工作流的自动化部
项目:1.系统稳定性保障 ►可靠性工程实践 * 基于SLO/SLI框架设计监控体系,构建全链路黄金指标看板(延迟、错误率、流量、饱和度),确保核心 业务持续满足高可用性要求。 * 实施混沌工程演练,定期验证系统容错能力,通过模拟节点故障、网络隔离等场景暴露架构脆弱点并推
案例: sre