技术:技能状况: 人工智能与机器学习运维 * 深度学习框架:精通TensorFlow和PyTorch,具备GPU资源管理(GPU Manager)和分布式训练 (kubeflow)的应用经验,能够高效部署和维护AI模型训练与推理环境。 * AI基础设施:熟悉AI工作流的自动化部
项目:1.系统稳定性保障 ►可靠性工程实践 * 基于SLO/SLI框架设计监控体系,构建全链路黄金指标看板(延迟、错误率、流量、饱和度),确保核心 业务持续满足高可用性要求。 * 实施混沌工程演练,定期验证系统容错能力,通过模拟节点故障、网络隔离等场景暴露架构脆弱点并推
案例: sre
技术:有多年上市公司运维与安全管理经验,独立主导运维与安全团队从零到一搭建成型,全程深度参与公司上市IT基建与安全体系落地。精通全栈运维架构设计与全域安全防控体系规划,依托数据驱动管理理念,持续强化业务系统高可用与安全防护能力,完成IT资源精细化治理与降本增效。深耕前沿智能技术落地,熟
项目:1.作为技术负责人,牵头推进等保三级合规落地,统筹安全管理制度体系编制、全域安全漏洞排查整改、日志审计与常态化风控治理,高效完成测评全流程对接与验收。系统化夯实企业安全基线,完善纵深防御架构,全面提升网络安全合规能力与风险抵御水平。 2.主导搭建企业标准化运维基础体系,统筹规划
案例: 运维管理平台企业整体安全架构搭建