技术:技能状况: 人工智能与机器学习运维 * 深度学习框架:精通TensorFlow和PyTorch,具备GPU资源管理(GPU Manager)和分布式训练 (kubeflow)的应用经验,能够高效部署和维护AI模型训练与推理环境。 * AI基础设施:熟悉AI工作流的自动化部
项目:1.系统稳定性保障 ►可靠性工程实践 * 基于SLO/SLI框架设计监控体系,构建全链路黄金指标看板(延迟、错误率、流量、饱和度),确保核心 业务持续满足高可用性要求。 * 实施混沌工程演练,定期验证系统容错能力,通过模拟节点故障、网络隔离等场景暴露架构脆弱点并推
案例: sre
技术:1.熟悉 Linux 操作系统的使用; 2. 熟悉 Zabbix 进行全网服务器监控,可通过自定义监控实现对 Nginx、MySQL 等服务的监控; 3. 熟悉 ELK 实时日志分析集群,对日志进行分析和处理; 4. 熟悉 Shell 三剑客和脚本编写,能够编写日常工作脚本
项目:公司上线XX系统。需搭建服务运行环境,我们和前后端同事沟通协调之后。前端我 们采用 Nginx,因为它是一款轻量级的 Web 服务器,占有内存少并发能力强。中间件我们采用 tomcat,因为后 端是用 java 语言编写。数据库我们选用 mysql5.7 的版本,并用 Red
案例: 客服热线工作系统