技术:技能状况: 人工智能与机器学习运维 * 深度学习框架:精通TensorFlow和PyTorch,具备GPU资源管理(GPU Manager)和分布式训练 (kubeflow)的应用经验,能够高效部署和维护AI模型训练与推理环境。 * AI基础设施:熟悉AI工作流的自动化部
项目:1.系统稳定性保障 ►可靠性工程实践 * 基于SLO/SLI框架设计监控体系,构建全链路黄金指标看板(延迟、错误率、流量、饱和度),确保核心 业务持续满足高可用性要求。 * 实施混沌工程演练,定期验证系统容错能力,通过模拟节点故障、网络隔离等场景暴露架构脆弱点并推
案例: sre
技术:1.数据库搭建优化(mysql主从等) 2.shell自动化脚本的编写应用 3.CI/CD搭建应用,日志系统搭建,监控系统搭建、ansible 4.掌握nginx应用代理、消息队列MQ,文件配置nacos、apollo,文件服务器,keepalived 5.容器技术doc
项目:1.广西省全民健康项目 该项目是由广西省卫健委牵头做的全省项目,针对各医院的上报数据质量监控,药品使用监控,前置审方和处方流转。 标一由东信和数广牵头,整个项目信创云上部署,K8s运维框架,主要负责服务的构建、发布、更新、调试以及整个上线过程中的沟通等。 2.公司内部机房整
案例: 临床营养综合服务管理平台