需求描述:
1、负责公司核心业务系统的各类线上资源维护、监控告警以及应急响应,保障各项服务7*24小时高效稳定运行
2、负责开发和维护自动化运维工具和平台,覆盖部署、监控、日志分析等全生命周期管理
3、负责容量规划、资源调度和混沌工程建设,确保各系统能够应对各类灾难和高并发流量
4、负责系统安全策略的实施与优化,构建零信任安全架构,确保操作审计高覆盖率
5、负责与开发团队紧密协作,推动DevOps文化和SRE理念,做好流程和规范建设,提升开发与运维的协作效率
职位要求
1、计算机相关专业本科及以上学历,5年以上中大型互联网系统运维经验,有游戏运维工作经验者优先
2、熟练掌握至少一种编程语言,熟悉Linux操作系统和网络基础知识,有很好的动手能力和自动化脚本开发经验
3、熟悉主流的中间件、可观测工具和各类数据库(如Kafka、Mongo、ELK、Prometheus)的原理、部署和使用
4、熟悉主流云平台(如AWS、阿里云、腾讯云)及其配套服务,具有千节点集群运维经验着优先
5、善于沟通,具有很好的学习能力,有良好的团队合作精神,有参与开源项目经验或技术社区活跃者优先