1. 基础设施运维
熟练掌握阿里云、腾讯云等主流云厂商产品(ECS、RDS、SLB、OSS等)的部署、配置与优化;精通虚拟化技术(VMware、KVM),具备源头工厂级物理机、虚拟机混合环境的管理与维护经验,能高效完成服务器上架、系统安装、网络配置及故障排查。
2. 容器与编排
精通Docker容器化部署、镜像构建与优化,熟练运用Kubernetes(K8s)进行集群搭建、资源调度、Pod管理及运维排错;具备Helm包管理、Ingress配置经验,能完成微服务架构的容器化迁移与稳定运维,熟悉本地大模型(Ollama/OpenClaw)的部署、运维与调优。
3. 监控与可观测性
熟练搭建Prometheus + Grafana监控体系,能自定义监控指标、配置告警规则,实现全链路监控;精通ELK(Elasticsearch、Logstash、Kibana)日志收集与分析,能快速定位系统、应用及业务层面的故障,优化监控策略,提升故障响应效率。
4. 自动化与CI/CD
熟练使用Jenkins、GitLab CI搭建自动化构建、测试、部署流水线,实现代码提交到上线的全流程自动化;掌握Terraform实现基础设施即代码(IaC),能批量管理基础设施资源,减少重复劳动,提升运维效率;熟悉Shell、Python脚本编写,用于日常运维自动化、故障排查及任务调度。
5. 数据库与中间件运维
精通MySQL数据库的部署、主从复制、备份恢复、性能优化及故障排查;熟练运维Redis(集群模式)、RabbitMQ等中间件,保障缓存、消息队列服务的高可用,能针对高并发场景进行性能调优,解决数据一致性、缓存穿透等常见问题。
6. 其他技能
具备AI Agent技能链调用与排错经验,了解AI运维工具的应用与优化;熟悉网络基础(TCP/IP、路由、防火墙),能排查网络层面故障;具备灾备演练、容量规划及故障自愈相关经验,注重系统安全运维,熟悉常见安全防护手段。
1、生产环境1000+服务器8年运维工作经验,熟悉生产环境业务系统部署交付、自动化能力构建
2、熟悉本地大模型部署及openclaw介入本地大模型、本地知识库构建等等