ID:199958

Dream、

SRE运维开发工程师

  • 公司信息:
  • 神州泰岳软件股份有限公司
  • 工作经验:
  • 10年
  • 兼职日薪:
  • 1000元/8小时
  • 兼职时间:
  • 可工作日远程
  • 所在区域:
  • 北京
  • 海淀

技术能力

技能状况:
人工智能与机器学习运维
* 深度学习框架:精通TensorFlow和PyTorch,具备GPU资源管理(GPU Manager)和分布式训练
(kubeflow)的应用经验,能够高效部署和维护AI模型训练与推理环境。
* AI基础设施:熟悉AI工作流的自动化部署与优化,能够通过kubeflow等工具实现机器学习流水线自
动化管理。
操作系统与开源技术
* Linux系统:深入理解Linux内核、系统架构及性能调优,具备丰富的系统配置、故障排查和优化经验
,能够确保系统在高负载下的稳定运行。
* 开源监控系统:熟练使用Zabbix、Prometheus、Open-Falcon等开源监控工具,能够设计并实施
全面的监控告警体系,确保系统健康状态的实时可见性。
编程与自动化运维
* 多语言开发能力:精通Shell、Python、Go等脚本与开发语言,能够编写高效的自动化脚本和工具
,提升运维效率。
* 自动化运维平台:熟悉Ansible、SaltStack、蓝鲸等自动化运维工具,能够实现批量操作、故障自愈
和自动化部署,减少人工干预。
日志与数据分析
* 日志管理:熟练部署和维护ElasticStack(ELK)框架,能够实现日志的集中管理、实时分析和可视
化展示,提升故障排查效率。
* 大数据处理:熟悉Kafka、Flink等大数据处理工具,能够构建高效的数据流水线,支持实时数据处理
与分析。
云计算与虚拟化
* 多云平台管理:具备丰富的华为云、阿里云、腾讯云、Azure、AWS等公有云平台的使用和维护经
验,能够实现跨云平台的资源管理与优化。
* 虚拟化技术:精通Xen、VMware、KVM、Proxmox等虚拟化技术,能够设计并管理高效的虚拟化
环境,支持业务的灵活扩展。
容器化与编排
* 容器技术:熟练掌握Docker、Docker Compose、Kubernetes、Rancher等容器化技术,能够实现
微服务架构的自动化部署、扩展和管理。
* 云原生技术:深入理解云原生技术栈,能够设计并维护基于云原生的微服务架构,确保系统的高可用
性和可扩展性。
中间件与数据库
* 中间件管理:熟悉Redis、Nacos、MQ、MySQL、MongoDB、Nginx、Tomcat、
Kafka、C

项目经验

1.系统稳定性保障
►可靠性工程实践
* 基于SLO/SLI框架设计监控体系,构建全链路黄金指标看板(延迟、错误率、流量、饱和度),确保核心
业务持续满足高可用性要求。
* 实施混沌工程演练,定期验证系统容错能力,通过模拟节点故障、网络隔离等场景暴露架构脆弱点并推
动改进。
* 设计多活容灾架构,实现跨数据中心数据同步与自动故障切换,保障极端场景下的业务连续性。
►智能运维体系
* 开发自动化根因分析平台,整合日志聚合、指标关联分析及分布式追踪数据,显著缩短故障定位时间。
* 构建配置基线管理系统,通过自动化巡检确保服务器、容器及中间件配置符合安全与性能规范。

2. 性能优化与容量治理
►全链路性能工程
* 建立生产级压测体系,通过流量镜像和影子环境验证系统容量边界,识别潜在性能瓶颈。
* 优化服务通信协议与负载均衡策略,提升微服务架构的响应效率与资源利用率。
* 设计分级流量治理策略,保障核心业务在高并发场景下的稳定性。
► 精细化容量管理
* 构建资源预测模型,实现云计算资源的动态规划与弹性伸缩,平衡性能需求与成本控制。
* 制定混合云资源调度策略,支持跨公有云与私有数据中心的智能负载分配。
* 持续优化成本,平衡数据一致性需求与资源消耗。

3. 自动化运维体系
►基础设施即代码(IaC)
* 使用声明式工具管理云资源与Kubernetes集群,实现基础设施版本控制与环境一致性。
* 标准化服务部署流程,通过自动化脚本大幅缩短新业务上线周期。
* 推动自动化工具开发,简化同步配置、部署和运维流程。
►智能运维平台建设
* 开发运维交互系统,集成故障自愈、配置变更、发布管理等高频操作场景。
* 构建自动化变更管控平台,实现操作审计、流程审批与风险拦截的闭环管理。
* 运维自动化平台覆盖 90%日常操作场景,故障自愈触发准确率 85%。

4. 应急响应机制
►作战室体系构建
* 设计分级告警响应机制,制定标准化应急处置流程规范,确保关键故障的快速止血。
* 开发故障影响面可视化系统,实时展示受影响业务范围与恢复进度。
►灾难恢复工程化
* 搭建多云容灾平台,实现数据库跨云同步与一致性校验,定期执行全链路故障切换演练。
* 推进恢复预案的代码化改造,将人工操作转化为自动化工作流。

5. 安全与合规架构
►DevSecOps实践
* 在CI/CD流水线嵌入安全扫描门禁,实现漏洞左移治理,阻断高风险代码进入生产环境。
* 实施零信任架构改造,强化服务间身份认证与动态鉴权机制。
►合规自动化
* 构建审计机器人,自动验证日志留存、数据脱敏等合规要求,生成标准化审计报告。
* 设计安全事件响应工作流,实现漏洞发现、评估、修复的闭环跟踪管理。

6.全球多数据中心建设
* 设计跨数据中心的网络、数据同步架构,制定实时同步策略。
* 解决分布式环境下的数据冲突问题(如最终一致性、强一致性策略)。
* 实现数据校验机制(如校验和、数据对比工具)以确保同步数据的完整。
*建立数据同步的监控体系,实时跟踪同步状态、延迟和成功率。

7.Kubernetes服务架构升级改造
* 开发CI/CD流水线,实现应用与基础设施的自动化部署。
* 迁移传统服务至K8S,适配容器化、服务网格及配置管理。
* 建立SLO/SLI指标,监控集群健康度。
* 优化资源配额、调度策略,保障关键业务稳定性。
* 优化资源利用率、集群自动扩缩容,降低云成本。

8. 技术标准化与知识沉淀
* 推进落地CMDB及自动化运维脚本、平台等,高频人工操作减少 90%,故障处理SOP覆盖率达 90%。
* 建立运维能力成熟度模型,推动运维团队到达Level 3 级别,重大故障复盘闭环率 100%等。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服