ID:409079

小飛

高级运维工程师

  • 公司信息:
  • 广东宜通世纪科技股份有限公司
  • 工作经验:
  • 8年
  • 兼职日薪:
  • 800元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 广州
  • 天河

技术能力

编程与自动化:
(1)了解 Golang/Python基础语法,能阅读源码,编写简单运维工具
(2)精通 Shell 脚本编写:中间件备份恢复、系统巡检、资源监控、日志清理等运维脚本
(3)熟练编写 Ansible Playbook,完成自动部署、扩缩容、批量任务管理
系统与虚拟化平台:
(1)熟练掌握 Linux/Unix(RHEL/CentOS/Ubuntu/Openeuler/Bclinux/麒麟)及系统管理优化与安全加固
(2)熟悉主流虚拟化平台:KVM、VMware vSphere/ESXi、OpenStack 私有云部署与管理
(3)掌握 Ceph 分布式存储部署、集群管理与性能调优,支持后端块存储(RBD)对接 OpenStack
网络与基础架构:
(1)熟悉网络架构、机房布线、服务器部署、服务器网络硬件、IDC 迁移等完整流程
(2)熟悉网络基础 LAN/WAN、无线网络环境,掌握华为、华三交换机与 FortiGate、深信服防火墙配置及策略管理
(3)擅长网络拓扑设计与优化,具备网络故障定位与突发事件响应处理能力
中间件与应用服务:
(1)熟练使用 Kafka、RabbitMQ、Zookeeper、Nacos、Apollo、ELK、Skywalking、Sentry 等中间件与监控平台
(3)熟悉应用服务部署与调优:Nginx、Tomcat、Apache 等,配置负载均衡、反向代理、HTTPS 证书管理
CI/CD 自动化与工具链:
(1)熟练搭建 Jenkins Pipeline、GitLab CI/CD 流水线,结合 Nexus、Maven、SonarQube 完善 DevOps 流程
(2)熟悉 Yearning、JumpServer、Metersphere、Wiki、Jira 等运维协作工具
容器与微服务架构:
(1)精通 Docker 镜像构建、Compose 编排、私有仓库部署,docker swarm集群
(2)精通 Kubernetes 集群管理:部署控制Deployment/StatefulSet/DaemonSet、网络Flannel/Calico/Service/Ingress/Istio、存储PV/PVC/StorageClass
(3)熟悉 HPA 自动扩缩容、Pod 探针机制(L

项目经验

项目名称:内部机房迁移网络优化与虚拟化平台改造项目
项目名称:内部 GPU 集群组建与 AI 平台部署
所属公司:广东宜通衡睿科技有限公司
项目背景:
随着国内大模型技术(如 DeepSeek I/O 框架)的快速发展,甲方对智能化能力的要求不断提升。公司原有业务主要聚焦于移动项目、物联网平台、5G 专网及日志审计系统等场景,各业务系统(如日志审计平台)逐步引入大语言模型,构建具备智能问答与辅助分析能力的 AI 助手模块。
为支撑上述 AI 能力的研发与落地,公司亟急需建设一套高性能、可扩展的 GPU 算力平台,用于承载大模型训练与推理服务部署。由于原有 IT 基础架构缺乏 GPU 支撑能力,存在资源利用率低、管理分散、缺乏统一监控等问题,因此需构建统一的 GPU 运算平台,并纳入现有云平台体系,实现资源统一调度、按需弹性分配与智能化运维管理。
项目职责:
负责 GPU 硬件选型与集群架构设计,最终采用 NVIDIA RTX 4090 构建多节点 GPU 集群,完成上架部署、电源规划与散热优化;
部署 GPU 驱动、CUDA Toolkit 及 NVIDIA Container Toolkit,构建兼容容器化平台的 AI 运行环境;
基于 Kubernetes 搭建 GPU 资源调度平台,引入 GPU Operator 实现多用户、多任务资源隔离与自动调度;
集成 Ceph 存储作为训练数据与模型存储后端,实现高吞吐、高可用的数据读写支持;
部署 DCGM + Prometheus + Grafana 监控系统,实时采集 GPU 利用率、功耗、温度等关键指标,实现可视化与告警机制;
编写完整部署文档与运维手册,覆盖部署流程、常见故障处理、资源监控与容器运行规范,提升系统可维护性与可复制性。
项目成果:
成功交付公司首个高性能 GPU AI 计算平台,具备训练与推理双场景支持能力;
平均任务执行性能提升超 300%,支持多个 AI 任务并发运行,实现算力资源动态调度;
降低了对外部云计算平台的依赖,节约推理与训练成本约 60%,增强了公司 AI 自主研发与落地能力。

项目名称:内部机房迁移网络优化与虚拟化平台改造项目
所属公司:广东宜通衡睿科技有限公司
项目背景:
公司原内部机办公楼层,包含 8 个机柜、70 多台服务器,长期存在以下问题:(1)园区电力不稳定,年均停电 7~8 次,导致硬件频繁损坏(2)空调系统老化,机房温控失效,影响设备稳定运行(3)每月高额电费支出,资源利用率低,维护成本高
(4)同时,办公网络架构复杂、设备分散,虚拟化平台(VMware ESXi)孤岛化,难以集中管理与弹性调度。为此,公司决定实施机房整体迁移与私有云平台重构。
项目环境(IDC 托管设施):
网络专线:电信BGP专线×2路(用于公网访问 + 冗余容灾),移动BGP专线×1路(用于公网双活或区域分流)
路由器:H3C ER5200G2 × 4 台,核心边界双冗余设计
防火墙:FortiGate 60 × 1 台、深信服下一代防火墙 × 1 台,双向流量检测 + 应用层策略管控
核心交换:华为 S7703 核心三层交换机 × 2 台,主备高可用
万兆汇聚交换:华为 S6720 万兆二层交换机 × 5 台,支撑核心–汇聚–接入层高速链路
服务器:托管物理服务器约 50 台,部署 KVM 虚拟化与 OpenStack 私有云平台
项目职责:
一、机房整体迁移:
(1)组织内部主机整体迁移至新建 IDC 数据中心,包括服务器资产清点、设备下架、布线标识、IP 规划、数据迁移与业务恢复
(2)确保迁移过程“零数据丢失”,极大降低硬件故障率与用电成本
二、办公网络结构优化:
(1)主导办公网络重构:重新划分子网、梳理路由策略、优化 VLAN 与 ACL、防火墙规则配置,实现网络“扁平化+可视化+可控化”
(2)提升网络安全性与可维护性,支持后续自动化运维接入
三、虚拟化平台改造:
(1)设计并部署 OpenStack 私有云环境,将原 VMware vSphere/ESXi 集群整体迁移,完成虚拟机转换、镜像管理、网络策略对接
(2)提高资源池灵活性,实现统一资源调度、弹性扩展与快速发布
四、物理主机虚拟化迁移(P2V):
(1)对部分物理服务器执行系统级虚拟化(P2V),制作成镜像并上传至 OpenStack Glance 镜像服务
(2)挂载 Ceph 块存储(RBD),重建虚拟机实例并完成业务上线
(3)降低硬件维护成本,提升弹性伸缩能力与统一管理效率
五、云平台与存储融合:
(1)管理 OpenStack 与 KVM 虚拟化平台,接入 Ceph 分布式存

案例展示

  • 宜通世纪科内部云平台

    宜通世纪科内部云平台

    项目环境(IDC 托管设施): 网络专线:电信BGP专线×2路(用于公网访问 + 冗余容灾),移动BGP专线×1路(用于公网双活或区域分流) 路由器:H3C ER5200G2 × 4 台,核心边界双冗余设计 防火墙:FortiGate 60 × 1 台、深信服下一代防火墙

  • 内部云平台

    内部云平台

    项目职责与成果: 一、代码层整改与可观测性建设 (1)协助开发团队将 .NET Core 3.1 服务升级至 .NET Core 6.0,优化性能与内存管理 (2)引入 Prometheus + Grafana 构建性能监控体系,采集 GC 堆使用、请求响应延迟、错误率等指

查看案例列表(含更多 0 个案例)

相似人才推荐

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服