系统运维: 熟悉 Linux 系统日常运维、服务部署、日志排查、磁盘/内存/进程监控、账号权限管理、漏洞修复及堡垒机使用,具备生产环境问题排查和服务恢复经验。
容器与云平台: 熟悉 Docker、Docker Compose、Kubernetes、Harbor 等容器化部署与管理;具备天翼云 CCSE 集群维护、私有化部署、离线部署及容器服务故障处理经验。
自动化与脚本: 熟悉 Shell、Python 脚本编写,能够完成批量巡检、日志处理、文件解析、接口测试、数据清理等自动化任务;了解 Ansible、CI/CD 流程及自动化发布思路。
监控与日志: 熟悉 Prometheus、Grafana、ELK 等监控与日志系统的部署和使用,能够进行服务状态监控、日志检索、告警排查及 GPU 资源监控;了解 DCGM 相关 GPU 监控能力。
网络与中间件: 熟悉 Nginx 反向代理、负载转发、HTTPS 配置及常见网络问题排查;熟悉 Redis、PostgreSQL、MinIO、NFS、Keepalived 等中间件的部署、配置和基础运维。
后端与接口开发: 熟悉 FastAPI 后端接口开发,具备文件上传、结果查询、图片访问、工作流调用、JSON 数据处理、接口联调及异常排查经验。
AI 应用与工作流: 熟悉 Dify 工作流搭建、知识库接入、变量传递、模型调用、结构化输出及前后端对接;了解大模型私有化部署、RAG、Agent、LangChain、LoRA 微调部署等相关技术,具备 AI 应用落地和部署排障经验。
• 云平台部署:在 (天翼云)CCSE 集群部署 Redis、PostgreSQL、MinIO、NFS 等组件。
• 高可用架构:配置 Keepalived + Nginx,实现自动故障切换与负载均衡。
编写系统部署文档、环境配置说明及运维手册,支持项目快速交付与复用;
• 配合业务侧完成系统联调测试,优化接口访问链路与响应性能;
主要职责:
• 负责整体部署流程设计与执行,包括资源规划、组件部署与配置;
• 输出标准化部署文档与操作手册,支持团队快速复现环境;
• 配合客户完成系统测试、问题定位与修复;
• 整理并提交项目验收材料,包括部署报告、测试报告及系统说明文档。
在 (天翼云)CCSE 集群部署 Redis、PostgreSQL、MinIO、NFS 等组件。 • 高可用架构:配置 Keepalived + Nginx,实现自动故障切换与负载均衡。 编写系统部署文档、环境配置说明及运维手册,支持项目快速交付与复用; • 配合业务侧完成
全国多省节能系统的运行维护,支撑设备控制与能耗采集业务; • 编写自动化巡检脚本,实现系统状态检查与异常检测; • 使用 SQL 对业务数据进行校验,确保指令下发准确性; • 进行系统安全加固与漏洞修复,保障平台安全;
本项目面向企业安全风险评估、隐患排查和安全合规场景,基于 FastAPI 后端服务 + Dify 工作流 + OCR/文档解析 + 大模型推理 搭建风险辨识智能体平台。 平台支持企业上传营业执照、现场图片、设备清单、制度文件、PDF、Word、Excel 等资料,后端完成文