铁骑力士养殖业务容器化与监控系统升级

基本信息

案例ID:232596

技术顾问:@零 - 5年经验 - 铁骑力士

联系沟通

微信扫码,建群沟通

项目名称:铁骑力士养殖业务容器化与监控系统升级

所属行业:企业服务 - 数据服务

->查看更多案例

案例介绍

集团原有 180 余套单体系统,发布靠手工、日志分散在 14 种格式、监控只有主机级告警。业务高峰期(节假日前后)排障平均 2 h,直接影响调度和出栏计划。技术部决定先把最核心的 30% 应用迁到容器,并统一日志与监控,降低运维门槛。
做的事
容器化
• 选用 RKE2 做底座,先在测试场站跑通 18 个微服务,验证后再扩展到饲料厂、屠宰排产等 4 个业务域。
• 用 Helm 做模板,GitLab CI 做流水线,把原来需要 2 周的升级压缩到 1-2 天。
• 边缘节点(养殖场)网络不稳,加了 DaemonSet 方式的离线缓存,断网 2 h 内业务不断。
日志
• 统一用 Filebeat → Kafka → ClickHouse 的链路,把 14 种日志格式收敛成 3 种(access、app、audit)。
• 热数据 3 天、冷数据 90 天自动转储到 MinIO,磁盘成本降 40%。
• 做了基于日志的环控告警:风机异常日志 1 分钟内触发企业微信,比原来人工巡检提前 15 min。
监控
• Prometheus + Grafana 做基础监控,先拉通 CPU、内存、JVM、MQ 指标。
• 用 blackbox_exporter 补上 200 多个关键接口的可用性探针,告警误报率从 30% 降到 5%。
• 结合日志里的 trace-id,把排障链路可视化,定位接口超时平均耗时从 45 min 降到 12 min。
结果
• 核心系统容器化比例 30% → 85%,发布效率提升约 8 倍。
• 日志查询从 5 个入口集中到 1 个,90% 问题可在 10 min 内定位。
• 2024 年春节高峰,系统无重大故障,运维值班人数由 4 人/班减到 2 人/班。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服