linux系统运维
Gitlab+Jenkins 代码部署自动化发布
ELK 日志系统部署调优
K8s+istio 集群维护
Prometheus+grafana+alertmanager 监控系统部署维护
项目名称:容器化微服务监控与日志系统建设
项目时间:2023.03 - 2024.01
项目角色:运维开发工程师
项目描述:
为支撑公司业务从虚拟机迁移至Kubernetes的容器化改造,主导设计并落地了一套覆盖资源监控、告警管理及日志采集的运维体系,实现日均处理10亿级指标数据与TB级日志的稳定运行,系统可用性达99.95%。
核心职责与成果:
监控系统架构
基于Prometheus构建多集群监控体系,开发自定义Exporter采集Java/Python应用的JVM及业务指标,优化存储周期策略降低30%存储成本
设计Alertmanager分级告警路由规则(邮件/企业微信/钉钉),实现生产环境5分钟内告警触达,误报率下降60%
通过Grafana搭建统一监控门户,开发20+业务看板,集成LDAP实现多租户权限管控
Kubernetes集群管理
使用kubeadm部署高可用K8s集群(v1.24),优化CNI网络方案解决Calico跨AZ通信延迟问题
开发Helm Chart标准化中间件(Redis/MySQL)部署流程,通过HPA+VPA实现业务Pod自动扩缩容
构建ArgoCD GitOps流水线,实现配置变更审计与秒级回滚能力
日志系统优化
搭建EFK(Elasticsearch+Fluentd+Kibana)日志平台,设计多级索引策略提升日志检索效率
开发Fluentd插件实现敏感数据脱敏,通过ILM策略自动管理日志生命周期(热温冷架构)
集成OpenSearch Dashboards构建业务日志分析模板,支撑Nginx日志实时分析等6个业务场景
技术栈:
Prometheus Operator · Alertmanager · Grafana · Thanos · Kubernetes · Helm · Fluentd · Elasticsearch · Golang · Ansible · ArgoCD
系统工作流程 数据采集 Prometheus定期从Exporter、Pushgateway或Service Discovery目标拉取指标。 规则评估 Prometheus根据预配置的alerting_rules.yml计算告警条件,触发告警后推送至Ale
系统工作流程 日志采集 Filebeat监控日志文件变化,实时推送至Logstash或直接写入Elasticsearch。 数据处理 Logstash通过过滤器(Grok、Mutate)解析日志,转换为结构化JSON格式。 数据存储 Elast