项目描述:随着企业离线和流式数据处理集群模式上线后,整体的服务器和集群数量多且分布散乱,
使得集群维护和巡检工作变得越加艰难,需要对集群状态、服务器自研使用情况和相关业务的健康状态进
行实时跟踪;为应对这一挑战,项目团队自主研发了一套以Octfoot软件和Octbrain软件为核心的智能监控告
警体系。该体系通过整合先进的监控技术和大数据分析能力,能够对企业的各类集群和服务器资源进行全
方位的实时监控与告警管理。Octfoot负责底层数据采集和状态监控,能够精确监控每台服务器的资源使用情
况和运行状态。
技术架构:python + Nginx + Flume + Kafka + ELK + Grafana + Wechatalarm
担任职责:1.对接监控告警新需求
2.开发及测试监控、告警脚本程序
3.实时跟进grafana可视化监控页面及Wechat告警信息情况优化程序
4.优化监控告警机制