为保证内部服务器和各项业务应用的可靠性与故障排查修复的及时性,我们对集群和业务提供了灵活的监控配置。依赖openfalcon框架,提供了硬件监控、kafka监控、es节点监控、API健康检查等常用监控,并对告警逻辑进行二次开发,扩展了对日志监控的支持。
项目职责:
1.分布式部署openfalcon框架,利用supervisord实现系统的自监控与自恢复。
2.根据产品设计,实现权限管理,告警规则优化,API监控与日志监控配置相关的Python后端开发。
3.开发并维护,API监控、ES监控、kafia监控等监控组件,实现自监控。
4.对话用户,根据用户痛点优化日志监控配置,协调资源,推动告警模板和告警示例功能的开发与上线。
项目业绩:
持续监控近300台服务器,300个API服务,300+个日志监控,平均每周产生1w多个告警,为开发人员提供<500ms的及时告警;为部门内的业务开发与故障解决,提效至少30%。