项目介绍:
该项目是美团操作系统组内部的一个宕机问题分析平台,主要使用python的Django框架完成。该平台的功能包括以下几方面:
(1)接受机器基础信息上报并入库:每台机器会在固定时间上报自己的机器信息到该平台,每次大概会有20万台机器上报数据,平台在接受数据后通过使用Kafka技术来处理入库;
(2)机器宕机数据多维度展示:该平台主要对宕机机器的数据进行操作,可以多维度的展示宕机情况,方便分析容易引起宕机的原因;
(3)支持对宕机机器发起二次诊断:机器宕机发生后,用户可以在该平台进行二次或多次诊断,排除机器误宕机的可能性;
(4)宕机库的维护:宕机库保存了针对某一个宕机问题的解决方法,该平台提供宕机库的维护接口,拥有特定权限的用户可以在该平台完成宕机库数据的新增/修改/删除;
(5)记录平台操作历史:该平台支持用户对宕机数据或者宕机库进行修改,因此该平台提供记录操作的功能,每个用户可以清晰看到每台机器数据的操作记录。