1、故障发现与登记: 通过监控系统自动报警、用户报障或其他途径发现故障。 登记故障信息,包括故障发生时间、地点、现象描述、初步影响范围、受影响的服务或系统、报障人联系方式等。 2、故障响应与初步处理: 值班工程师接收到故障信息后立即响应,并尝试初步诊断和处理。 根据故障严重程度,可能需要按照预先设定的故障分级预案进行操作,如P1/P2/P3/P4等级别划分,紧急程度依次降低。 3、故障排查定位: 联系相应领域的运维工程师进一步排查故障,利用日志分析、性能指标监控、系统状态检查等手段定位故障点。 如果故障涉及到多个系统或团队,可能会涉及到跨部门协作和资源调度。...
1. 负责使用 ansible 自动化部署集群 2. 负责优化 etcd 性能,数据盘直接使用本地 ssd,自动压缩历史数据和定期碎片清理,优化心跳间隔和选举超时时间 3. 将原 k8s 调度器替换为基于实时负载的调度器 4. 使用 Go 开发基于 webhook 的统一认证服务...
1. 负责整体技术架构选型及部署实施 2. 使用 Go 开发 node controller,实现 kubelet endpoints 的自动更 3. 配置 hashmod 解决 prometheus 无法支撑单个大集群以及多副本 prometheus 重复拉取指标的问题 4. 使用 Go 开发 alertmanager webhook ,并基于飞书机器人配置自动重载 5. 编写 alertmannager 和 thanso ruler 告警规则以及 prometheus record 优化查询语句...