1、故障发现与登记: 通过监控系统自动报警、用户报障或其他途径发现故障。 登记故障信息,包括故障发生时间、地点、现象描述、初步影响范围、受影响的服务或系统、报障人联系方式等。 2、故障响应与初步处理: 值班工程师接收到故障信息后立即响应,并尝试初步诊断和处理。 根据故障严重程度,可能需要按照预先设定的故障分级预案进行操作,如P1/P2/P3/P4等级别划分,紧急程度依次降低。 3、故障排查定位: 联系相应领域的运维工程师进一步排查故障,利用日志分析、性能指标监控、系统状态检查等手段定位故障点。 如果故障涉及到多个系统或团队,可能会涉及到跨部门协作和资源调度。...
1. 负责使用 ansible 自动化部署集群 2. 负责优化 etcd 性能,数据盘直接使用本地 ssd,自动压缩历史数据和定期碎片清理,优化心跳间隔和选举超时时间 3. 将原 k8s 调度器替换为基于实时负载的调度器 4. 使用 Go 开发基于 webhook 的统一认证服务...
1. 负责整体技术架构选型及部署实施 2. 使用 Go 开发 node controller,实现 kubelet endpoints 的自动更 3. 配置 hashmod 解决 prometheus 无法支撑单个大集群以及多副本 prometheus 重复拉取指标的问题 4. 使用 Go 开发 alertmanager webhook ,并基于飞书机器人配置自动重载 5. 编写 alertmannager 和 thanso ruler 告警规则以及 prometheus record 优化查询语句...
MES管理系统一般包括作业计划、车间管理、生产管理、物料配送、设备管理、数据采集、作业监控、质量管理等核心功能。 1. 作业计划:接受ERP生产计划,或接收MES生产计划,根据产品工艺、库存数量、生产线运行情况等综合进行排单、插单等操作。排程完成后下发至各个工作站,并监控生产情况。在情况发生变化时可以方便地随时调整作业计划,提高设备生产率和工作效率,最大限度地节约生产能源。 2. 车间管理:实时记录每批次产品加工时间、加工完工数量、不合格品数量、员工每天工作时间、完工数量等。生产管理:监视生产过程,对产品各工序的生产、检验、维修以及交付过程进行控制和指引,在提高操作效率的同时杜绝作业操作错...