为保证内部服务器和各项业务应用的可靠性与故障排查修复的及时性,我们对集群和业务提供了灵活的监控配置。依赖openfalcon框架,提供了硬件监控、kafka监控、es节点监控、API健康检查等常用监控,并对告警逻辑进行二次开发,扩展了对日志监控的支持。 项目职责: 1.分布式部署openfalcon框架,利用supervisord实现系统的自监控与自恢复。 2.根据产品设计,实现权限管理,告警规则优化,API监控与日志监控配置相关的Python后端开发。 3.开发并维护,API监控、ES监控、kafia监控等监控组件,实现自监控。 4.对话用户,根据用户痛点优化日志监控配置,协调资源...
行业场景 每月的员工工资条从原有的企微应用“用友工资条” 自主查询方式,改为通过短信通知方式发送给所有员工 功能介绍 一.员工工资短信发送 1.账号登录 2.Excel导入 3.Excel导入-数据重导/多导/覆盖 4.数据查询 5.短信发送 6.短信发送-等待接收短信回执 7.短信发送-失败重发 二. 员工手机号码管理 8. 员工手机号码管理 9. 员工手机号码查询 10. 员工手机号码新增 11. 员工手机号码修改 12. 员工手机号码删除 项目实现 1、与用户沟通需求 2、独自开发该程序,包括设计、开发、测试 程序为C#-winform桌面...
传统简单性、重复性的运维工作需要人工处理,大大制约运维的生产力,迫切需要在安全合规的情况下将人工处理变革 为自动化处理,所以引入钉钉机器人替代传统运维工作。 核心工作: 成效: 1.主导平台架构设计与核心模块开发,包括消息处理、模块机制、工单机制、模块执行、OA审批与消息通知等。 2.在钉钉群内接收用户消息,结合组织架构与OA审批流自动判断权限范围并执行运维操作。 3.实现插件化扩展机制,支持快速集成外部系统(如 LDAP、Jumpserver、HuaweiCloud),实现多系统联动。 4.开发定时工单机制,自动触发任务(如周期性权限回收、环境清理等),构建安全合规的运维闭环。...
基于 Python FastAPI + Vue 技术栈。以“统一权限、智能运维、统一告警、自动发版、安全审计”为核心目标,构建 覆盖监控、告警、发版、权限、执行控制的一体化智能运维体系。 1.主导平台架构设计与核心模块开发,负责前后端、数据库、发布构建脚本的开发,做到全栈开发。 2.集成运维机器人,工单管理、定时工单管理、动态模块管理、钉钉群管理。提高管理员和用户的配置效率。 3.集成用户管理、权限管理、采用主流赋权逻辑。该权限机制给各大系统提供可控的基础。 4.集成报警中心,报警各类实体的管理、报警记录的处理、报警报表等30张表的联查和导出。 5.集成发版管理,基础服务的配置,追...