以智慧工地大屏BI和人员一码通（人员管理的后台应用）为承载，帮助从政府/总包方/工地管理统筹牵引，有效制定策略，并为工地人员提供个性化有效便捷的信息化工具，发挥整体合力，高效完成全业务运营工作，实现人员、设备、物料、工艺、环保、安全、质量、进度全面智慧监管。...

运维故障处理流程

企业服务-云计算张俊

1、故障发现与登记：通过监控系统自动报警、用户报障或其他途径发现故障。登记故障信息，包括故障发生时间、地点、现象描述、初步影响范围、受影响的服务或系统、报障人联系方式等。 2、故障响应与初步处理：值班工程师接收到故障信息后立即响应，并尝试初步诊断和处理。根据故障严重程度，可能需要按照预先设定的故障分级预案进行操作，如P1/P2/P3/P4等级别划分，紧急程度依次降低。 3、故障排查定位：联系相应领域的运维工程师进一步排查故障，利用日志分析、性能指标监控、系统状态检查等手段定位故障点。如果故障涉及到多个系统或团队，可能会涉及到跨部门协作和资源调度。...

阿里云专有云平台

企业服务-云计算张俊

1. 阿里云运维技术栈： • 熟练掌握阿里云专有云环境下的各项服务运维，包括 ARMS 应用实时监控、ASCM （阿里云控制台管理服务）资源管理、ASO （云原生运维服务）等。 • 对阿里云资源进行全面监控与精细管理，如利用 ASCM 进行用户权限分配、资源创建与删除、成本控制等操作。 • 熟悉 ASO 的功能，包括应用部署、配置管理、灰度发布、故障定位与修复等，助力云原生应用的高效运维。 2. ARMS 监控与告警： 3. MQ 消息队列运维： 4. 日常巡检观察天基终太，分析铜雀告警： 5. 阿里云 ASCM与 ASO 运维实践： ...

2000+节点k8s集群搭建及维护

企业服务-云计算 System

1. 负责使用 ansible 自动化部署集群 2. 负责优化 etcd 性能，数据盘直接使用本地 ssd，自动压缩历史数据和定期碎片清理，优化心跳间隔和选举超时时间 3. 将原 k8s 调度器替换为基于实时负载的调度器 4. 使用 Go 开发基于 webhook 的统一认证服务...

Prometheus+Thano监控系统

企业服务-云计算 System

1. 负责整体技术架构选型及部署实施 2. 使用 Go 开发 node controller，实现 kubelet endpoints 的自动更 3. 配置 hashmod 解决 prometheus 无法支撑单个大集群以及多副本 prometheus 重复拉取指标的问题 4. 使用 Go 开发 alertmanager webhook ，并基于飞书机器人配置自动重载 5. 编写 alertmannager 和 thanso ruler 告警规则以及 prometheus record 优化查询语句...