熟悉 linux 操作系统的日常维护及管理
熟练使用 shell、python, 编写运维工作中常用的脚本
熟练使用 jenkins 以及 pipeline 编写更新维护流程
熟练使用 nginx、kafka、zookeeper、mongodb、mysql 等软件, 并根据 业务进行调优
熟练使用 zabbix、prometheus、grafana 等监控工具, 监控服务器状 态并接入报警
熟悉阿里云、腾讯 云、Ucloud、AWS等各类云平台的应用管理(云服务器、CDN、DNS、RDS、云监控、TKE、EO 加速)和 api 调用
项目简介:参考公司的业务搭建一套基于Prometheus、Alertmanager、Granfan、Console监控告警平台,实现实时监控目标主机关键指标以及自定义指标并且汇聚成可视化数据图表,同时在数据异常的情况下可以及时发送告警通知(企业微信,钉钉,slack),以保证系统的稳定运行
项目技术:Prometheus、Alertmanager、Grafana、
项目职责:
部署Prometheus服务,采用pull方式收集监控数据,通过http协议传输
部署Exporter服务,使用node_exporter监控服务器基础硬件资状态,业务相关信息等)
部署Grafana服务,创建图形化监控展示页面,将Prometheus监控数据通过可视化方式进行展示,以便于监控人员可以快速清晰查看以及进行故障定位
部署Alertmanager服务,端接收到告警通知后,会进行去重、分组并路由到相应的接收方,发出报警,常见的接收方式有:电子邮件、钉钉、企业微信等
部署Service Discovery服务,使用console实现业务节点的自动注册项目成果:成功实现了这一监控系统的运行,实时监控目标服务的各项监控指标和业务程序状态,并做到了在服务器出现异常状态的视乎第一时间可以通过图表,钉钉,企业微信,电话等通知的方式接收到报警信息,实现了业务的稳定安全运行
游戏业务自动化部署与发布
项目职责:
现有的游戏部署方案是通过跳板机手动执行部署脚本,并且人工校验,为了运维工作的高效以及自动化重新定制符合游戏业务的自动化部署与发布的方案
实现:研发提交代码-->研发环境部署测试->提交测试代码->测试环境部署测试-->提交生产代码-->生产环境正式更新维护游戏,一系列的自动化部署发布操作
使用jenkins通过脚本实现自动化的部署以及结果的检测,提高运维同学的工作效率以及准确性,并且把Jenkins的操作集成在统一运维平台,使得运维操作界面化,简单化
项目成果:成功实现了游戏业务自动化部署与发布,大大提高了运维工作效率,并且自动化脚本保存在 gitlab,方便调试与历史的对比
完善故障工单系统,因为平时遇到的故障工单通过平台录入工单系统,并且进行分类整理,以及工单遇到的问题,问题的解决方案,以及反馈结果
游戏业务自动化部署与发布 项目职责: 现有的游戏部署方案是通过跳板机手动执行部署脚本,并且人工校验,为了运维工作的高效以及自动化重新定制符合游戏业务的自动化部署与发布的方案 实现:研发提交代码-->研发环境部署测试->提交测试代码->测试环境部署测试--&