编程语言:
• Python:熟练使用Python进行运维相关系统如监控、代码发布、资产管理系统开发。
• Go:熟悉Goroutine、Gin框架,具备高并发开发经验。
• C/C++:具备开源软件二次开发及性能优化经验。
• Vue.js:可使用Vue开发前端项目,具备前后端协同开发能力。
• Bash:熟练编写自动化运维、测试、部署脚本。
• 高并发与性能优化:具备多线程、协程编程经验,能开发高并发服务。
• 独立设计并开发10w+服务器监控Agent。
• 熟悉RESTful API开发,具备后端接口设计与优化经验。
• 熟练使用GDB、memory_profiler进行代码性能分析和优化。
运维技能
• 业务运维与故障处理:
• 具备多种类型线上业务的维护、管理、故障响应、优化经验。
• 负责手游/端游自动发布、自动开停服、自动合服系统开发。
• 自动化与批量资源管理:使用Ansible、Fabric、Puppet、Rsync等工具进行批量服务器管理。
• 使用GIT CICD、jenkins、SVN、dpkg等工具构建自动软件发布系统。
• 监控与服务治理:
• 自研监控系统,并维护Prometheus+VictoriaMetrics、Kubernetes(K8s)及基础监控。
• 公有云、自研智能DNS、域名管理系统维护。
• 四七层负载均衡LVS、NGINX、ingress等技术维护
• Loki、阿里云SLS、sentry、jaeger等日志和链路追踪系统维护。
• 容器和虚拟化:
• 基于k8s容器微服务架构的业务运维。
• 熟悉Docker和Kubernetes(K8s)部署、维护与优化。
• 精通KVM和其他虚拟化技术的日常使用和管理。
• 服务器和机房:
• 独立组织并主导大型自建机房的设计、建设、维护、优化。
• 具备服务器、虚拟机批量自动系统安装及选型、压力测试和故障排查经验。
AI和大数据技术
• 熟悉DeepSeek、Transform、TensorFlow 等 AI 技术开发、训练和推理集群部署、API使用
负责YY直播业务系统运维
•负责公司官方网站和内部平台运维
•负责优化公司内部开发、运维、采购等工作流程
•负责公司音视频、手机APP等业务运维
•使用transflow、langchain等AI技术推进公司业务和流程智能化
负责监控系统开发及优化,提升系统监控精准度。
•推进基于k8s容器环境promtheus+VictoriaMetrics监控架构建设
•开发和优化公司基于物理服务器和虚拟机的自研监控报警体系
•系统性能监控、业务状态监控、日志切割、进程线程状态等系统工具和脚本开发
推动公司日志收集、链路跟踪系统落地和优化
•推动k8s容器loki+grafana日志收集系统落地和架构改造
•阿里云日志系统SLS维护、提升客户端logtail日志收集性能、推动日志成本优化
•微服务架构下链路追踪系统jaeger维护和优化
•客户端日志收集系统Sentry维护和优化
•基于openTelemetry的自研日志、链路跟踪、监控系统方案设计
负责智能DNS架构设计与维护,实现基于地理位置的智能解析。
•基于Bind9、CoreDNS自研权威DNS系统设计和开发(主要使用golang语言)
•根据不同地理区域和网段进行dns解析架构设计和功能开发
•阿里云、百度云域名和DNS系统管理
负责sre其他运维系统开发和维护
•基于k8s容器部署的微服务治理平台
•物理和容器四七层负载均衡(LVS+BGP、nginx、容器ingress)
•包发布、容器发布、携程Apollo动态配置管理系统
•大数据Spark、Hbase、人工智能LlaMA、云存储阿里云和百度云OSS等其他运维系统维护
负责监控系统开发及优化,提升系统监控精准度。 •推进基于k8s容器环境promtheus+VictoriaMetrics监控架构建设 •开发和优化公司基于物理服务器和虚拟机的自研监控报警体系 •系统性能监控、业务状态监控、日志切割、进程线程状态等系统工具和脚本开发 推
负责监控系统开发及优化,提升系统监控精准度。 •推进基于k8s容器环境promtheus+VictoriaMetrics监控架构建设 •开发和优化公司基于物理服务器和虚拟机的自研监控报警体系 •系统性能监控、业务状态监控、日志切割、进程线程状态等系统工具和脚本开发 推
负责智能DNS架构设计与维护,实现基于地理位置的智能解析。 •基于Bind9、CoreDNS自研权威DNS系统设计和开发(主要使用golang语言) •根据不同地理区域和网段进行dns解析架构设计和功能开发 •阿里云、百度云域名和DNS系统管理