18年IT行业从业及开发经验;具备丰富的架构设计、一线开发(Go/PHP/Python/Java/C/C++等)及项目管理经验。拥有大中小企业的从业经历;适应跨地域、跨团队、高压力、快节奏的工作环境。熟悉云原生(K8s、Docker、Service Mesh)等相关生态及技术,有多家知名云计算企业的从业经历。熟悉视觉 AI 及大模型技术,有实际落地经验。
金山云 AI 平台
主要技术:Docker、Kubernetes、Kubeflow、Istio、Golang
项目描述:AI训练平台支持AI全生命周期管理,包括数据接入、数据处理、训练数据组织、模型训练、模型评估、模型部署、模型跟踪等AI全生命周期管理。
项目亮点:
1)采用云原生技术设计了Awaken AI平台1.0到3.0的整体架构,全面拥抱云原生技术,将云原生的三驾马车(容器、微服务、Devops)及最新思想(声明式API及可观测性)有机地融合在一起,从而使得该架构具有事件驱动、扩展性强等特点,方便为不同场景增加功能模块。
2)Awaken AI平台显著地提升了算法工程师的工作效率:在数据处理方面,从手动维护数据集和KS3数据变为通过AI平台自动维护和管理,减少了算法工程师花费在数据处理上50%以上的时间;在模型训练方面,通过封装常用训练镜像并使用流水线技术大大简化了算法工程师的操作复杂度,同时引入Horovod框架充分利用多卡进行训练,提升训练速度30%以上;通过自研资源调度算法将资源碎片率从30%减少到小于5%。
ACP(Alauda Container Platform)
主要技术:Docker、Kubernetes、Helm、Etcd、Golang、Microservice
项目描述:ACP是Alauda推出的一站式云原生赋能平台,能够帮助企业便捷地在标准化平台上快速建立和使用云原生应用,已经经过大量客户生产环境的实践检验。ACP包括ACP DevOps、ACP Service Framework(ASF)、Alauda Kubernetes(AKS)、Alauda Machine Learning(AML)等几大标准化云原生产品,实现了对云原生核心技术的完整覆盖。
项目亮点:
1)ACP 分为1.0和2.0两个大版本,2.0进行了大的改版,同时增加了多租户和多集群的功能。ACP 全面基于原生 Kubernetes 开发,所有第三方资源都以 CRD 形式存储在 Etcd 中,通过 Kubernetes来进行管理。我带领的企业场景团队主要负责的是用户认证、授权、多租户、配额管理、Portal、License等平台基础模块。
2)用户认证采用了 Dex 作为核心的 Auth Server,并在其上扩展了多个重要功能,比如增加了 User CRD 的创建及扩展了自带的 connector。Dex 作为 OIDC IDP 与 Kubernetes进行无缝对接,同时作为 Auth Proxy 对接多种外部第三方用户系统。
3)用户授权直接对接 Kubernetes的 RBAC,并预置了多种默认角色。同时开发了 Auth Controller 模块,用来同步 Role-User Binding CRD 到各个业务集群,并 watch 角色资源的变化从而维护后续的逻辑操作。
4)多租户作为平台层面的资源隔离体系,可以跨集群和跨Namespace,通过抽象成Project、Project Quota 等CRD资源,并在创建Namespace时打上Project Label,从而做到逻辑上的资源隔离。为了满足某些大型企业内部的多层组织架构所需的资源隔离需求,我们还将多租户做到了无限级扩展,可以满足任意层级的资源隔离。
掌通家园APP家长端
主要技术:Openresty、PHP(Phalcon)、MySQL(MariaDB)、Memcached、Redis、Beanstalkd、MongoDB、ELK、Mycat
项目描述:掌通家园APP是国内最大的幼教平台,下载量全行业第一。目前家长端日活突破200万,日启动突破1200万,覆盖全国5万多家幼教机构、100万幼师、1000万幼儿、2000万家长。
项目亮点:
1)每日动态请求过亿,峰值QPS过万,目前使用了超过40台服务器,7大集群(Web集群、MC集群、Codis集群、Mycat集群、MariaDB集群、Mongodb集群、ELK集群);
2)采用了AOP、MVCS分层及多种设计模式,减少了系统耦合度;
3)推动了线上监控及预警系统的搭建及监控各维度的完善(zabbix+grafana);
4)使用ELK系统进行线上日志的收集、分析和查看,提升了日志收集和分析的效率;
5)通过使用Codis等集群化技术消除了系统单点,提高了系统可用性;
6)增加Mycat集群,对MariaDB做了读写分离,降低了数据库主库的压力,降低了服务器的响应时间。同时搭配galera cluster做集群高可用。