Python、C/C++、CUDA、Go、Shell、yTorch、DeepSpeed、Megatron-LM、vLLM、TensorRT-LLM、Transformers、Ray、Kubernetes、Docker、SLURM、NCCL、RDMA、大模型训练与推理、MoE架构设计、分布式并行策略(TP/PP/DP/EP)、模型量化与压缩、Transformer优化、KV Cache管理、FlashAttention
我主导设计了基于Megatron-LM + DeepSpeed的分布式训练框架,实现Expert Parallelism与Tensor/Pipeline Parallelism的混合并行策略。支持最大32K卡扩展,MFU(模型浮点利用率)达到52%,千亿参数模型收敛时间缩短35%。
| 角色 | 职位 |
| 负责人 | 架构工程师 |
| 队员 | 产品经理 |
| 队员 | UI设计师 |
| 队员 | 前端工程师 |
| 队员 | 后端工程师 |
基于Megatron-LM+DeepSpeed构建的千卡级大模型训练系统。自研MoE Expert负载均衡算法,支持TP/PP/DP/EP四维混合并行,最大扩展至32K GPU。MFU达52%,千亿模型收敛时间缩短35%。
从零搭建千亿参数MoE大模型的训练基础设施。设计了基于Megatron-LM + DeepSpeed的分布式训练框架,实现Expert Parallelism与Tensor/Pipeline Parallelism的混合并行策略。自研MoE Expert负载均衡算法,优化All-
面向企业客户的LLM推理部署需求,基于vLLM + TensorRT-LLM构建高吞吐、低延迟的推理系统。集成Continuous Batching、PagedAttention、FP8 KV Cache量化。自研请求调度算法,支持模型热加载与A/B测试框架。