VortexInfer推理引擎

人工智能-其他 sunshine

基于Megatron-LM+DeepSpeed构建的千卡级大模型训练系统。自研MoE Expert负载均衡算法,支持TP/PP/DP/EP四维混合并行,最大扩展至32K GPU。MFU达52%,千亿模型收敛时间缩短35%。...

VortexInfer推理引擎
VortexInfer推理引擎

OmniScale

人工智能-其他 sunshine

从零搭建千亿参数MoE大模型的训练基础设施。设计了基于Megatron-LM + DeepSpeed的分布式训练框架,实现Expert Parallelism与Tensor/Pipeline Parallelism的混合并行策略。自研MoE Expert负载均衡算法,优化All-to-All通信,解决千卡训练中的Loss Spike问题。...

OmniScale
OmniScale

VortexInfer

人工智能-其他 sunshine

面向企业客户的LLM推理部署需求,基于vLLM + TensorRT-LLM构建高吞吐、低延迟的推理系统。集成Continuous Batching、PagedAttention、FP8 KV Cache量化。自研请求调度算法,支持模型热加载与A/B测试框架。...

VortexInfer
VortexInfer
------ 加载完毕 ------
联系需求方端客服