基本信息

案例ID:241876

技术顾问:sunshine - 2年经验 - 杭州深度求索人工智能基础技术研究有限公司

联系沟通

微信扫码,建群沟通

项目名称:OmniScale

所属行业:人工智能 - 其他

->查看更多案例

案例介绍

从零搭建千亿参数MoE大模型的训练基础设施。设计了基于Megatron-LM + DeepSpeed的分布式训练框架,实现Expert Parallelism与Tensor/Pipeline Parallelism的混合并行策略。自研MoE Expert负载均衡算法,优化All-to-All通信,解决千卡训练中的Loss Spike问题。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服