ID:421035

sunshine 有团队

架构工程师

  • 公司信息:
  • 杭州深度求索人工智能基础技术研究有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 杭州
  • 拱墅

技术能力

Python、C/C++、CUDA、Go、Shell、yTorch、DeepSpeed、Megatron-LM、vLLM、TensorRT-LLM、Transformers、Ray、Kubernetes、Docker、SLURM、NCCL、RDMA、大模型训练与推理、MoE架构设计、分布式并行策略(TP/PP/DP/EP)、模型量化与压缩、Transformer优化、KV Cache管理、FlashAttention

项目经验

我主导设计了基于Megatron-LM + DeepSpeed的分布式训练框架,实现Expert Parallelism与Tensor/Pipeline Parallelism的混合并行策略。支持最大32K卡扩展,MFU(模型浮点利用率)达到52%,千亿参数模型收敛时间缩短35%。

团队情况

  • 整包服务: 微信公众号开发   微信小程序开发   PC网站开发   H5网站开发   
角色 职位
负责人 架构工程师
队员 产品经理
队员 UI设计师
队员 前端工程师
队员 后端工程师

案例展示

  • VortexInfer推理引擎

    VortexInfer推理引擎

    基于Megatron-LM+DeepSpeed构建的千卡级大模型训练系统。自研MoE Expert负载均衡算法,支持TP/PP/DP/EP四维混合并行,最大扩展至32K GPU。MFU达52%,千亿模型收敛时间缩短35%。

  • OmniScale

    OmniScale

    从零搭建千亿参数MoE大模型的训练基础设施。设计了基于Megatron-LM + DeepSpeed的分布式训练框架,实现Expert Parallelism与Tensor/Pipeline Parallelism的混合并行策略。自研MoE Expert负载均衡算法,优化All-

  • VortexInfer

    VortexInfer

    面向企业客户的LLM推理部署需求,基于vLLM + TensorRT-LLM构建高吞吐、低延迟的推理系统。集成Continuous Batching、PagedAttention、FP8 KV Cache量化。自研请求调度算法,支持模型热加载与A/B测试框架。

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服