基本信息

案例ID:241877

技术顾问:sunshine - 2年经验 - 杭州深度求索人工智能基础技术研究有限公司

联系沟通

微信扫码,建群沟通

项目名称:VortexInfer

所属行业:人工智能 - 其他

->查看更多案例

案例介绍

面向企业客户的LLM推理部署需求,基于vLLM + TensorRT-LLM构建高吞吐、低延迟的推理系统。集成Continuous Batching、PagedAttention、FP8 KV Cache量化。自研请求调度算法,支持模型热加载与A/B测试框架。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服