技术:1. 大模型推理与部署架构(LLM Infra): 深耕大模型推理服务体系。深入理解 vLLM、SGLang、llama.cpp 等主流推理后端的底层原理,熟练掌握 PagedAttention 内存管理机制、Continuous Batching(连续批处理)及 FlashAt
项目:项目一:Xinference 企业级大模型分布式推理系统 - 项目角色:核心研发 / 算法研究 - 项目描述: 参与研发了一款高性能的大模型部署与管理框架,旨在解决大模型落地过程中部署复杂、资源调度难的问题。系统提供与 OpenAI 兼容的标准 API,支持从模型下载到生命
案例: 中文知识图谱构建与更新系统