1. 大模型推理与部署架构(LLM Infra): 深耕大模型推理服务体系。深入理解 vLLM、SGLang、llama.cpp 等主流推理后端的底层原理,熟练掌握 PagedAttention 内存管理机制、Continuous Batching(连续批处理)及 FlashAttention 加速技术。具备大规模分布式推理的性能调优经验,能够针对不同硬件环境进行延迟与吞吐量的极致优化,熟悉 Ray、BentoML 等分布式框架的差异与选型。
2. 分布式计算与系统优化: 具备扎实的分布式系统设计能力,熟悉类 Actor 编程模型框架。深入理解 MapReduce 并行计算范式,能够基于数据分片和张量并行策略实现大规模数据处理。
3. 后端工程与开发生态: 精通 Python 语言及其完整生态,熟练使用 FastAPI 构建高性能异步 Web 服务。熟悉 OpenAI 兼容 API 标准的设计与实现,具备从模型生命周期管理到对外服务接口封装的全栈工程化落地能力。
项目一:Xinference 企业级大模型分布式推理系统
- 项目角色:核心研发 / 算法研究
- 项目描述: 参与研发了一款高性能的大模型部署与管理框架,旨在解决大模型落地过程中部署复杂、资源调度难的问题。系统提供与 OpenAI 兼容的标准 API,支持从模型下载到生命周期管理的全流程自动化。
- 核心贡献:
1. 多引擎深度评测与优化:主导了系统与业界主流分布式框架(Ray、BentoML)及推理后端(vLLM、SGLang、llama.cpp)的深度对比测试(Benchmark)。基于延迟(Latency)和吞吐量(Throughput)数据,确立了系统的性能基准与优化方向。
2. 分布式资源调度优化:基于 Actor 模型(Xoscar)改进了底层分布式架构,优化了数据并行与张量并行策略。通过精细化的资源调度,显著提升了多卡多机环境下的显存利用率与推理效率。
项目二:Xorbits 大规模科学计算分布式加速框架
- 项目角色:开源贡献者 / 分布式计算研发
- 项目描述: 参与 Xorbits 开源框架的核心模块研发,该项目致力于让数据科学家无需修改代码即可将 NumPy/Pandas/Sklearn 任务扩展至集群环境,解决单机内存瓶颈。
- 核心贡献:
1. MapReduce 并行化实现:负责 NumPy 核心算子(如 np.where 等)的分布式重构。基于 MapReduce 编程模型实现了数据的自动分片与并行计算,确保了与原生科学计算库的功能对齐与接口兼容。
2. 计算图与算子优化:深入参与计算图优化工作,利用算子融合(Operator Fusion)技术减少中间数据传输,降低了分布式计算过程中的网络开销与调度延迟。
项目三:一站式多模态知识图谱构建平台
- 项目角色:全栈架构师 / 算法工程师
- 项目描述: 独立设计并开发了一套支持多模态文档解析、实体关系推断及可视化的知识图谱构建平台,实现了从非结构化文本到结构化图谱的端到端自动化处理。
- 核心贡献:
1. 全栈系统架构设计:采用 Vue3 + FastAPI 前后端分离架构,结合 PostgreSQL 进行持久化存储,利用 Redis 消息队列实现文档解析与图谱构建任务的异步解耦,大幅提升了系统的并发处理能力与响应速度。
2. 高斯图模型(GGM)算法落地:设计并实现了基于高斯图模型的实体关系推断算法。利用精度矩阵(Precision Matrix)精准捕获词向量间的条件依赖关系,并通过 L1 正则化与坐标下降法实现图结构的稀疏化,有效提升了实体关系抽取的准确率与计算效率。
“Scope中文知识图谱构建与更新系统”(原名CKG-CUS,Chinese Knowledge Graph Construction and Update System)由通用工具包(KGTools)、后端服务(KGServer)与前端平台(KGWeb)三大核心模块协同运作,旨
本项目是一个端到端的医学数据智能分析系统,旨在解决传统病历检索中语义理解难、非结构化数据利用率低的问题。 通过集成基于特定医学语料微调(Fine-tuned)的深度学习模型,本系统不仅支持对海量病历数据进行精准的术语检索,更能实时聚合分析,将复杂的临床数据转化为直观的统计图