ID:388589

技术支持

  • 公司信息:
  • 河北远邦信息技术有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日远程
  • 所在区域:
  • 北京
  • 海淀

技术能力

我熟悉大语言模型(LLM)的本地化部署与优化,能够独立完成从环境搭建、模型下载、量化加速到推理服务上线的全流程操作。熟练掌握 Linux 系统环境下的 GPU 驱动、CUDA、PyTorch 以及 vLLM 等推理框架配置,能够根据硬件资源灵活调整模型精度(如 FP16、INT4)以提升性能和并发能力。在部署过程中,能够使用 Milvus、FAISS 等向量数据库结合嵌入模型构建检索增强(RAG)系统,实现文档的高效索引与语义搜索。同时熟悉 FastAPI、OpenWebUI 等接口与前端集成方案,能够为大模型提供稳定的 API 服务,支持多用户调用与负载均衡。具备一定的系统优化经验,包括 GPU 多卡并行、显存利用率调优以及服务容器化部署,能够根据实际业务场景设计高效可靠的 AI 推理解决方案。

项目经验

在最近的一个项目中,我独立搭建并优化了一个基于本地大语言模型(LLM)的智能问答系统。项目目标是实现企业内部知识库的自动化检索与问答。我首先在 Ubuntu 环境下完成了 GPU 驱动、CUDA 以及 PyTorch 的配置,并采用 vLLM 推理框架实现多卡并行部署,成功加载了 32B 参数规模的中文大模型,并通过 INT4 量化技术显著降低了显存占用,使单机能够在有限资源下支持高并发请求。
在数据处理方面,我编写了文档解析与分块脚本,支持 TXT、PDF、DOCX、MD 等多种文件格式,并利用 BAAI/BGE 系列嵌入模型对文本进行向量化。随后将向量数据存储至 Milvus 数据库,并基于 HNSW 索引实现高效语义检索。为提升用户体验,我使用 FastAPI 开发了兼容 OpenAI API 协议的接口,并结合前端的 OpenWebUI,构建了一个可直接访问的交互平台。系统最终实现了文档级知识的精准召回与上下文增强问答,满足了多用户同时访问与知识库动态更新的需求。该项目锻炼了我在大模型部署、向量数据库应用以及 API 服务开发方面的综合能力。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服