ID:299890

沃德天·泥维森陌·拉莫帅

ai算法工程师

  • 公司信息:
  • 福富
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 福州
  • 全区

技术能力

1. 后端开发与工程化
编程语言: 精通 Python(熟悉异步编程、多线程及常用Web框架)。
工程化: 熟练掌握 Docker 容器化技术(镜像构建、容器编排),具备 Linux 服务器部署与运维经验,熟悉 Nginx 配置。
数据获取: 具备 Web爬虫 开发经验(如 playwright, Selenium),熟悉反爬虫策略应对及数据清洗流程。
2. AI应用与大模型工程
AI架构: 精通 RAG(检索增强生成)架构设计与优化,熟悉向量数据库(如 Milvus, FAISS)的应用。
模型应用: 熟悉 Prompt Engineering(提示词工程)及 Agent 智能体开发,具备模型微调(Fine-tuning)与量化经验。
开发框架: 熟悉 Dify, RAGFlow 等开源LLM应用开发平台的部署与二次开发。

项目经验

技术栈:Python · Docker · Elasticsearch · Nginx · ARM · Redis · MySQL · MinIO

针对RAG(检索增强生成)场景下非结构化数据(PDF/Word/Excel)解析困难、格式混乱导致AI幻觉的问题,设计并开发了一套高并发的文档预处理微服务。该服务作为知识库的底层基础设施,负责将多源异构文档转化为大模型易于理解的结构化文本。


核心职责与成果:
多模态文档解析与清洗(ETL):
基于LibreOffice及正则表达式构建通用解析引擎,支持PDF、Office全家桶等10+种格式的文档解析。
设计文本清洗流水线,有效去除文档中的页眉页脚、乱码及特殊符号,将非结构化文本转化为高质量的Markdown/JSON格式,显著提升了下游向量数据库的索引质量。
高并发异步架构设计:
采用FastAPI + asyncio构建全异步微服务,相比传统同步框架(如Flask/Django),在文档解析IO密集型场景下,吞吐量(QPS)提升约40%。
引入psutil实现细粒度的系统资源监控,针对大文件(>100MB)解析场景设计内存保护机制,有效防止因内存溢出(OOM)导致的服务崩溃,服务稳定性达到99.9%。
对象存储与状态管理:
集成MinIO分布式对象存储,设计“上传-解析-回调”的全链路任务状态机,支持业务侧异步调用。
实现了断点续传与失败重试机制,确保在大规模知识库初始化导入数据时的可靠性。

案例展示

  • 知识库

    知识库

    技术栈:Python · Docker · Elasticsearch · Nginx · ARM · Redis · MySQL · MinIO 针对RAG(检索增强生成)场景下非结构化数据(PDF/Word/Excel)解析困难、格式混乱导致AI幻觉的问题,设计并开发了

  • 文档解析

    文档解析

    多模态文档解析与清洗(ETL): 基于LibreOffice及正则表达式构建通用解析引擎,支持PDF、Office全家桶等10+种格式的文档解析。 设计文本清洗流水线,有效去除文档中的页眉页脚、乱码及特殊符号,将非结构化文本转化为高质量的Markdown/JSON格式,显著提

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服