猿急送>

福州Python兼职程序员

ID：299890

沃德天·泥维森陌·拉莫帅

ai算法工程师

公司信息：
福富

工作经验：
2年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
福州
全区

技术能力

1. 后端开发与工程化
编程语言：精通 Python（熟悉异步编程、多线程及常用Web框架）。
工程化：熟练掌握 Docker 容器化技术（镜像构建、容器编排），具备 Linux 服务器部署与运维经验，熟悉 Nginx 配置。
数据获取：具备 Web爬虫开发经验（如 playwright, Selenium），熟悉反爬虫策略应对及数据清洗流程。
2. AI应用与大模型工程
AI架构：精通 RAG（检索增强生成）架构设计与优化，熟悉向量数据库（如 Milvus, FAISS）的应用。
模型应用：熟悉 Prompt Engineering（提示词工程）及 Agent 智能体开发，具备模型微调（Fine-tuning）与量化经验。
开发框架：熟悉 Dify, RAGFlow 等开源LLM应用开发平台的部署与二次开发。

项目经验

技术栈：Python · Docker · Elasticsearch · Nginx · ARM · Redis · MySQL · MinIO

针对RAG（检索增强生成）场景下非结构化数据（PDF/Word/Excel）解析困难、格式混乱导致AI幻觉的问题，设计并开发了一套高并发的文档预处理微服务。该服务作为知识库的底层基础设施，负责将多源异构文档转化为大模型易于理解的结构化文本。

核心职责与成果：
多模态文档解析与清洗（ETL）：
基于LibreOffice及正则表达式构建通用解析引擎，支持PDF、Office全家桶等10+种格式的文档解析。
设计文本清洗流水线，有效去除文档中的页眉页脚、乱码及特殊符号，将非结构化文本转化为高质量的Markdown/JSON格式，显著提升了下游向量数据库的索引质量。
高并发异步架构设计：
采用FastAPI + asyncio构建全异步微服务，相比传统同步框架（如Flask/Django），在文档解析IO密集型场景下，吞吐量（QPS）提升约40%。
引入psutil实现细粒度的系统资源监控，针对大文件（>100MB）解析场景设计内存保护机制，有效防止因内存溢出（OOM）导致的服务崩溃，服务稳定性达到99.9%。
对象存储与状态管理：
集成MinIO分布式对象存储，设计“上传-解析-回调”的全链路任务状态机，支持业务侧异步调用。
实现了断点续传与失败重试机制，确保在大规模知识库初始化导入数据时的可靠性。

案例展示

知识库

技术栈：Python · Docker · Elasticsearch · Nginx · ARM · Redis · MySQL · MinIO 针对RAG（检索增强生成）场景下非结构化数据（PDF/Word/Excel）解析困难、格式混乱导致AI幻觉的问题，设计并开发了
文档解析

多模态文档解析与清洗（ETL）：基于LibreOffice及正则表达式构建通用解析引擎，支持PDF、Office全家桶等10+种格式的文档解析。设计文本清洗流水线，有效去除文档中的页眉页脚、乱码及特殊符号，将非结构化文本转化为高质量的Markdown/JSON格式，显著提