沃德天·泥维森陌·拉莫帅的案例列表

知识库

企业服务-数据服务 沃德天·泥维森陌·拉莫帅

技术栈:Python · Docker · Elasticsearch · Nginx · ARM · Redis · MySQL · MinIO 针对RAG(检索增强生成)场景下非结构化数据(PDF/Word/Excel)解析困难、格式混乱导致AI幻觉的问题,设计并开发了一套高并发的文档预处理微服务。该服务作为知识库的底层基础设施,负责将多源异构文档转化为大模型易于理解的结构化文本。 核心职责与成果: 多模态文档解析与清洗(ETL): 基于LibreOffice及正则表达式构建通用解析引擎,支持PDF、Office全家桶等10+种格式的文档解析。 设计文本清洗流水线,有效去除文...

知识库
知识库

文档解析

企业服务-数据服务 沃德天·泥维森陌·拉莫帅

多模态文档解析与清洗(ETL): 基于LibreOffice及正则表达式构建通用解析引擎,支持PDF、Office全家桶等10+种格式的文档解析。 设计文本清洗流水线,有效去除文档中的页眉页脚、乱码及特殊符号,将非结构化文本转化为高质量的Markdown/JSON格式,显著提升了下游向量数据库的索引质量。 高并发异步架构设计: 采用FastAPI + asyncio构建全异步微服务,相比传统同步框架(如Flask/Django),在文档解析IO密集型场景下,吞吐量(QPS)提升约40%。 引入psutil实现细粒度的系统资源监控,针对大文件(>100MB)解析场景设计内存保护机...

文档解析
文档解析
------ 加载完毕 ------
联系需求方端客服