项目概述:开发面向企业知识管理与智能问答场景的本地化 RAG 智能体应用,支持文档自动导入、minerU 智能解析、向量化入库、Elasticsearch 检索、互联网补充搜索与多模型智能对话,配备知乎风格 WebUI,助力企业高效构建私有知识库问答平台。
研发场景:因研学业务中供应商提供的基地资料分散杂乱(PDF/Word等),项目人员需耗费较多时间去跨文档人肉翻查关键信息(如课程报价、安全条款),且新员工因不熟悉文档结构常遗漏重要条款等。
关键技术:Python、Elasticsearch(向量数据库)、Gradio(WebUI)、Qwen Agent(大模型智能体)、PyPDF(PDF解析)、LangChain、minerU(高质量文档结构化)
个人收获:
1. 智能文档解析与知识库构建:集成 minerU 实现高质量 PDF/Docx 结构化解析,自动批量导入与分块,提升了知识库数据质量与检索效果。
2. RAG 检索与多模型融合:掌握了通过使用了 Elasticsearch数据库,结合 Embedding 与关键词召回(Elasticsearch bm25)多通道召回的混合检索策略,结合 DashScope/OpenAI embedding 与 Qwen Agent 智能体,实现了本地+互联网双通道问答。
3. WebUI 设计与体验优化:基于 Gradio 实现知乎风格美观界面,支持侧边栏交互与弹窗提示,提升了易用性与可视化体验。
4. 自动化与工程化实践:开发自动数据导入、知识库更新脚本,采用 config.py 集中管理敏感信息,规范依赖与安全配置,提升了项目可维护性。
项目业绩:
1. 资料孤岛打通:自动解析多源文件,构建统一知识库(消灭80%重复整理工作)
2. 查询效率飞跃:输入自然语言(如 某基地小学课程人均报价?),平均10秒内定位答案段落(对比人工查询时间不定)
3. 知识零损耗传递:基于语义理解直接输出结论(如合同条款解读),新人上岗即获专家级信息支撑