项目概述:开发了一个服务于企业内部知识管理与智能问答场景的系统,支持PDF研报解析、知识库构建、智能检索与自然语言生成,显著提升企业知识利用效率和员工自助获取信息的能力。
研发场景:针对金融消费者在购买保险、理财时面临的产品文档晦涩难懂、条款对比低效、专业术语理解门槛高等痛点,自主研发企业级智能知识问答系统。
关键技术:React、Ant Design(antd)、Vite、FastAPI、Python、LangChain、ChromaDB(向量数据库)、DashScope(通义千问API)、minerU API、gte-rerank-v2(文本重排序)、text-embedding-v2(文本向量化)
个人收获:
1. 全栈开发与RAG架构实践:独立完成前后端全栈开发,深入理解RAG(检索增强生成)架构,掌握了向量化检索、重排序(Rerank)、大模型生成等核心流程。后端集成了text-embedding-v2模型实现文档向量化,采用gte-rerank-v2模型对检索结果进行精细排序。
2. 现代前端工程化与UI体验提升:前端采用React + Ant Design组件库,结合Vite实现高效开发与热更新,设计并实现了美观、易用的问答交互界面,提升了用户体验。
3. 文档解析与知识库自动化构建:通过集成minerU API实现PDF文档的高效结构化解析,自动提取文本与表格内容,结合LangChain和ChromaDB实现企业级知识库的自动向量化和持久化管理。
4. API集成与大模型应用:集成通义千问API,灵活调用text-embedding-v2和gte-rerank-v2等模型,实现文本Embedding、Rerank和自然语言生成,掌握了大模型API的调用、参数配置与异常处理,提升了对AI能力的工程化落地理解。
5. 代码质量与协作优化:规范项目依赖管理,优化前端依赖(如从Tailwind CSS切换到Ant Design),清理冗余配置,提升项目可维护性和团队协作效率。
6. 性能与用户体验优化:针对大批量文档处理和复杂检索场景,优化了批量API调用、分批加载、前端渲染等环节,提升了系统整体性能和响应速度。