本项目是一个基于大语言模型(LLM)与检索增强生成(RAG)技术构建的跨语言智能文档分析平台,专为跨境贸易合同、法律卷宗及外语长文本提供自动化解析与精准问答服务。
【核心功能展示】
多模态与多语种解析:支持中、俄、英、日等多语种的PDF、Word及图片扫描件摄入。集成底层OCR引擎,无惧复杂跨国合同排版,精准提取西里尔字母及多语种混合文本。
智能风控与摘要生成:利用大模型对长文本进行跨条款逻辑推理,自动生成核心简报,并精准提取潜在的法律风险与违约陷阱。
全局向量检索 (RAG):基于 pgvector 向量数据库,支持用户通过自然语言进行跨文档、跨语种的语义级对话。大模型回答可精准溯源至原文件的物理切片(来源定位)。
高并发异步架构:引入 Celery + Redis 处理耗时的文件解析与向量化任务,配合 WebSocket 实现前端日志的实时双向通讯与状态映射。
我作为独立全栈开发者与AI应用工程师,主导了从底层架构设计到前后端开发的全流程:
算法优化:结合自身的数学与应用数学专业背景,摒弃暴力的文本截断,设计了基于自然语义与标点符号的切分规则(Semantic Chunking),显著提升了高维向量余弦相似度检索的召回准确率。
跨语种NLP调优:依托自身的语文学硕士背景及多年俄语、日语(N1水平)的翻译与本地化经验,针对俄语黏着语特性与西里尔语系的复杂实体(如税务号、俄罗斯企业全称)进行了深度处理,解决了传统正则表达式在多语种隐私脱敏与信息提取中的盲区。
Vue3, FastAPI, Celery, Redis, PostgreSQL, pgvector, Docker容器化, RAG架构, LLM大语言模型接入, OCR文本识别, 异步队列, 多语种NLP处理, 俄文/日文文档解析, 全栈开发。