项目背景
某大型制造业企业原有知识库存在文档分类混乱、搜索效率低(平均检索耗时>2分钟)的问题。传统关键词匹配无法理解用户意图,导致关键文档利用率不足30%。
技术方案与创新
1. 多模态文档智能分类
- 基于Transformer架构构建文档特征提取模型,融合文本(BERT嵌入)、图像(CNN提取布局特征)和元数据(作者、版本等),实现PDF/PPT/表格等11类文件的自动分类。
- 针对扫描件OCR文本模糊问题,引入对抗生成网络(GAN) 增强训练数据,提升脏污文档的识别鲁棒性。分类准确率达98.7%(工业界平均为92%)。
2. 用户意图识别引擎
- 采用层次化意图识别框架:
- 第一层:基于BiLSTM+CRNN的粗粒度意图分类(如“查询制度”“技术问题”);
- 第二层:结合知识图谱与微调大模型(Qwen-7B) 解析细粒度需求(如“2024年差旅报销标准”需关联财务制度、城市分级数据)。
- 通过用户行为序列建模(点击/停留时长),动态优化意图预测结果,使搜索意图匹配准确率提升至91%。
3. 知识库增强与RAG优化
- 构建企业专属知识图谱:从非结构化文档中抽取实体(产品型号、流程节点)和关系,存入Neo4j图数据库,支撑语义推理。
- 设计动态权重检索机制:根据用户角色(如财务/工程师)调整知识库检索优先级,关键信息召回率提升35%。
落地效果
- 知识库平均查询响应时间从120秒降至3.2秒,文档利用率从30%提升至85%;
- 支持125路高并发访问,赋能HR、法务等部门实现智能问答,替代60%人工咨询。