“Scope中文知识图谱构建与更新系统”(原名CKG-CUS,Chinese Knowledge Graph Construction and Update System)由通用工具包(KGTools)、后端服务(KGServer)与前端平台(KGWeb)三大核心模块协同运作,旨在实现从数据处理、知识管理到知识图谱交互展示的全流程自动化,促进学术研究与教育资源的深度融合,为跨学科知识融合提供工程化解决方案。
通用工具包(KGTools)集成了Tesseract、PaddleOCR和cnOCR三种主流OCR技术,并结合基于规则引擎的文本清洗与标准化模块,能够高效处理各类文件格式(如图片、PDF、TXT等)及复杂排版样式。无论是扫描文档、手写笔记,还是多栏排版的学术论文,系统均可自适应调整解析策略,将非结构化文本转化为规范化的高质量语料。而在知识抽取模块中,系统创新性地融合GloVe词向量与张量正态概率图模型,通过建模词向量空间的精度矩阵,捕捉学科术语间的条件依赖关系,实现跨学科语义关联的自动化推理。
后端服务(KGServer)基于FastAPI框架,采用SQLAlchemy的异步ORM框架,并结合PostgreSQL数据库,实现高效的数据持久化存储。同时,系统引入Redis实现任务队列管理,使得文本提取、文本清洗、知识图谱构建等任务均在后台异步处理,确保高效性和系统响应速度。前端平台(KGWeb)基于Vue 3企业级框架vben-admin进行二次开发,通过与AntV G6图可视化引擎的深度整合,系统实现了力导向、环形等多种自适应布局机制,通过色块区分学科,实现了复杂知识网络的可读性呈现。
在实际应用中,本项目已成功构建了覆盖金融学、经济学、统计学和数据科学四大学科的综合知识图谱。通过系统的跨学科知识关联分析功能,有效支持了学科间知识的融合与创新。特别是在教育领域,该系统为教师提供了可视化的知识结构分析工具,帮助优化课程设计和教学内容组织,推动了跨学科教育的发展。