项目介绍:针对学术文献中较为常见的图表图像(柱状图、折线图、散点图),基于计算机视觉技术对其进行解析,逆向解析出
源数据;系统主要分为 5 部分:图表分类,图表文本定位和角色分类,图表文本识别,图例、坐标系、数据点的检测,图表
数据提取软件的开发;
相关技术:图像分类(CNN&ViT),目标检测(YOLO),OCR(PaddleOCR& Tesseract),图像处理(OpenCV),Qt 软件开发(Pyside6),
模型部署(ONNX),软件打包(PyInstaller);
主要结果:对比了当前主流图像模型在图表分类任务上的表现,采用多种数据增强策略和模型集成方法对性能进行优化,集
成模型在 6 个测试集上均取得了先进的结果,F1 值在 0.86-1 之间;图表文本定位基于 YOLOv8n 实现,最终 mAP50 为 0.66,
模型对于图表中常见的文本(标题、刻度、图例)定位效果较好;图表文本识别基于 PaddleOCRv4 实现,字符识别率和条目识
别率分别为 0.73 和 0.77;对图例刻度文本进行聚类,然后进行回归分析,映射出空间坐标系;对图例文本附近区域进行分析,
定位到图例图形;通过图表分类结果对图表区域内特定组件进行搜索,定位到数据点,最后通过坐标映射恢复原始数据;基
于 pyside6 开发出图表数据提取辅助软件,提高效率的同时也保证了数据提取精度;