本项目聚焦端到端文本检测系统开发,覆盖数据构建 - 算法研发 - 部署优化全流程。我主导完成:
✅ 多场景数据集构建:采集自然场景、文档扫描、低光照等 10 + 类文本图像,设计分层标注规范,通过数据增强生成 20 万 + 训练样本
✅ 多模型对比优化:对比 DBNet、YOLOv11、YOLOv12 等 6 种主流算法,针对小文本、倾斜文本等场景提出改进方案,在 ICDAR 数据集上实现 F1 值 89.7%(DBNet 原版 85.2%)
✅ 全链路部署优化:通过 TensorRT/ONNX Runtime 实现模型加速,内存占用降低 40%,在 ARM 架构设备上达到实时检测(35ms / 帧)
项目亮点:
创新采用多尺度特征融合 + 动态阈值分割技术,解决密集文本重叠问题
开发在线增量学习框架,支持业务场景快速迭代
构建可视化调试平台,使算法调优效率提升 50%
该方案已成功应用于物流面单识别、智能巡检等领域,累计处理超 5000 万张图像,误检率低于 0.3%。关键词覆盖:文本检测、DBNet 优化、YOLOv12 部署、多模态数据增强、模型加速。