基于现有 MMDetection/YOLOv3 框架,针对 篡改场景文本检测 任务,完成以下工作:
双分支网络实现:设计并实现同时包含 RGB 分支与频域分支的检测架构,确保两分支特征可通过融合模块进行有效结合,以提升对篡改文本的检测能力。
模型训练与优化:在 Tampered_IC13 数据集(及可选的其他相关数据集)上进行训练、调参和性能优化,保证最终模型在验证集上的 F1 分数 ≥ 0.85,Precision、Recall 同时达到合理水平。
完整交付物:包括
训练完成的模型权重文件(.pth)
全部训练与测试日志(包含超参数、损失曲线等)
完整的评估结果(Precision、Recall、F1 等指标的详细数据)
模型运行及复现指南(确保可在现有环境下直接运行)
技术栈要求:精通 PyTorch、MMDetection/YOLOv3,具备频域图像处理(FFT/DCT 等)经验,有深度学习目标检测模型优化经验者优先。