本案例为学术与工业结合的创新项目,针对街道、商圈等高密度复杂场景,开发了一套基于语义分割和数据增强的行人检测系统。我作为核心开发者,主导了算法设计、训练优化及性能提升全流程工作,具体贡献如下:
算法设计
主干网络:采用ResNet50+FPN结构,通过多尺度特征金字塔融合,增强对小尺度行人的检测能力。
注意力机制:在通道维度引入注意力模块(SE Block),对特征图进行权值重标定,减少背景干扰,关键区域检测精度提升8.6%。
数据增强:设计光照扰动、随机遮挡等合成数据策略,解决实际场景中行人姿态多变、遮挡严重的问题。
模型优化
损失函数:改进二元交叉熵损失,结合Focal Loss缓解正负样本不平衡问题。
训练策略:采用渐进式分辨率训练(从512×512逐步提升至1024×1024),平衡训练效率与精度。
性能成果
在Cityscapes数据集测试中,模型在Reasonable子集(正常可见行人)的检测准确率提升3%,在Heavy Occlusion子集(严重遮挡行人)提升8.6%。