基线模型搭建与调优:基于真实动物图像数据集(约2.6万张),从零手工搭建5层深层 CNN。通过引入 BatchNorm、L2 正则化及数据增强策略,解决模型“头重脚轻”导致的严重过拟合瓶颈,成功打通数据预处理到 TensorBoard 监控的全生命周期。
经典架构迁移学习: 引入ResNet18 预训练模型执行微调(Fine-tuning)。通过冻结特征层并修改全连接分类头,仅用极小的计算开销(5个Epoch)便将测试准确率从基线模型的80%拔高至95%以上,验证了CNN 的归纳偏置 (Inductive Bias) 在中小数据集上的优势。
前沿大模型底座对比: 完成Vision Transformer (ViT-Base) 架构的横向对比实验。针对 ViT 在训练中出现的倒V型过拟合现象(准确率回落至 89% 且算力开销激增 8 倍),从“全局注意力机制与数据依赖性”的底层原理维度进行深度复盘,确立了实际工程落地中基于算力与数据规模的模型选型标准。