1、跨模态技术整合:精通视觉(CV)、自然语言处理(NLP)与多模态(如CLIP、DALL·E)模型的融合应用,能设计跨模态对齐与特征交互方案,解决图文、视频等多源数据协同问题。
2、大模型优化与部署:熟悉Transformer架构(如ViT、Swin Transformer)及LLMs(GPT、LLaMA)的微调、蒸馏与轻量化技术,具备分布式训练(Megatron-LM、DeepSpeed)及边缘端部署(TensorRT、ONNX)经验。
3、工业级视觉解决方案:掌握目标检测(YOLO、DETR)、图像分割(Mask R-CNN、SAM)及3D视觉(点云处理、NeRF)的落地优化,熟悉缺陷检测、姿态估计等工业场景的模型适配与数据增强策略。
4、全栈技术视野:从数据标注(半监督/弱监督学习)、模型训练(PyTorch、JAX)到性能评估(mAP、IoU多指标分析),具备全流程把控能力,并能结合AutoML、联邦学习提升效率与隐私保护。
5、场景化创新:擅长将学术前沿(如Diffusion模型、具身智能)转化为行业应用,例如医疗影像分析、自动驾驶感知或多模态人机交互系统设计,同时关注伦理与可解释性(XAI)问题。
高速公路实时预警系统、教育小车机械臂研发、基于多尺度特征提取与注意力机制的交通标识识别算法研究、基于ChatGLM2的医患对话诊断报告、基于泊松分布的神经网络混合差分剪枝方法和剪枝装置