全栈开发能力与人工智能领域深度实践经验,熟练掌握跨平台技术栈并精通高性能计算优化。在软件开发层面,可独立完成从需求分析到系统部署的全生命周期开发,技术栈涵盖:前端(React/Vue.js/TypeScript)、后端(Node.js/Spring Boot/Python Django)、移动端(Flutter/React Native)以及数据库(MySQL/PostgreSQL/MongoDB)的架构设计与优化,熟悉微服务架构与DevOps工具链(Docker/Kubernetes/Jenkins)。
在人工智能领域,专注于GPU加速计算与大型语言模型开发:1. CUDA编程方面,具备5年以上优化并行计算经验,成功实现过计算机视觉算法从CPU到GPU的移植优化,使推理速度提升40倍以上;2. 大模型开发方面,完整参与过基于Transformer架构的十亿参数级模型开发,熟练使用PyTorch Lightning框架进行分布式训练,掌握DeepSpeed、Megatron-LM等并行训练工具;3. 模型部署方面,主导过BERT-large模型的ONNX格式转换与TensorRT加速部署,实现服务响应时间从500ms优化至80ms;4. 微调实践中,结合LoRA/P-Tuning等参数高效微调技术,在限定算力条件下完成领域适配任务,同时精通Hugging Face生态链工具(Transformers/Accelerate/Peft)的应用。
持续关注AI工程化落地,掌握LangChain等AI应用框架开发,具备构建RAG(检索增强生成)系统的实战经验,熟悉大模型量化(GGML/GPTQ)与轻量化部署技术,成功在边缘设备(NVIDIA Jetson系列)部署过7B参数量级的行业大模型。技术视野覆盖从底层硬件加速到上层应用开发的全技术栈,擅长在复杂系统中实现性能与成本的平衡优化。
项目一:智慧城市视频分析系统(CUDA加速版)**
**周期**:2022.03-2023.01
**技术栈**:PyTorch/CUDA C++/TensorRT/Flask/NVIDIA Jetson AGX
**核心贡献**:
- 设计基于YOLOv7改进的实时目标检测模型,通过CUDA重写数据预处理模块,将1080P视频流处理延迟从230ms降至58ms
- 开发多线程GPU任务调度系统,实现单卡并发处理16路视频流,显存利用率提升70%
- 使用TensorRT进行模型量化与层融合优化,在Jetson边缘设备部署时模型推理速度达45FPS
- 搭建Docker+Kubernetes微服务架构,实现算法模块与业务系统的低耦合对接
**成果**:落地3个城市交通枢纽,日均处理视频数据量超300TB,获客户A级验收评价
---
**项目二:金融领域大模型智能客服系统**
**周期**:2023.05-至今
**技术栈**:LLaMA-13B/LoRA微调/LangChain/React+FastAPI
**核心贡献**:
- 基于ChatGLM2-6B架构构建垂直领域对话模型,采用LoRA技术进行千亿token金融语料微调
- 设计混合精度训练方案(FP16+梯度检查点),在8*A100集群上训练效率提升3.2倍
- 开发RAG增强系统,结合ElasticSearch实现实时金融政策检索与回答验证
- 构建BFF层中间件对接大模型API,前端响应延迟优化至1.2s内
**成果**:模型在金融QA测试集准确率达89.7%,已服务5家基金公司客户
---
**项目三:工业缺陷检测云边协同系统**
**周期**:2021.09-2022.12
**技术栈**:ResNet50/OpenCV/Django/Edge TPU
**核心贡献**:
- 开发自适应数据增强管道,在小样本(<500张/类别)场景下模型mAP提升22%
- 设计基于知识蒸馏的模型压缩方案,将缺陷分类模型从486MB压缩至27MB
- 实现云端模型训练与边缘设备(Google Coral)的OTA无缝更新系统
- 构建MongoDB时序数据库存储检测结果,支持百万级/日数据的多维分析
**成果**:部署于12条产线,缺陷检出率从83%提升至97%,误报率降低至1.2%