编程语言
熟练使用: Python、Shell/Bash
掌握: Java
了解: C、C++
数据处理与开发
数据流水线/ETL系统设计与开发,具备SFT训练数据全链路生产经验
高吞吐批处理(Batch Processing)系统架构与优化
并行计算与性能调优,具备算法设计与优化能力
复杂数据清洗、标准化、质量校验与全链路管理
AI/ML 与智能数据应用
大语言模型(LLM)API集成与多阶段推理链路设计(Gemini 2.5 Pro、Qwen3-VL、
doubao-seed-thinking 等)
提示词工程(Prompt Engineering):熟悉CoT、Few-shot、约束性Prompt等策略,具
备LLM-as-Judge数据质量评估经验
熟悉SFT训练数据格式(Alpaca、ShareGPT、多轮对话格式)与数据质量对模型微调效果
的影响
了解大模型微调方法(LoRA/QLoRA)与训练框架(LLaMA-Factory、DeepSpeed)
OCR技术集成、多模态数据处理与图文对齐
自然语言处理(NLP)基础任务:信息抽取、文本相似度计算、中文分词
本地大模型部署与推理:使用Ollama部署Llama/Qwen等模型,支持本地与云端模型切换
后端开发与框架
了解 Spring、SpringMVC、MyBatis 等主流Java开发框架
了解 MySQL 数据库设计与使用
了解Next.js框架使用
开发与运维基础
Linux / Unix 环境下的基础开发与系统操作,能够编写基础 Shell 脚本进行任务自动化
基于 FTP / SFTP 的文件接入与自动化处理流程实践
综合能力
具备良好的数据结构和算法基础
拥有良好的英文技术文档阅读与写作能力
2025.10-2026.01
安徽飞数信息科技有限公司
AI 数据平台开发工程师(工作)
项目描述:参与设计并实现面向教育教辅材料的AI数据处理平台,构建覆盖数据接入、OCR识别、
NLP任务处理及质量校验的自动化流水线,为下游大模型SFT微调训练提供高质量的指令数据集。
核心职责与技术实现:
数据流水线架构设计与开发
设计并实现了端到端的自动化数据处理流程,涵盖FTP文件接入、OCR结果解析、文本清
洗与合并、AI模型推理及质量校验全链路。
重构数据处理架构,将原本分散的多个处理脚本融合为统一的自动化流水线,构建了可配置
的批处理系统,支持通过参数动态适配不同规模的数据处理需求。
算法优化与代码架构重构
引入ProcessPoolExecutor 多进程并行处理机制,在数据清洗、合并及模型调用等计算密集
型环节实现并行化,使单批次数据处理效率提升约40%。
大模型微调与训练
负责大模型SFT微调所需的指令数据集(instruction-answer pair)构建,设计了从原始教
辅图片到结构化QA对的完整数据制备流程,累计产出50万+页高质量训练语料。
针对SFT数据质量要求,设计多轮Prompt模板驱动LLM进行QA提取与可用性校验,通
过迭代优化Prompt策略将数据可用率提升15%。
构建"自动化处理-模型推理-质量回溯"的数据质量闭环,确保输出给下游SFT训练的标注数
据准确率维持在98.5%以上。
AI模型集成与推理优化
集成Gemini 2.5 Pro、豆包seed-thinking、Qwen3-VL等多个大模型API,根据不同任务
特点进行模型选型与Prompt工程优化。
设计异步任务队列管理API调用并发,提升系统在高负载下的稳定性和吞吐能力。
工程化与效率提升
通过自动化脚本将手动操作工作量减少约80%,平台稳定支撑日均3000+页教育文档的处
理需求。
项目2:2025.09-2025.10(实习)
精准智能化学全国重点实验室 java开发工程师
项目描述: 负责化学品信息管理系统的后端架构设计与核心功能开发,系统用于实验室化学品信息
管理、查询与标签打印,提升实验室日常管理效率。
技术栈:Spring Boot 2.7、Spring Data JPA、MySQL 8.0、Vue 3
核心工作内容:
基于 Spring Boot 设计并实现 RESTful 后端服务,完成化学品信息的增删改查(CRUD)功能。
支持通过 CAS 号 / 中文名 / 英文名 等多条件组合查询,并实现分页展示。
设计化学品核心数据模型,包含 CAS 号、名称、分子式、分子量、浓度、规格等 20+ 字段,
并完成数据库表结构设计。
使用 Spring Data JPA 完成数据持久化,处理实体映射、分页查询与条件检索。
集成 ZXing 库实现化学品二维码生成,并支持在浏览器端预览与打印。
实现多种规格的化学品标签打印功能(100×150mm、40×30mm),适配 ZDesigner
ZT231-300dpi 标签打印机。
支持化学品分子结构图的上传与存储,并配置静态资源访问路径。
2025.03-2025.08(实习)
合肥平行线机器人有限公司
软件开发工程师
通过C#和WPF框架完成JSON文件的数据导入导出,且导出为Excel表格形式汇总数据信息。
通过HandyControl前端框架对WPF框架中xaml的代码进行重构;使窗口界面更现代化和美
观。
负责对MVVM框架进行注释;主要是对ViewModel层进行代码注释;并结合Model层和View
层,对ViewMdoel层里的代码进行抽象和封装成各种类与接口的形式;并在
MainWindowViewModel.cs 类中将一些代码分离出来,形成模块化;这些工作能够很好的使代
码高内聚,低耦合,便于后期维护、测试和扩展。