掌握图像处理算法:滤波器、矫正、缩放旋转、梯度处理、Canny边缘检测、轮廓检测等;
掌握主要机器学习算法:KNN、K-means、决策树、随机森林、贝叶斯、逻辑回归等;
掌握常用激活函数和损失函数:ReLU、Tanh、Softmax、Sigmoid、CrossEntropyLoss等;
掌握卷积神经网络架构:LeNet-5、AlexNet、GoogleNet、ResNet、MobileNetV1/V2/V3等;
掌握循环神经网络架构:RNN、LSTM、GRU;
掌握经典NLP架构:Transformer、BERT、GPT-1/2/3等模型;
熟练使用Python的Matplotlib、NumPy、Pandas、PyTorch、OpenCV等库;
熟练使用Java的Spring Boot、MyBatis等主流框架,熟悉Sprint Cloud微服务;
熟练使用LoRA对PEFT模型微调、基于RAG构建知识库、基于LangGraph的多Agent流程搭建等;
熟练使用语义分割模型:FCN(全卷积网络)、U-Net、SegNet、DeepLab系列等;
熟练使用Linux操作系统部署、微调、量化模型;
熟悉目标检测算法:YOLO算法、SSD算法、R-CNN系列等;
熟悉LLM相关框架:Transformers、Ollama、Xinference、Dify、Llama.cpp等;
熟悉MySQL、Redis等数据库,熟悉 RabbitMQ等消息中间件;
熟悉Git,Docker相关操作;
了解分布式与混合精度训练;
2024年02月~2024年06月 橙留香・橘卫士 项目负责人
项目架构:YOLOv8、ResNet、OpenCV、SwinIR、Flask、SQLite3、PyQt,Labelme等
项目描述:本项目是一款基于YOLOv8的柑橘病虫害智能检测系统,其核心目标是通过人工智能技术让农户即使处理柑橘的病
虫害问题,并辅助农户进行精准施药。系统使用无人机航拍与地面摄像头,采集图像,通过去噪,增强等预处理放入到YOLO
中检测到柑橘,将检测到的柑橘进行进一步加强处理放入CNN中提取特征以识别是否有病虫害和病虫害类型(如黑星病、黄斑
病)等。
项目负责:
1.负责YOLOv8 和ResNet 的训练,优化
2.用 torchvision实现数据增强(旋转、缩放等)以提升模型的泛化能力
3.用 SwinIR 超分辨率技术放大远距离拍摄的柑橘
4.使用PyQt搭建界面,SQLite3 存储病虫害检查到的时间与类型
5.使用Flask部署模型,提供访问接口
项目难点:
1.早期病虫害斑点与自然斑点难以区分
2.不同天气下得到的图片不同,如多雾,下雨,强光会影响识别结果
解决方案:
1.构建生成对抗网络,判别器输入早期病变斑点,生成器生成介于自然斑点和早期病变之间的混淆样本,输入两者视觉特征高
度重合的图像(如早期病变图像),进行对抗训练,判别器需区分生成器合成的混淆样本,迫使模型学习细微差异。
2.使用3D开发软件Blender生成不同条件下的场景,并在图像中叠加动态模糊、噪声等干扰,放入模型训练以增强模型泛化能
力,也可以将不同天气下的图片进行数据增强式的裁剪,将整张图片分为多个宫格且加入少量高斯模糊,在用YOLO去检测这
些宫格,根据置信度阈值来判断是否有病虫害。
2023年09月~2024年01月 双网鉴牌 项目开发人
项目架构:FCN-ResNet50,CNN,Opencv,Labelme,PyQt,Flask等
项目描述:本项目使用FCN-ResNet50和CNN实现对车牌的检测,具体流程:1.使用Labelme对车牌进行标注,加载含有预训练权
重的FCN模型,进行训练。将检测到的结果使用opencv的轮廓检测算法得到车牌的轮廓坐标并借助工具画出车牌的最小外界矩
阵,经过透视变换得到车牌的图像。2.使用代码生成车牌号识别的数据集,并训练CNN模型,将识别出的车牌放入到CNN中识
别出车牌号。
项目负责:
1.CNN架构的构建
2.CNN数据集生成代码的编写和FCN数据集的标注和收集
3.编写轮廓检测和透视变换的代码
4.组装两个模型使其能完整的实现车牌检测功能
5.使用Flask进行部署,并编写PyQt界面实现模型接口的调用
项目难点:在真实场景下车牌可能会有光照,污损等格外影响因素
解决方案:对生成的图片添加模拟光照和污渍,并使用生成图片和真实图片混合训练
2023年09月~2024年01月 Agent 漫话工场 项目开发人
项目架构:Langgraph、Xinference、Lama.cpp、Qwen3-8b、Stable Diffusion3.5,Agent等
项目描述 :本项目旨在构建一个基于多智能体协作的自动化系统,实现从小说文本到漫画内容的智能转换。项目通过设计提示
词,引导对话机器人流式地经过知识库检索、网页搜索agent、分镜agent、漫画提示词和解说词agent、审核agent、图像生成
agent、总结整理agent等环节,最终将内容以Markdown的形式保存。
项目负责:
1.使用Xinference部署Qwen3-0.6b和Stable Diffusion3.5,并编写远程调用测试代码
2.编写每个agent提示词并将各个agent组装以完成需求
3.添加搜索工具和RAG本地知识库
4.使用Llama.cpp量化Stable Diffusion3.5预训练模型使其能在服务器上运行
项目难点:用户对输出结果的某一个分镜不满意该怎么在最小化资源浪费的情况下进行修改。
解决方案:创建一个新的工作流专门用来对分镜片段进行修改,加入对话流,让对话agent根据用户问题和历史记录来确定是调
用主工作流还是修改工作流。
2023年03月~2024年07月 诗库通 项目开发人
项目架构:Tansformer、BGE、Flast、PyQt等
项目描述:本项目是使用自己手写的Transformer架构结合魔搭上的数据集得到的模型。具体流程:参照论文和论坛构建
Transformer架构,从魔搭下载中文诗词数据并使用BGE进行词嵌入编码构建训练数据集后放入自己写的Transformer网络中训
练,并对模型进行调试,最终达到
使用ai解决服装行业从企划报告到服装设计方案全链路,包括服装设计,摄影设计,商品企划,爆款推荐,使用langraph,数据检索,知识库检索,提示词工程,机器学习
使用·ai技术解决摄影行业,从搭配到场景图底图以及视频,换装的各个链路的解决方案,技术栈yolo,langgraph,多模态,lora