1、熟悉目标检测、语义分割、AIGC、图像分类、对比学习等常见CV领域的知识、模型及算法
2、熟悉意图识别、提示语工程、LLM大模型微调、RAG、智能客服Agent等常见NLP领域的知识、模型及算法
3、熟悉图论、统计、高等代数、数学分析、数值计算等数学领域的相关知识
4、熟悉cv2、sklearn、scipy、pytorch、lightning、tensorflow等常见机器学习库
5、熟悉Triton、TensorRT、DeepSpeed、Conda、Docker等常见模型部署、模型加速或环境打包工具
6、熟悉flask、html、gradio等前后端开发框架,具有良好的编程习惯
7、熟悉Dify、FastGPT等常见低代码LLM开发平台
8、了解lmdb、SQLite3,、BDB等数据库的基本使用
9、了解request、urllib等常见爬虫库的基本使用
一、GPT大模型实现图片生成
自主构建字体领域图片数据集,训练了一个由image tokenizer、GPT2以及GAN构成的多阶段AIGC大模型。项目亮点
包括:训练数据的快速清洗、多阶段生成式模型的具体设计、大模型的低成本训练及部署方法、后续演进的超大字符集
矢量字生成。
●训练数据集的清洗与整合:
通过对比学习、K-Means与Birch等聚类算法,实现了训练数据在特征空间上的清洗及聚类,快速过滤了错误数据,
同时解决了训练集数据分布不均匀等问题。
●大模型的多阶段训练:
阶段一:image tokenizer训练。训练离散自编码模型VQ-VAE,将图片转换为若干离散tokens,为下一阶段的gpt
训练奠定基础。训练技巧包括LPIPS、对抗网络训练、梯度截断、学习率的warm up、随机mask进行数据增强等。
阶段二:GPT训练。在第一阶段image tokenizer构建的离散隐空间上训练GPT模型,实现字体图片的生成。训练
技巧包括lightning框架下的分布式训练,fp16混合精度训练,梯度累积,deepspeed框架下的zero-1训练,AdamW的
weight decay等。
阶段三:训练GAN,改善大模型生成内容多样性弱、模型幻觉等问题。训练技巧包括标签反转、soft hinge loss、
自适应学习率,自主设计的skeleton loss及label loss等。
●模型量化与部署:
针对不同的硬件条件,采用了基于TensorRT的模型PTQ量化,以及基于Triton的模型编译及部署,利用docker及
conda实现环境隔离,最终推理速度提升2到3倍。
●大模型微调:
通过少量数据,微调GPT大模型,将可生成字符集范围由两万拓展到九万。并基于DiffVG、Laplacian算子以及
梯度下降法,实现了由像素字体图片引导的矢量字体生成算法。
二、基于SDXL大模型的AI漫画工作流
利用Kohya_ss、ComfyUI等开源SD大模型训练框架,实现了prompt+草稿图+色块的多重引导生图的完整工作流。
项目亮点包括:角色LoRA及风格LoRA的从0到1训练、基于LLM大模型的prompt辅助标注、controlnet+lora等多种扩展
模块的组合应用。
●LoRA训练:
成功探索出了自定义角色及风格LoRA训练的完整流程,包括训练图片预处理、LLM大模型辅助prompt标注、基于
kohya_ss的LoRA训练等。
●LLM大模型辅助标注prompt:
通过chatgpt、豆包等常见的LLM大模型的few-shot的prompt engineering,实现了待标注图片->原始图片描述->
统一规范的prompt提示的标准化LoRA训练数据标注流程。
●多扩展模块的组合应用:
通过ComfyUI框架,构建了如controlnet、lora、dreambooth、局部inapint等多种扩展模块的组合应用工作流,
实现了prompt、色块、草稿图等多种提示方式的组合生图。
三、多模态以图搜图系统
实现了一个手机主题市场的以图搜图系统,可根据输入图片,在数据库中检索并返回相似图片。项目亮点包括:训
练数据集的多途径构建、图像的多模态特征提取算法、特征数据库检索的提速技巧等。
●自主构建训练数据集:
利用requests,urllib编写爬虫脚本,爬取图片素材。利用flask及gradio编写实例分割标注工具,同时串联部
署ViTMatte及Segment Anything分割大模型辅助人工标注。
●提取图像多模态特征向量:
风格特征与版式特征:借鉴度量学习思想,利用Circle Loss和Cross Entropy Loss对Resnet进行混合训练,并
采用分patch技巧提取大尺寸图像特征向量。
语义特征:构建主题市场常见形象的实例分割数据集,利用Detectron2框架训练Mask R-CNN,并利用CLIP模型提
取分割实例的语义特征向量。同时探索了基于LVAT模型的指代图像分割(RIS)方案,即基于prompt提示的实例分割。 配色特征:采用Lab距离作为度量函数,设计了基于聚类思想的图片主色调提取算法,以及基于二分图最大权匹
配问题的色调相似度比较算法。
●构建并维护特征向量数据库:
利用lmdb构建特征向量数据库。通过分区策略、键排序优化等策略,实现目标特征向量矩阵的快速定位、快速计
算。
●搭建web服务:
利用flask框架编写webservice,并利用Docker生成镜像,在Linux系统上部署服务。
四、智能客服Agent工作流
实现了烟
智能客服Agent工作流 实现了烟草行业的智能客服Agent。项目亮点包括:基于动态Prompt的意图识别模块搭建、从0到1的行业RAG知识库构建、基于MCP协议的复杂工作流搭建、基于FastGPT框架的Agent本地化部署。 ●基于动态Prompt的意图识别模块搭建: 通
GPT大模型实现图片生成 自主构建字体领域图片数据集,训练了一个由image tokenizer、GPT2以及GAN构成的多阶段AIGC大模型。项目亮点 包括:训练数据的快速清洗、多阶段生成式模型的具体设计、大模型的低成本训练及部署方法、后续演进的超大字符集 矢量字生成。