猿急送>

长沙其它兼职程序员

ID：402556

加菲猫

算法工程师

公司信息：
中国烟草

工作经验：
3年

兼职日薪：
800元/8小时

兼职时间：
下班后
周六
周日

所在区域：
长沙
全区

技术能力

1、熟悉目标检测、语义分割、AIGC、图像分类、对比学习等常见CV领域的知识、模型及算法
2、熟悉意图识别、提示语工程、LLM大模型微调、RAG、智能客服Agent等常见NLP领域的知识、模型及算法
3、熟悉图论、统计、高等代数、数学分析、数值计算等数学领域的相关知识
4、熟悉cv2、sklearn、scipy、pytorch、lightning、tensorflow等常见机器学习库
5、熟悉Triton、TensorRT、DeepSpeed、Conda、Docker等常见模型部署、模型加速或环境打包工具
6、熟悉flask、html、gradio等前后端开发框架，具有良好的编程习惯
7、熟悉Dify、FastGPT等常见低代码LLM开发平台
8、了解lmdb、SQLite3,、BDB等数据库的基本使用
9、了解request、urllib等常见爬虫库的基本使用

项目经验

一、GPT大模型实现图片生成
自主构建字体领域图片数据集，训练了一个由image tokenizer、GPT2以及GAN构成的多阶段AIGC大模型。项目亮点
包括：训练数据的快速清洗、多阶段生成式模型的具体设计、大模型的低成本训练及部署方法、后续演进的超大字符集
矢量字生成。
●训练数据集的清洗与整合：
通过对比学习、K-Means与Birch等聚类算法，实现了训练数据在特征空间上的清洗及聚类，快速过滤了错误数据，
同时解决了训练集数据分布不均匀等问题。
●大模型的多阶段训练：
阶段一：image tokenizer训练。训练离散自编码模型VQ-VAE，将图片转换为若干离散tokens，为下一阶段的gpt
训练奠定基础。训练技巧包括LPIPS、对抗网络训练、梯度截断、学习率的warm up、随机mask进行数据增强等。
阶段二：GPT训练。在第一阶段image tokenizer构建的离散隐空间上训练GPT模型，实现字体图片的生成。训练
技巧包括lightning框架下的分布式训练，fp16混合精度训练，梯度累积，deepspeed框架下的zero-1训练，AdamW的
weight decay等。
阶段三：训练GAN，改善大模型生成内容多样性弱、模型幻觉等问题。训练技巧包括标签反转、soft hinge loss、
自适应学习率，自主设计的skeleton loss及label loss等。
●模型量化与部署：
针对不同的硬件条件，采用了基于TensorRT的模型PTQ量化，以及基于Triton的模型编译及部署，利用docker及
conda实现环境隔离，最终推理速度提升2到3倍。
●大模型微调：
通过少量数据，微调GPT大模型，将可生成字符集范围由两万拓展到九万。并基于DiffVG、Laplacian算子以及
梯度下降法，实现了由像素字体图片引导的矢量字体生成算法。

二、基于SDXL大模型的AI漫画工作流
利用Kohya_ss、ComfyUI等开源SD大模型训练框架，实现了prompt+草稿图+色块的多重引导生图的完整工作流。
项目亮点包括：角色LoRA及风格LoRA的从0到1训练、基于LLM大模型的prompt辅助标注、controlnet+lora等多种扩展
模块的组合应用。
●LoRA训练：
成功探索出了自定义角色及风格LoRA训练的完整流程，包括训练图片预处理、LLM大模型辅助prompt标注、基于
kohya_ss的LoRA训练等。
●LLM大模型辅助标注prompt：
通过chatgpt、豆包等常见的LLM大模型的few-shot的prompt engineering，实现了待标注图片->原始图片描述->
统一规范的prompt提示的标准化LoRA训练数据标注流程。
●多扩展模块的组合应用：
通过ComfyUI框架，构建了如controlnet、lora、dreambooth、局部inapint等多种扩展模块的组合应用工作流，
实现了prompt、色块、草稿图等多种提示方式的组合生图。

三、多模态以图搜图系统
实现了一个手机主题市场的以图搜图系统，可根据输入图片，在数据库中检索并返回相似图片。项目亮点包括：训
练数据集的多途径构建、图像的多模态特征提取算法、特征数据库检索的提速技巧等。
●自主构建训练数据集：
利用requests，urllib编写爬虫脚本，爬取图片素材。利用flask及gradio编写实例分割标注工具，同时串联部
署ViTMatte及Segment Anything分割大模型辅助人工标注。
●提取图像多模态特征向量：
风格特征与版式特征：借鉴度量学习思想，利用Circle Loss和Cross Entropy Loss对Resnet进行混合训练，并
采用分patch技巧提取大尺寸图像特征向量。
语义特征：构建主题市场常见形象的实例分割数据集，利用Detectron2框架训练Mask R-CNN，并利用CLIP模型提
取分割实例的语义特征向量。同时探索了基于LVAT模型的指代图像分割（RIS）方案，即基于prompt提示的实例分割。配色特征：采用Lab距离作为度量函数，设计了基于聚类思想的图片主色调提取算法，以及基于二分图最大权匹
配问题的色调相似度比较算法。
●构建并维护特征向量数据库：
利用lmdb构建特征向量数据库。通过分区策略、键排序优化等策略，实现目标特征向量矩阵的快速定位、快速计
算。
●搭建web服务：
利用flask框架编写webservice，并利用Docker生成镜像，在Linux系统上部署服务。

四、智能客服Agent工作流
实现了烟

案例展示

智能客服Agent工作流

智能客服Agent工作流实现了烟草行业的智能客服Agent。项目亮点包括：基于动态Prompt的意图识别模块搭建、从0到1的行业RAG知识库构建、基于MCP协议的复杂工作流搭建、基于FastGPT框架的Agent本地化部署。 ●基于动态Prompt的意图识别模块搭建：通
GPT大模型实现图片生成

GPT大模型实现图片生成自主构建字体领域图片数据集，训练了一个由image tokenizer、GPT2以及GAN构成的多阶段AIGC大模型。项目亮点包括：训练数据的快速清洗、多阶段生成式模型的具体设计、大模型的低成本训练及部署方法、后续演进的超大字符集矢量字生成。