本项目针对文本引导图像颜色编辑中目标区域定位困难与颜色分配不准确的问题,设计并实现了一套基于跨模态语义对齐的图像颜色编辑系统。
在方法上,首先提出空间语义对齐机制,通过跨模态文本增强模块融合图像中的目标尺寸信息,提升文本语义表达能力;同时结合多尺度内容定位模块,对不同分辨率特征进行联合建模,实现复杂场景中小目标及边界区域的精准定位,有效减少颜色溢出问题。
在此基础上,进一步提出属性语义对齐方法,通过颜色先验预测模块建模颜色属性与目标对象之间的关系,并引入颜色-对象对齐损失,对交叉注意力进行约束,使颜色词与目标区域建立显式对应关系,从而显著提升颜色分配的准确性与语义一致性。
项目基于扩散模型(Stable Diffusion)实现,使用 PyTorch 完成训练与推理流程。实验结果表明,该方法在 FID 与 CLIP 指标上均显著优于现有方法,能够实现高质量、可控且语义一致的图像颜色编辑。
本人在项目中负责整体方法设计、模型实现与实验验证工作。