本项目针对动态视频中颜色随时间变化产生漂移、闪烁以及语义不一致的问题,设计并实现了一种文本引导的视频颜色编辑系统。
在方法上,首先构建语义感知的关键帧生成机制,基于文本引导的图像颜色编辑模型生成具有语义一致性的参考关键帧,为整个视频序列提供稳定的颜色基础。其次,设计参考引导的跨帧颜色传播模块,采用双分支结构分别建模颜色信息与视频结构信息,在时间维度上实现颜色的稳定传播,从而避免逐帧独立编辑带来的不一致问题。
在此基础上,引入颜色感知的参考对齐机制,将视频帧特征与关键帧特征映射至统一语义空间,并施加显式对齐约束,有效抑制颜色漂移与闪烁现象,提升视频颜色编辑的时间一致性与视觉连贯性。
项目基于扩散模型框架实现,使用 PyTorch 完成模型训练与推理流程。实验结果表明,该方法在视频序列中能够实现长时间范围内稳定且语义一致的颜色编辑效果,在时间一致性与视觉质量方面优于现有方法。
本人在项目中负责整体方法设计、模型实现与实验验证工作。