熟练使用python进行编程,能够利用深度学习技术解决图像处理和自然语言处理问题,能够在linux系统中进行深度神经网络模型的训练和测试。博士期间我的主要研究课题为基于鲁棒协同学习的边缘检测,目标是在保证模型具有高效率的情况下从复杂场景中提取具有感知意义的边缘。我们期望解决三个主要问题:1)如何在不依赖于低效的预训练模型的情况下,如VGG16、ResNet50,从图像中提取足够鲁棒的特征,以此同时保证低延迟和高精度;2)如何使模型在低光照、模糊图像以及噪声图像等低质量数据上具有和正常图像相媲美的效果;3)如何将边缘所属物体的类别信息考虑在内,使得模型能够从自然图像中只提取符合特定语义的边缘。到目前为止,关于边缘检测的相关成果已发表于ACM MM 2023,其扩展的期刊版本也已经投稿至TPAMI。
1,在博一期间以实习生的身份被导师派往腾讯(深圳总部)实习,来完成校企合作项目。实习部门为腾讯的TEG数据平台部,实习内容为设计通用的人工智能大模型,参与研究腾讯混元大模型(https://hunyuan.tencent.com/),利用腾讯内部的大规模广告数据进行训练,并成功在实际场景中落地,为腾讯的广告个性化推荐、视频智能创作等业务做出贡献。实习证明见附录。我在实习期间的任务是设计视频文本检索的大模型,在腾讯的广告视频和文本上进行训练,使得文本和视频可以互相检索。这个任务在整个实习期间是我独立负责所有环节的,包括算法设计,代码实现等。在这个过程中,我设计了一种基于CLIP和对比学习的视频文件检索模型,在腾讯给内部的广告数据上取得了超过90\%的检索准确度。为了能够快速在腾讯内部千万级的大规模数据上训练,我编写了分布式训练的代码,使得模型能够在多台机器的多张GPU上进行加速训练。最后我设计的模型在腾讯内部上线并创造实际效益。除此之外,在实习期间,我也会参与诸如大模型刷榜、广告素材创作,混元AI大模型研发等其他任务。
2, 该项目为实验室与中汽研(天津)汽车工程研究院合作的项目。需要从给定的视频中将车窗上的雾和霜去除掉,以此增强清晰度。设计了一种对比方法,将有霜雾的图像与清晰的图像进行对比,并对霜雾图像和清晰图像的差异进行阈值处理和聚类分析。该项目已成功结项。{\color{pink}这个项目我负责:(1)设计总体解决思路,并向实验室其他参与这个项目的同学分配任务,统筹协调,(2)编写代码来实现所设计的算法,(3)编写软件界面供用户交互式的使用我们开发的程序,(4)制作到现场去给甲方演示demo}
博士期间我的主要研究课题为基于鲁棒协同学习的边缘检测,目标是在保证模型具有高效率的情况下从复杂场景中提取具有感知意义的边缘。我们期望解决三个主要问题:1)如何在不依赖于低效的预训练模型的情况下,如VGG16、ResNet50,从图像中提取足够鲁棒的特征,以此同时保证低延迟和高精度
博士期间我的主要研究课题为基于鲁棒协同学习的边缘检测,目标是在保证模型具有高效率的情况下从复杂场景中提取具有感知意义的边缘。我们期望解决三个主要问题:1)如何在不依赖于低效的预训练模型的情况下,如VGG16、ResNet50,从图像中提取足够鲁棒的特征,以此同时保证低延迟和高精度
在硕士期间我的主要研究方向是图像风格迁移。风格迁移旨在保持图像内容不变的情况下改变图像的风格,例如将一个拍摄的照片变成油画。考虑到在实际应用场景中,用户可能希望将自己的照片转换成多种风格,并从中选择自己最喜欢的风格。然而,之前的风格迁移方法只能对于单张图像得到一个结果,无法满足用