熟练使用Python编程、深度学习框架Pytorch,熟悉Java编程;
熟悉经典机器学习模型(K-Means、决策树、隐马尔可夫模型等);
熟悉基本的神经网络结构(MLP、CNN、RNN、LSTM等);
熟悉常见的自然语言处理模型(Word2Vec、Transformer、GPT系列、BERT);
了解目前使用广泛的大模型微调技术(LoRA、Adapter、P-tuning等);
熟悉数组、链表、二叉树等常用的数据结构,熟悉回溯、贪心等算法。
结合对比学习的神经主题模型
1、研究概述
在以Cycle-GAN为基准的神经主题模型中,引入对比学习, 直接对生成器部分产生作用,使模型训练与模型评估对齐,获得一致性更好的“主题-单词”分布。
2、主要工作
采用Cycle-GAN作为基准模型,使对比学习能够直接作用于“主题-单词”分布的学习;
基于Cycle-GAN的结构特性,提出了一种针对主题分布的数据增强方法;
设计了自监督对比损失和判别对比损失,在获得更好“主题-单词”分布的同时,维持模型各部分平衡。
3、研究成果
论文被CCF-A类会议 ACL 2023录用(第一作者)
1、项目描述 为了提高对互联网海量源声中舆情的分析能力,本项目构建了一个社媒数据的热点挖掘与观点提取系统。系统的主要目标为: (1)对于海量互联网源声进行过滤,保留相关数据; (2)基于过滤结果,对源声进行事件抽取与编码,聚类形成业务热榜; (3)对于各业务热榜进行观点分
1、研究概述 在以Cycle-GAN为基准的神经主题模型中,引入对比学习, 直接对生成器部分产生作用,使模型训练与模型评估对齐,获得一致性更好的“主题-单词”分布。 2、主要工作 采用Cycle-GAN作为基准模型,使对比学习能够直接作用于“主题-单词”分布的学习; 基于