ID:314552

未来奇迹 身份已认证

高级NLP算法工程师

  • 公司信息:
  • 百度时代网络技术(北京)有限公司
  • 工作经验:
  • 8年
  • 兼职日薪:
  • 800元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 北京
  • 海淀

技术能力

自然语言处理基础知识: 熟悉语言学基础、语法、语义、句法分析等NLP的核心概念。

机器学习和深度学习: 掌握各种机器学习算法,尤其是在NLP领域常用的算法,如决策树、支持向量机、神经网络等。深度学习在NLP中应用广泛,需要了解循环神经网络(RNN)、卷积神经网络(CNN)、注意力机制、转换器(Transformer)等。

词向量和嵌入表示: 理解词嵌入模型(如Word2Vec、GloVe)以及如何将单词和句子转换为向量表示。

语言模型: 熟悉基于语言模型的任务,如文本生成、文本补全和机器翻译。了解不同类型的语言模型,如统计语言模型和神经语言模型。

序列标注和实体识别: 熟悉序列标注任务,如命名实体识别(NER)和词性标注,以及相关的模型,如条件随机场(CRF)。

句法和语义分析: 了解句法分析和语义分析任务,如依存句法分析和语义角色标注。

情感分析和情感分类: 理解情感分析任务以及如何用机器学习方法来进行情感分类。

问答系统: 熟悉问答系统的设计和开发,包括基于规则的和基于机器学习的方法。

机器翻译: 了解机器翻译任务和方法,包括基于规则的方法和基于神经网络的方法。

多模态处理: 了解如何处理文本以外的信息,如图像和语音,以实现更复杂的NLP任务。

预训练模型: 熟悉预训练语言模型,如BERT、GPT等,以及如何在不同任务中微调这些模型。

迁移学习: 了解如何利用在一个任务上学到的知识来改进其他相关任务的性能。

评估和度量: 理解如何评估NLP模型的性能,包括准确率、召回率、F1值等指标,以及BLEU、ROUGE等用于特定任务的度量。

数据预处理和清洗: 掌握如何处理和清洗大规模文本数据,包括分词、去除停用词、处理缺失值等。

大规模计算和分布式计算: 对于处理大规模文本数据和训练复杂模型,了解分布式计算和GPU加速等技术是必要的。

版本控制和协作工具: 掌握Git等版本控制工具,以及与团队合作开发的技能。

持续学习和跟踪研究: NLP领域不断发展,跟踪最新的研究和技术进展,持续学习是非常重要的

项目经验

项目经历
●基于大模型进行公文领域的落地应用
项目简介:基于大模型进行公文自动生成。
工作内容:(1)收集最新的公文数据集,对数据集进行清洗。(2)选用Baichuan-7B作为基础模型,基于基础模型,在大量的数据预处理的公文数据上持续预训练一个 FangcunGPT-base-7B。(3)在 FangcunGPT-base-7B 上,收集大量的 instruction pairs 数据,包括非公文的和公文的,然后进行微调得到 FangcunChat-7B.
●基于PEGASUS模型的文本摘要算法
项目简介:对公文的全文内容进行简要描述,形成能概括公文主旨的一小段文字内容。
工作内容:(1)基于textrank算法抽取公文中的重要句子:对文章内容进行分句和分词处理、基于分词结果构建有向无权图、计算句子权重、根据句子权重值对句子进行排序、抽取文章标题与重要句子拼接作为关键句。
(2)以mT5模型为基础架构和初始权重,通过类似PEGASUS的方式进行训练,模型定义为t5-pegasus。对标注的文本摘要数据集进行清洗获得3万多条有效数据,基于这些数据进行模型训练
●基于预训练模型的翻译模型算法
项目简介:利用大量的单语数据进行预训练,通过知识蒸馏算法从预训练模型中获取知识来提高翻译模型的效果。
工作内容:(1)基于fairseq深度学习框架,进行翻译模型的研发。(1)对平行语料进行预处理主要包含unicode_normalize;html_unescape;remove_other_symbols(2)设计知识蒸馏的算法主要包含word-level和sentence-level以及sequence-level三种类型的知识蒸馏方法。(3)利用大量的单语数据进行模型的预训练。(4)探索多语言模型XLM-R、MBART等多语言模型的训练和推理方法。
●猫耳虚拟偶像机器人系统
项目简介:设计一个知识渊博的虚设偶像男友,通过与该偶像男友进行聊天获得想了解的答案。
工作内容:(1)设计算法架构流程图,主要包含意图识别、QA问答、阅读理解、闲聊生成、实体识别等模块。(2)设计基于BERT预训练语言模型的意图识别、QA问答模块模型的研发和部署。

比赛经历
中文语法错误检测竞赛 2023年
比赛简介:中文语法错误检测任务是检测出中文文本中每一处语法错位的位置、类型。赘余(R)、缺失(M)、乱序(W)、误用(S)
工作内容:采用Seq2Seq方法和Seq2Edit方法,基于多模型融合方法以及后处理策略实现了中文语法纠错功能,获得第一名的成绩COM:49.12。
机器阅读理解技术竞赛 2018、2021年
比赛简介:对于给定问题q和篇章p,模型需要根据篇章内容,给出该问题的答案a。
工作内容:(1)对DuReader数据清洗。(2)使用基于BERT模型进行建模,获得第一名的成绩,ROUGH-L=63.50和BLEU4=59.80。
SMP中文人机对话技术评测 2017、2018年
简介:识别人机对话系统的多种意图,相应地触发人机对话系统中的多个领域(domain)
工作内容:在比赛中我们尝试经典的机器学习(LR,KNN,XGBoost)、深度学习(CNN, ICDCNN, BiLSTM, GRU)方法对文本进行建模,最终我们获得了全国一等奖的成绩。

个人技能
英语水平:CET-6
熟练Python、C#、Java等面向对象语言开发,MySQL、ES的应用,有良好的编程习惯
熟悉Linux操作系统下常用命令,熟悉shell、git、Visual Studio的使用
熟悉数据结构和算法设计、机器学习、数据挖掘等专业知识,了解TCP/IP通信协议
熟悉机器学习scikit-learn、深度学习库Tensorflow、pytorch、paddlepaddle的使用
熟悉CNN,GRU,Transformer等神经网络和BERT、Roberta、GPT等预训练模型的使用
熟悉大模型Qwen、Baichuan、ChatGLM基于full、freeze、lora等算法的训练和推理

案例展示

  • 虚拟偶像机器人系统

    虚拟偶像机器人系统

    虚拟偶像机器人系统 项目简介:设计一个知识渊博的虚设偶像男友,通过与该偶像男友进行聊天获得想了解的答案。 工作内容:(1)设计算法架构流程图,主要包含意图识别、QA问答、阅读理解、闲聊生成、实体识别等模块。(2)设计基于BERT预训练语言模型的意图识别、QA问答模块模型的研发

  • 手机商城导购机器人系统

    手机商城导购机器人系统

    ●手机商城导购机器人系统 项目简介:针对华为手机商城业务,设计一个手机导购机器人,该机器人系统主要包含文本分类、文本分类的人机协同、信息抽取模块、阅读理解、知识图谱、指代、容错、补全以及推荐模块等。 工作内容:(1)设计开发文本分类和人机协同任务的代码逻辑,包含价格的分类、手

  • 公文领域大模型研发

    公文领域大模型研发

    基于大模型进行公文和大纲自动生成。 工作内容:(1)收集最新的公文数据集,对数据集进行清洗。(2)选用Baichuan、Qwen、ChatGLM作为基础模型,基于基础模型,在大量的数据预处理的公文数据上训练领域大模型。(3)负责开发公文领域大模型自动评测功能。(4)负责开发公文

查看案例列表(含更多 0 个案例)

评价列表

    2天前    5星

技术挺好 ,服务也不错,期待下次合作

猿急送用户    2024-01-23 17:43    5星

【该评论为5星(满分)好评,评论人选择不公开展示】

信用行为

  • 接单
    4
  • 评价
    2
  • 收藏
    3
  • 五星率
    100%
  • 退款
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服