ID:410160

Energy

资深算法工程师

  • 公司信息:
  • 智慧芽(中国)科技有限公司
  • 工作经验:
  • 15年
  • 兼职日薪:
  • 1000元/8小时
  • 兼职时间:
  • 可工作日远程
  • 可工作日驻场(离职原因)
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 上海
  • 浦东

技术能力

履历背景:长期从事自然语言处理(LLM/RLHF)、sympy符号计算、lean4形式化证明的研究,掌握NLP实用技术并利用lean4语言对arXiv论文的观点进行求证,工程实践经验丰富,有完整NLP项目实施与交付经验,获交互式机器证明的软件著作权。

工程实践:精通C/C++、Python3、Lean4,熟悉Java8、Php8/mysql8、JavaScript/vue3等多门编程语言,能够根据不同业务场景需求与开发环境要求,完成技术选型并出具定制化解决方案,高效、灵活运用不同编程语言解决不同复杂问题,提效赋能。

创新应用:洞悉行业发展趋势,研习领域前沿技术,掌握数学、人工智能、计算机科学等交叉学科知识,持续深耕大语言模型、强化学习算法研究并探索跨领域融合应用的新路径,可助力产品创新、技术变革与产业升级。

综合素质:沉稳负责,严谨细致,逻辑思维清晰,有探索精神、前瞻性视野及较强自驱力,具备主动学习与快速适应能力、问题独立分析与解决能力。

项目经验

工作概述:主导自然语言处理研发(C++/Java/Python),承担专利技术检索数据库等有关文本处理与聚类、段落切割与句法分析、大模型训练以及算法研究与优化工作,赋能公司技术变革与信息服务产品性能提升。
文本聚类(Java算法):使用Kmeans++算法,通过初始化聚类中心优化收敛速度和结果质量,通过文本数据预处理将其转换为适合聚类分析的数值型特征,并利用形式化工具证明理论收敛性,确保算法可靠性和稳定性。
段落切割(Pytorch算法):结合CNN和CRF实体识别,构建段落切割模型,通过长文本清洗、分词分组、词性标注等预处理进行模型训练,并优化模型结构设计,以适应长段落与复杂内容的文本数据,提高段落切割效率与准确性。
表格文本处理(Pytorch算法):使用transformer结合广义旋转位置编码(Rotary-Embedding的推广)处理二维方向的结构文本信息,并对广义旋转位置编码进行了形式化论证,配合OCR图像算法工程联调,实现多模态部署。
化学取代R基表达式提取(Python算法):使用依存关系算法提取化学取代基信息,配合OCSR图像算法工程联调,实现多模态部署。
句法分析(Pytorch算法):应用Biaffine-Neutral-Parser模型,并优化调整参数与特征工程方法,通过文本语法结构解析、语法关系提取、情感分析等,支撑对不同领域文本内容的语义理解和价值数据信息挖掘,满足不同场景应用需求。
冗余检测(C++算法):研发高效的rolling-hash算法代下游业务算法工程进行数据清洗、筛选。
算法研发(Megatron):深入研究DPO、PPO、GRPO、GSPO等强化学习算法,独立完成keras-rlhf大语言模型训练框架研发,集成PyTorch-DDP、DeepSpeed、Megatron等高性能计算工具,确保架构支持不同结构(llama/mistral/mixtral/gpt-oss等)的大模型,并向阿里巴巴开源框架Pai-Megatron贡献DeepSeek/Qwen-MoE分布式训练[代码](https://github.com/alibaba/Pai-Megatron-Patch/issues/397),参与强化预训练(reinforcement pretraining)落地项目的研发

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服