Python:
机器学习,数据挖掘,计算机视觉
大模型,做过RAG、结合强化学习
编写过Unix脚本、爬虫、数值模拟、编译器、密码学、文档生成等领域的程序
C、C++:
熟悉基本原理,有实际Unix系统编程和socket编程经验
有Linux内核修改经验,移植过驱动和BSP
Linux:
熟悉指令与软件编译
其它:
了解Java、Lisp、Win32编程
计算机专业硕士
雅思7.5,英文可作为工作语言
基于大语言模型的任务分解系统复现
• 任务分解为多步决策过程,蒙特卡洛树搜索(MCTS)可提升大模型多步决策能力;从头实现MCTS训练框架,求解性能与纯粹使用GPT-4(同期最先进大模型)相当
• 由问题生成思维链数据,经解析与清洗后对DeepSeek-math-7b-base模型进行指令微调
• 使用 MCTS,筛选出6万条完整解法,基于DeepSpeed编写训练框架,提升估值能力
• 有望增强团队内大模型服务的任务分解能力,服务国内及海外数亿用户
基于协同过滤的雷同检测算法
• 使用图嵌入技术与协同过滤思想,对选手提交的代码进行数据挖掘
• 并融合代码浅层次特征,实现在各种代码提交上的自适应特性
• 与基线方法相比,鲁棒性与准确性均有显著提高,可发现疑似规避常规方法的雷同
Word文档生成器,按照模板生成Word文档。 模板含指令序列,可以将指令代表的引用、公式、章节编号等自动转化为具体内容。 只需要Python,无第三方依赖。通过逆向Office XML格式,可以直接生成DOCX格式文档。
某操作系统组件向Linux的移植。由C语言写成,需要处理不同操作系统中内核接口(系统调用、ioctl)等差异,并通读双方手册,深刻理解语义差异。最终可以实现原始组件源代码不改变,可直接在Linux上编译运行。 开发正在进行中,图片为简要介绍。