外语水平:大学英语六级,较好的英文文献阅读和写作能力
熟练掌握C++编程语言,熟悉常用的数据结构与算法,熟悉强化学习、NLP、文生图领域的常见算法和最新进展
具有较多的CUDA程序开发和性能调优经验
熟悉NVIDIA GPU硬件架构、PTX指令集,熟悉AMD GPU的指令集,熟悉LLVM AMDGPU后端的相关Pass实现
熟悉计算机体系结构所涉及的基本概念,熟悉传统编译器的基本流程、概念和主要算法
数学基础扎实,学习能力较强,有好奇心和求知欲,有较好的沟通能力
自研推理芯片工具链的重构,主要是网络层算子到自定义中间语言的转化、中间语言到底层硬件指令的Code Gen以及部分图级别优化pass的实现;基于LLVM框架的自研训练芯片编译器的开发及验证,主要是访存优化、Tensor Core相关API的支持等;申请相关专利4篇
1. 常见以及部分长尾算子在自研推理芯片上的中间IR生成、Code Gen,片上SRAM空间受限下神经网络算子的自动切分
2. 在LLVM框架中添加自研S2训练芯片的后端,包括寄存器定义、指令描述、指令选择、函数调用、编译优化等
3. 在Clang中添加自研S2训练芯片的高级语言扩展,主要是Intrinsic函数、内嵌汇编、device数学函数库的支持
4. 基于软件仿真器对编译器进行算子级测试和验证,并及时反馈仿真器的Bug、更新和维护编译器的测试用例