数学功底: 熟练掌握高等数学、线性代数、概率论与数理统计,能够深入理解机器学习算法的数学原理及推导过程。
经典机器学习: 理解监督学习(线性回归、SVM、决策树、集成学习如XGBoost/LightGBM)与无监督学习(聚类、降维)算法,具备根据业务场景选择合适的模型并进行调优的能力。
编程语言: 会 Python 编程,能使用 NumPy、Pandas 进行数据处理与清洗,掌握 Matplotlib、Seaborn 进行数据可视化分析。
深度学习框架: 能使用 PyTorch 进行模型搭建、训练与推理。系统学习并掌握深度学习基础理论(CNN、RNN、Transformer架构),熟悉反向传播、梯度消失/爆炸等底层机制。
具备良好的英文文献阅读能力,能快速跟进前沿技术(ArXiv论文阅读),善于复现论文模型。
逻辑思维严谨,善于通过数据分析定位问题,具备独立解决技术难题的研究生思维。
基于多模态深度学习的药物-靶标亲和力预测模型研究(毕业论文/实验室课题)
项目背景: 为了解决传统药物筛选实验周期长、成本高的问题,探索利用人工智能方法从海量化合物库中快速筛选潜在药物分子。独立设计并实现了一个高精度的药物-靶标亲和力预测模型。
核心工作与技术创新:
数据处理与表征: 从BindingDB/PDBbind数据库收集大规模药物-靶标相互作用数据。针对药物分子,利用图神经网络(GNN) 直接学习其拓扑结构特征;针对靶标蛋白质,采用预训练的蛋白质语言模型提取其序列深度特征,解决了传统手工特征表达能力不足的问题。
模型架构设计: 设计了特定的注意力融合机制,使模型能够自适应地学习药物分子中的关键化学基团与靶标蛋白质结合口袋区域之间的相互作用模式,而不仅仅是简单的特征拼接。
实验与优化: 构建了端到端的回归预测模型。在公开基准数据集(如Davis, KIBA)上进行评估,模型的一致性指数(CI)达到 0.91左右。
项目成果:
形成了一个成熟的、可直接用于预测的模型权重文件及代码库。
已完成相关学术论文的撰写(Manuscript finished),目前正处于审稿/准备投稿阶段。
该模型具备良好的泛化能力,可用于后续的药物筛选或药物重定位研究。