一、简介
我们已完成某非模式植物(基因组约300M)的高质量参考基因组测序与注释。现需开展全基因组范围的CRISPR/Cas9 gRNA设计与脱靶效应分析,以获得高质量的候选gRNA列表,支撑后续的基因编辑实验。
二、核心工作内容
数据预处理与质量控制:对提供的基因组(FASTA)和注释文件(GFF/GTF)进行格式校验和索引构建,确保输入数据符合分析要求。
全基因组sgRNA靶点扫描:基于三种非模式植物的参考基因组,使用成熟的算法(如CRISPRko、CRISPRscan或CFD score等)扫描全部可能的sgRNA靶点(20nt + PAM,PAM类型为NGG,使用SpCas9),建立完整的候选靶点文库。
靶点评分与筛选:
On-target评分:评估每个候选gRNA的编辑效率潜力;
Off-target预测:在全基因组范围内预测潜在的脱靶位点(允许≤4个错配),计算综合脱靶风险评分;
基因区域注释:标注每个gRNA所在的基因组区域(CDS、启动子、内含子、UTR等),优先筛选外显子区域的靶点。
结果交付与报告:提供结构化的数据报告,包含以下内容:
每个基因的Top 3-5候选gRNA列表(含序列、位置、GC含量、各项评分);
全基因组脱靶位点汇总;
按基因功能类别(如转录因子、代谢酶等)分类的gRNA列表;
数据分析方法学报告(含软件版本、参数设置、评分算法说明)。
三、对开发者的要求
专业背景:拥有生物信息学、计算生物学或相关领域硕士及以上学历,熟悉植物基因组学。
技术能力:
熟练掌握Python/R/Perl及Linux开发环境;
具有基因组数据处理经验(FASTA、GFF、BAM等格式);
熟悉CRISPR/Cas9 gRNA设计的主流工具与算法(如CRISPR-P、CRISPRko、CHOPCHOP、CRISPOR等)及对应的本地化部署方法;
能够独立进行全基因组规模的脱靶预测分析。
项目经验:
有非模式生物或复杂基因组(高重复序列、多倍体等)的gRNA设计经验者优先;
需提供1-2个过往类似项目的案例简介。
合作模式:
项目周期:约4-8周(三种植物并行或顺序完成);
可接受项目制外包,按阶段付款;
需签署保密协议(NDA),项目数据不得外泄;
优先考虑长三角地区团队(便于线下沟通),也欢迎远程合作。
四、预期交付物
植物全基因组的候选gRNA数据集(Excel/CSV格式,含完整的序列、位置、评分信息);
详细的数据分析技术报告(PDF,含方法、软件参数、结果统计);
所有分析脚本及配置文件(便于结果复核及后续自主扩展)。