中国棉花育种团队成功解析了近3亿条DNA甲基化数据,发现了43个可能参与纤维发育的eQTM基因。该研究构建了涵盖207个品种的棉花全基因组DNA甲基化图谱,鉴定了2.87亿个单甲基化多态性(SMP)位点。湖畔实验室(阿里巴巴达摩院)利用AI和并行计算等技术开发了一套新型算法,显著提升了海量遗传数据的分析处理效率。
通过综合运用遗传学、生物大数据和AI技术,研究人员构建了迄今为止最大规模的棉花全基因组DNA甲基化图谱,涵盖2.87亿个SMP位点,规模为目前所有作物之最。该研究发现43个可能参与纤维发育的eQTM基因,为棉花育种提供了重要的候选基因列表。相关成果已在《细胞研究》(Cell Research)期刊上发表。
棉花产量和纤维品质受DNA甲基化的影响。在AI和大数据的支持下,农业正逐步迈入“智慧育种”时代。通过综合分析作物的基因型、表型和环境数据,可以预测作物性状,从而精准筛选出优异基因。此次研究聚焦于DNA甲基化对作物的影响,团队收集了207个棉花品种的全基因组甲基化测序数据、基因组测序数据、转录组测序数据,并结合农艺性状的表型数据进行关联分析,首次构建了群体尺度的棉花全基因组DNA甲基化图谱,涵盖2.87亿个SMP位点。
湖畔实验室开发的一套新型算法,借助AI和并行计算技术,显著提高了遗传数据的分析处理速度。据湖畔实验室智慧育种团队负责人顾斐介绍,相比传统方法,AI加持下的分析速度提升了近100倍,有助于在亿级序列对比、群体变异分析和多组学关联分析中建立复杂的映射关系。
联合科研团队还首次绘制了与棉花纤维发育相关的表观调控网络,并确认了43个可能参与纤维发育的eQTM基因。其中,一个位点已经通过基因编辑实验验证了其对棉花纤维长度的调控作用。此外,研究人员开发了深度学习模型DeepFDML,能够基于DNA甲基化位点附近的序列预测影响基因表达的甲基化位点,未来有望发现更多具有育种价值的信息。
浙江大学棉花精准育种团队的方磊教授表示,该研究成果表明DNA甲基化数据可以作为育种资源,为棉花品种改良提供新的思路。借助生命科学与AI技术,育种家们可以持续挖掘关键基因、预测农艺性状,从而加速培育“超级”作物。湖畔实验室(数据科学与应用浙江省实验室)成立于2020年7月,依托阿里巴巴达摩院建设,专注于数据智能和新型计算两大方向。在智慧育种领域,湖畔实验室开发了全流程智慧育种平台,为育种家们提供包括数据管理、分析、计算加速和AI预测在内的全方位支持,大幅缩短了培育新品种的周期。
群体单碱基DNA甲基化多态性的精准鉴定、调控网络解析与预测模型构建
湖畔实验室(数据科学与应用浙江省实验室)成立于2020年7月,依托阿里巴巴达摩院建设,聚焦数据智能和新型计算两大方向。在智慧育种领域,湖畔实验室开发了全流程智慧育种平台,为育种家们提供包含育种数据管理和分析、计算加速、AI预测的“中央厨房”,大幅缩短了培育新品种的周期。