AI进行植物学研究?中山大学等开发DeepPlant助力表观遗传学

360影视 日韩动漫 2025-04-24 18:16 2

摘要:目前,纳米孔测序能够全面检测5-甲基胞嘧啶(5mC),尤其是在重复序列区域。然而,由于高甲基化阳性样本的稀缺,植物中CHH甲基化的检测受到限制,从而降低了跨物种检测的普遍性。

编辑 | 萝卜皮

AI 用于植物学研究?

目前,纳米孔测序能够全面检测5-甲基胞嘧啶(5mC),尤其是在重复序列区域。然而,由于高甲基化阳性样本的稀缺,植物中CHH甲基化的检测受到限制,从而降低了跨物种检测的普遍性。

Dorado 是 R10.4 平台上唯一一款用于植物 5mC 检测的工具,但缺乏广泛的物种测试。

中山大学、北京中医药大学、上海工业大学、哈尔滨医科大学等组成的联合研究团队开发了 DeepPlant,这是一个融合了 Bi-LSTM 和 Transformer 架构的深度学习模型,它显著提高了 CHH 的检测准确率,并且在 CpG 和 CHG 基序检测中表现优异。

研究人员利用亚硫酸氢盐测序筛选出高甲基化 CHH 位点丰富的物种,以解决甲基化阳性 CHH 训练样本稀缺的问题,并生成了涵盖多种 9 聚体基序的数据集,用于 DeepPlant 的训练和测试。

经九个物种的评估,DeepPlant 在 CHH 上与 BS-seq 数据实现了较高的全基因组甲基化频率相关性 (0.705-0.838),与 Dorado 相比提高了 23.4% 至 117.6%。

DeepPlant 还展现出卓越的单分子准确度和 F1 得分,为植物表观遗传学研究提供了强大的泛化能力。

该研究以「Accurate cross-species 5mC detection for Oxford Nanopore sequencing in plants with DeepPlant」为题,于 2025 年 4 月 4 日发布在《Nature Communications》。

DNA甲基化,特别是5-甲基胞嘧啶(5mC),是一种重要的表观遗传修饰,调节植物中的许多生物过程,例如基因表达、转座子沉默和基因组稳定性。

与动物中 5mC 主要出现在 CpG 位点不同,植物中的 5mC 存在于三种不同的序列环境中:CpG、CHG 和 CHH(其中 H 代表 A、T 或 C)。CHH 甲基化虽然不太丰富,但在沉默转座因子(TE)中起着关键作用,而转座因子对于在植物发育和应激反应过程中维持基因组完整性至关重要。

但是 CHH 甲基化检测的一个关键挑战是高甲基化 CHH 位点的缺乏,导致阳性样本的收集困难,这阻碍了模型的训练和跨物种推广。

在最新的研究中,中山大学主导的研究团队分析了公开的 BS-seq 数据集,并筛选出富含高甲基化 CHH 位点的物种用于模型训练。

图示:选择植物样本进行CHH甲基化训练特征收集。(来源:论文)

具体来说,研究人员通过系统分析公开的 BS-seq 数据集,识别出富含高甲基化 CHH 位点的植物物种,例如丹参(S. miltiorrhiza)、马铃薯(S. tuberosum)和红花(R. communis),从而应对「高甲基化 CHH 位点缺乏」的挑战。

通过为这些物种生成新的 ONT R10.4 测序数据,他们显著增加了 CHH 阳性样本的多样性和数量。新的训练数据集现已覆盖所有可能的 9 聚体 CHH 序列的 97.2%,平均每个序列超过 9225 个样本,大幅超越了使用 A. thalianaO. sativa 的 DeepSignal-Plant。如此广泛的覆盖范围对于训练一个能够泛化至不同植物物种和甲基化模式的模型至关重要。

图示:深度神经网络架构和模型比较。(来源:论文)

与此同时,该团队开发了 DeepPlant,其性能优于 Dorado,在全基因组 CHH 甲基化频率定量分析中,与 BS-seq 的相关性提升了 0.135 至 0.381。

例如,研究人员成功地分析了 O. sativa 大部分着丝粒区域和 TE 的甲基化模式,实现了比 BS-seq 更高的覆盖度,并揭示了与先前在 A. thaliana 中观察到的结果一致的链特异性甲基化模式。

DeepPlant 能够以链特异性的方式量化甲基化状态,为理解表观遗传调控机制和不对称甲基化模式的功能意义提供了宝贵的见解。

这些发现对于理解 DNA 甲基化在调控植物基因表达、转座子沉默和基因组稳定性方面的作用具有重要意义。

DeepPlant 还展现出卓越的单分子准确度、F1 得分和召回率,同时在所有测试物种中保持了更高的稳定性。这些结果表明 DeepPlant 具有强大的通用性,在植物甲基化检测领域拥有广阔的应用潜力。

总而言之,DeepPlant 代表了植物表观遗传学研究的重大进展,它提供了一个强大的工具,可以利用 ONT 测序数据进行准确、全面的 5mC 检测。

DeepPlant 克服了 CHH 甲基化检测的局限性,为探索植物复杂的表观遗传图谱开辟了新的途径。它能够分析具有挑战性的基因组区域的甲基化,增强了科学家研究基因组调控、稳定性和适应性的能力,最终促进植物表观遗传学的进步。

论文链接:

来源:康康店小二

相关推荐