摘要:2024年1月8日,哥伦比亚大学Raul Rabadan、傅熙,卡内基美隆大学Eric P. Xing和清华大学的研究人员合作(共通一作为傅熙、Shentong Mo和Alejandro Buendia)在Nature上发表了文章A foundation mo
转录调控在生物过程中扮演着核心角色,但其细胞特异性一直是生物学研究中的重大挑战。
2024年1月8日,哥伦比亚大学Raul Rabadan、傅熙,卡内基美隆大学Eric P. Xing和清华大学的研究人员合作(共通一作为傅熙、Shentong Mo和Alejandro Buendia)在Nature上发表了文章A foundation model of transcription across human cell types,开发出了一个名为General Expression Transformer(GET)的可解释基础模型,该模型通过分析213种人类胎儿和成年细胞类型的染色质可及性数据,成功构建了一个具有通用性的转录调控预测模型。
本研究的主要突破在于,GET模型仅依赖染色质可及性数据和序列信息,就能够在此前从未见过的细胞类型中实现实验级别的基因表达预测准确性。研究团队证实,GET模型具有出色的适应性,不仅能够适应新的测序平台和分析方法,还能在广泛的细胞类型和条件下进行调控推断,同时揭示了普遍性和细胞类型特异性的转录因子互作网络。在技术创新方面,GET采用了基础模型的设计理念,通过大规模预训练实现了对转录调控语法的深度学习。这种设计显著提高了模型的泛化能力,使其能够适应各种新的生物学场景。在验证实验中,GET在预测基因表达水平、识别顺式调控元件以及推断转录因子物理互作等方面都展现出了优异的性能。
图1:GET模型的工作原理示意图和应用场景
特别值得关注的是GET在B细胞急性淋巴细胞白血病(B-ALL)研究中的突破性发现。研究团队利用GET模型分析了B细胞中的转录调控网络,发现了一个由无序结构区域(IDR)介导的淋巴细胞特异性转录因子互作关系。这一互作涉及PAX5转录因子与核受体 (Nuclear Receptor) 家族转录因子NR2C2之间的相互作用。PAX5是B细胞发育过程中的关键调控因子,其突变与多种B细胞恶性肿瘤密切相关。通过GET的分析,研究人员发现PAX5和NR2C2 会共同调控B细胞分化通路,而一些白血病相关的种系突变正好位于这一互作界面上,这解释了为什么这些突变会增加患者发生白血病的风险。这不仅提供了疾病发生的分子机制,也为开发针对性治疗策略提供了新的思路。此外,GET的这一发现还暗示了转录因子之间的相互作用可能具有细胞类型特异性,这种特异性可能是不同细胞类型维持其独特转录调控网络的重要机制。这一认识对理解细胞命运决定和疾病发生具有深远意义。
图2:PAX5-NR2C2-DNA结合基序(motif)的结构预测
BioART战略合作伙伴
来源:轶伊说科学