浙大与港科大团队联合开发ProtET模型,实现AI驱动蛋白质编辑

360影视 2025-02-03 16:14 2

摘要:蛋白质是生命活动的核心执行者,其功能由氨基酸序列决定。传统的蛋白质设计和优化依赖于实验筛选和计算模拟,但这些方法往往耗时且成本高昂。近年来,人工智能(AI)技术在蛋白质设计领域展现出巨大潜力,尤其是基于自然语言处理(NLP)和多模态学习的方法,能够通过文本指令

蛋白质是生命活动的核心执行者,其功能由氨基酸序列决定。传统的蛋白质设计和优化依赖于实验筛选和计算模拟,但这些方法往往耗时且成本高昂。近年来,人工智能(AI)技术在蛋白质设计领域展现出巨大潜力,尤其是基于自然语言处理(NLP)和多模态学习的方法,能够通过文本指令指导蛋白质编辑,从而实现对蛋白质功能的精确调控。

近日,来自浙江大学侯廷军、吴健团队和香港科技大学(广州)陈晋泰研究团队发表在 Health Data Science 期刊上的一篇题为“Multi-Modal CLIP-Informed Protein Editing”的研究论文中,研究人员开发了一种名为 ProtET 的多模态蛋白质编辑模型,旨在通过结合蛋白质序列和生物文本信息,实现基于文本指令的蛋白质设计和优化。ProtET 的核心创新在于利用对比学习将蛋白质序列与自然语言描述对齐,从而实现对蛋白质功能的可控编辑。

图 | ProtET 的工作流程和框架

ProtET 基于 Transformer 架构,采用分层训练方法,主要包括以下两个阶段:预训练阶段和蛋白质编辑阶段。

在预训练阶段阶段,研究人员构建了一个大规模的蛋白质-生物文本配对数据集,包含数百万个蛋白质序列及其功能描述。通过训练两个大型语言模型(LLMs),分别对蛋白质序列和生物文本进行编码,ProtET 利用对比学习将这两种模态的特征空间对齐。

在预训练完成后的蛋白质编辑阶段,ProtET 可以利用对齐的特征空间,根据编辑指令文本和原始蛋白质序列生成目标蛋白质序列。具体来说,ProtET 引入了一个 FiLM 模块,用于融合蛋白质序列和编辑指令文本的特征。随后利用自回归生成解码器,ProtET 能够逐步生成编辑后的蛋白质序列,每个氨基酸的生成都基于之前生成的氨基酸序列。

在多个蛋白质编辑任务中,ProtET 都展现出了巨大的应用潜力。

酶催化活性优化:ProtET 在公开的 PhoQ 数据集上进行了实验,该数据集包含 140,517 个在特定 4 个位点的酶,并标注有催化活性分数,因此可根据催化活性分数将酶数据集划分为高、中、低功能以及无功能的子集。研究人员观察到,经 ProtET 编辑后,原本功能较差的酶子集(中、低、无功能)向高功能酶子集靠近,表明编辑后的酶在催化活性上有显著提升,这为加速生物化学反应、提高生物制造效率提供了有力工具。

图 | 可视化结果,经 ProtET 编辑后,低功能酶子集向高功能酶子集靠近,酶活性提升

蛋白质稳定性提升:ProtET 在蛋白质稳定性编辑任务中同样表现出色,成功设计出比原始蛋白质更稳定的蛋白质序列。实验结果显示,ProtET 编辑的蛋白质在稳定性上提升了 16.67% 至 16.90%,显著优于其他基于机器学习的蛋白质编辑方法。

图 | 经 ProtET 编辑后,蛋白质稳定性上升

抗体特异性结合能力优化:ProtET 在零样本情况下优化了 SARS-CoV 抗体的结合能力,并成功设计出能够与 SARS-CoV-1 和 SARS-CoV-2 抗原稳定结合的抗体。通过 AlphaFold3 和 tfold 等蛋白质结构预测工具,研究人员验证了这些抗体能够形成稳定的三维结构,并与抗原有效结合,这对于未来辅助开发高效的抗病毒药物和诊断试剂具有重要意义。

图 | 抗体结构评估,经 ProtET 编辑后的抗体可与抗原有效结合

然而,ProtET 也并非十全十美。目前,该模型在使用自然语言指令时,可能存在精度不足的问题,导致编辑结果与预期存在一定偏差;在训练过程中,预训练的大规模编码器参数未进行更新,这可能限制了模型对复杂任务的适应性;此外,其自回归生成方式在设计特定长度蛋白质序列时存在一定困难,影响了编辑的精确性和可控性。

总而言之,ProtET 作为一种基于多模态学习的蛋白质编辑模型,通过结合蛋白质序列和自然语言描述,实现了基于文本指令的蛋白质设计和优化。其在酶催化活性优化、蛋白质稳定性提升和抗体设计等任务中的出色表现,展示了 AI 技术在蛋白质编辑领域的巨大潜力。随着技术的进一步发展,ProtET 及其后续版本有望在生物医学、药物开发等领域发挥更大的作用。

参考文献:

1.https://www.synbibiobeta.com/read/ai-powered-protein-editing-unlocked-through-text-guided-design

2.https://spj.science.org/doi/10.34133/hds.0211

免责声明:本文旨在传递合成生物学最新讯息,不代表平台立场,不构成任何投资意见和建议,以官方/公司公告为准。本文也不是治疗方案推荐,如需获得治疗方案指导,请前往正规医院就诊。

来源:生辉SciPhi

相关推荐