AI赋能蛋白质研究:SaprotHub让蛋白质AI模型训练和调用没有门槛

360影视 2025-01-24 15:06 2

摘要:近年来,AI 技术在蛋白质研究领域发挥了越来越重要的作用。从 AlphaFold2 在结构预测任务上的脱颖而出,到各类蛋白质语言模型(PLMs)在功能预测方面的重大进展,生物研究者们可以利用各式各样的 AI 模型来辅助他们的研究。

编辑 | ScienceAI

近年来,AI 技术在蛋白质研究领域发挥了越来越重要的作用。从 AlphaFold2 在结构预测任务上的脱颖而出,到各类蛋白质语言模型(PLMs)在功能预测方面的重大进展,生物研究者们可以利用各式各样的 AI 模型来辅助他们的研究。

然而,随着模型变得越来越复杂,如何训练和调用这些 AI 模型对于缺乏机器学习专业知识的研究者来说是一件非常具有挑战的任务,也因此限制了 AI 技术在实际研究中的应用。

为了解决这个限制,来自西湖大学的研究人员推出了 SaprotHub,允许生物学家以交互的方式训练和调用 AI 模型,同时提出了社区共建的概念,鼓励用户分享训练好的模型权重,促进领域的生态发展。

该研究以「SaprotHub: Making Protein Modeling Accessible to All Biologists」为题,于 2024 年 12 月 13 日更新在 bioRxiv 预印本平台

SaprotHub 平台

SaprotHub 包括三个核心部分:Saprot 模型、ColabSaprot 交互界面以及 HuggingFace 模型仓库。用户通过 ColabSaprot 来训练和使用 Saprot 模型,同时可以直接加载 HuggingFace 仓库中的模型来进行预测。

关于 Saprot 的详细介绍,请参考作者的文章分享《基于结构感知词表的蛋白质语言模型 SaProt》。

文章链接:

ColabSaprot 以交互界面的形式让用户可以不需要编写任何代码就能够训练和调用模型,包括一键配置环境、自动处理数据、模型训练监控、最佳权重保存等。

ColabSaprot 目前提供三大功能:模型训练、模型调用以及模型分享。详细功能介绍如下:

模型训练

ColabSaprot 将训练模型所需的繁杂步骤全部进行了封装。用户只需要在交互界面中按照需求设定好目标训练任务,随后上传一个指定格式的数据集文件即可开始训练。

考虑到使用者可能对相关的机器学习知识并不熟悉(例如 learning rate、batch size 等),ColabSaprot 在每一个选择栏都有相关的提示说明,确保使用者能够轻松地使用 ColabSaprot 完成自己的模型训练。

图示:ColabSaprot 模型训练界面。(来源:ColabSaprot 平台截图)

模型调用

ColabSaprot 提供了多种预测任务供用户调用,包括蛋白质属性预测(利用自己训练好的模型或者 SaprotHub 模型仓库的模型进行预测)、突变效应预测(预测单点突变或组合突变对蛋白质 fitness 的影响,例如酶活性等)、蛋白质序列设计(根据上传的蛋白质骨架反向设计序列)以及蛋白质表征获取(获取模型生成的蛋白质 embedding 进行后续分析)。

用户可以自由选择想要使用的功能,跟随指引即可轻松使用。

图示:ColabSaprot 支持多种预测任务。(来源:ColabSaprot 平台截图)

模型分享

为了鼓励用户分享自己训练的模型,共同促进领域内的发展,ColabSaprot 集成了 HuggingFace 的模型上传功能,让用户可以无缝将自己训练完的模型上传到模型仓库中供他人使用,在促进社区发展的同时也能提高自身工作的影响力。

图示:ColabSaprot 模型分享界面。(来源:ColabSaprot 平台截图)

HuggingFace 仓库

作为 SaprotHub 的另一个核心模块,HuggingFace 模型仓库存储了多种已经训练好的模型,可分别用于不同的下游任务预测。

为了方便模型共享和社区协作,ColabSaprot 在训练时采用了 LoRA 的训练机制,通过冻结 backbone 只训练低秩矩阵,大大降低了模型存储和传输的开销。

图示:SaprotHub 模型仓库。(来源:论文)

除此之外,为了方便用户在数量众多的模型中快速找到自己感兴趣的模型,作者开发了基于 HuggingFace 的搜索引擎,允许用户通过输入关键词来定位相关的模型以及数据集。

搜索引擎链接:

图示:SaprotHub 搜索引擎。(来源:ColabSaprot 平台截图)

实验分析

ColabSaprot 用户测试

为了验证 ColabSaprot 的可用性,作者招募了 12 位没有机器学习相关背景的生物研究者进行了使用测试,结果如下:

图示:supervised fine-tuning 和zero-shot 预测的结果。(来源:论文)

图中蓝色字体代表监督微调任务,橙色字体代表 zero-shot 突变预测任务。

可以看到,利用 ColabSaprot,即使是没有机器学习背景的用户也能够训练出和 AI 专业的研究者 comparable 的模型,并且用户还能够在 SaprotHub 已有的模型的基础上进一步训练模型,从而缓解了数据不足导致模型性能较弱的情况(见 eYFP fitness prediction)。

而对于突变预测任务,用户可以轻松地获得与编写代码跑出来一致的结果,仅仅需要通过鼠标点击的方式。

湿实验验证

为了验证 ColabSaprot 在实际研究中的可用性,作者对 ColabSaprot 的预测结果进行了多种湿实验验证,包括:

木聚糖酶突变优化(zero-shot)

在预测的 top 20 个突变中,有 13 个突变都使酶活性增强,其中 R59S 和 F212N 分别是原始酶活性的 2.55 倍和 1.88 倍。

TDG 突变优化(zero-shot)

在预测的 top 20 个突变中,有 17 个突变都使编辑效率增强,其中 L74E、H11K 和 L74Q 突变体的编辑效率接近原始蛋白的 2 倍。

GFP 突变优化(supervised fine-tuning)

在通过 GFP 突变数据微调过后,利用模型预测的 top 9 个双点突变中,有 7 个都提高了荧光强度,其中一个突变体达到了野生型 8 倍以上的荧光强度。

结论

研究人员开源的 ColabSaprot 交互式蛋白质语言模型平台,旨在降低 AI 技术的使用门槛,使生物学研究者无需复杂的机器学习背景或编程能力,即可轻松训练和调用 AI 模型。

这一创新举措不仅为研究者提供了强大的工具支持,还显著提升了 AI 技术在蛋白质科学研究中的可及性和实用性。通过 ColabSaprot,更多研究者能够便捷地利用先进 AI 技术,加速研究进程,推动蛋白质科学迈入 AI 赋能的新时代。

论文链接:

使用平台:

代码仓库:

来源:武信忠正

相关推荐