摘要:在生物科学领域,一项重大技术突破可能正在改变我们理解和预测蛋白质功能的方式。来自密苏里大学的Mahdi Pourmirzaei、Farzaneh Esmaili等研究团队,联合ProGene公司和意大利米兰理工大学的学者,在2025年5月26日发布于arXiv
想象一下,如果你在烹饪中需要使用不同的厨具来完成各种料理步骤:切菜需要刀具,搅拌需要搅拌机,烘焙需要烤箱。这种情况就类似于当前蛋白质预测领域的状况——研究人员需要为不同的蛋白质预测任务开发专门的模型和工具。而Prot2Token就像是一个多功能厨房机器,它能够通过同一种方式处理各种不同的"烹饪任务",从简单的"切菜"(序列级预测)到复杂的"烘焙"(蛋白质三维结构预测)。
传统上,蛋白质预测任务的多样性迫使研究人员为每种任务开发专门的模型。就像我们需要不同的专家来解决不同的问题:医生诊断疾病,机械师修理汽车,电工处理电路问题。每一位专家都精通自己的领域,但很难胜任其他领域的工作。这种专业化虽然有效,但效率低下且资源消耗大。
Prot2Token的创新之处在于它将各种蛋白质预测任务——从序列级特性和残基特异性属性到复杂的蛋白质间相互作用——统一为标准化的下一个标记预测格式。这就像是培养了一位"全科专家",无论你提出什么问题,他都能用相同的思考方式来处理和解决。
这个框架的核心是一个自回归解码器,它接收来自预训练蛋白质编码器的嵌入信息,并在可学习的"任务标记"的引导下执行多样化的预测。这种架构独特地促进了多任务学习,使单个模型能够掌握众多任务,并显著提高效率。
研究团队在各种基准测试上进行了广泛的实验验证,展示了Prot2Token在不同类型蛋白质预测任务上的强大预测能力。关键结果包括显著的速度提升(例如,与使用MSA的AlphaFold2相比快1000倍)以及性能通常匹配或超过专业方法。此外,研究团队还引入了一种辅助的自监督解码器预训练方法,以提高空间敏感任务的性能。
一、Prot2Token:统一蛋白质预测的创新框架
蛋白质是生命的基本构建模块,在维持人类健康方面发挥着关键作用。然而,理解蛋白质这种复杂语言——编码在其序列和结构中——对研究人员来说仍然是一个重大挑战。这种复杂性限制了我们解释、预测和设计蛋白质用于各种生物医学和治疗应用的能力。
蛋白质功能预测特别具有挑战性,这是因为蛋白质序列的多样性、结构变异以及标记数据的有限可用性。与自然语言不同,蛋白质序列不遵循人类可理解的显式语法规则,这使得模型难以在没有广泛生物学知识的情况下学习有意义的表示。
蛋白质语言模型(PLMs)提供了一种变革性的解决方案,通过学习蛋白质序列的有意义表示,使研究人员能够将蛋白质数据解码并转译为更可解释的格式。通过利用PLMs,我们可以弥合原始蛋白质信息与人类理解之间的差距,推进药物发现、疾病机制和合成生物学研究。
虽然PLMs已经显著推进了蛋白质预测任务,但当前模型在预训练后需要针对任务进行专门化。这种对不同任务的单独模块的依赖导致计算资源使用效率低下和可扩展性有限。大多数PLMs需要经过后训练调整,与针对单个任务的专门预测器架构对齐,需要独立的训练和微调——这是一种耗时且资源密集的方法。一个能够高效处理各种蛋白质预测任务的统一模型将克服这一限制,简化蛋白质功能预测并增强其在实际应用中的可访问性。
尽管蛋白质基础模型已经出现,但据研究团队所知,目前还没有全面的框架能够系统地将它们在广泛的蛋白质预测任务中进行对齐。相反,研究人员通常会修改现有的基础模型以适应特定应用,例如使用定制技术从序列预测3D蛋白质结构。一个关键的限制是大多数现有模型基于BERT风格的架构,虽然这些模型能够提供有意义的表示,但缺乏多样化和可控预测能力所需的灵活性。在自然语言处理(NLP)中,从BERT风格模型过渡到自回归GPT风格模型使得更多动态和人类可理解的指令(提示)能够控制生成过程,因此可以在NLP领域内处理多样化的预测。蛋白质研究中也需要类似的范式转变,从静态编码器转向更先进的生成式AI方法,提供更全面的预测能力。
虽然已经有一些探索蛋白质语言的自回归变换器模型——如ProGen2、RITA和Ankh——但它们在可控性和任务特异性方面存在困难,尤其是在蛋白质预测任务方面。与NLP中的语言模型不同,NLP中的语言模型能够有效利用提示机制进行可控和可解释的预测,而自回归PLMs目前缺乏引导其输出朝向人类可解释格式的稳健方法。这一差距阻碍了它们的实际适用性,与NLP相比,迫使研究人员继续严重依赖编码器风格的PLMs,经常围绕这些编码器构建专门的架构用于特定的蛋白质预测任务。
为了解决这些限制,这项工作朝着将各种蛋白质相关预测任务统一到单一综合框架中迈出了重要一步。研究团队引入了一种通用协议,用于将不同的蛋白质预测任务标记化,使通用自回归变换器预测器能够利用现有的BERT风格PLMs。这种统一的自回归预测器,由下一个标记预测损失引导,在多种蛋白质预测任务类别中展示了强大的通用性,包括蛋白质级、残基级和蛋白质-蛋白质相互作用级任务。研究团队通过对各种例子的广泛评估说明了其多功能性,例如激酶磷酸化位点预测、蛋白质-配体结合位点预测、蛋白质3D结构预测和蛋白质突变稳定性评估。
此外,研究团队的框架本质上支持多任务学习,并提供了初步分析,展示了相关任务联合训练时的协同性能提升。对于某些专门任务,如预测结合位点,研究团队表明,通过自监督预训练初始化解码器可以显著提高性能。具体来说,对于蛋白质-配体结合位点预测,研究团队进一步分析了学习到的标记表示,揭示了配体标记之间有意义的关系,使研究团队能够增强对表示不足的配体的预测。研究团队相信,他们的方法代表着利用和升级大型语言模型(LLMs)用于稳健和灵活的蛋白质预测任务的重要一步。
二、Prot2Token的架构:如何实现预测的统一
Prot2Token框架旨在使用基于编码器-解码器变换器的共享架构来统一各种蛋白质相关预测任务。其核心思想是通过交叉注意力层将自回归解码器语言模型与现有的编码器风格蛋白质和可选的化学语言模型集成,从而将预测任务转换为统一的下一个标记预测问题。
该架构采用预训练的双向变换器(ESM2)作为蛋白质编码器。对于涉及化学信息的任务(例如,配体结合),使用可选的化学编码器(BARTSmile)处理SMILES表示。这些编码器将各自的输入序列转换为上下文嵌入。
为了增强序列嵌入的位置感知能力,研究团队引入了一个可学习的位置嵌入层,产生增强的表示。为了将编码器输出与解码器的隐藏维度对齐,研究团队应用了线性投影。这种投影的表示通过交叉注意力输入到解码器中。
解码器是一个因果(自回归)变换器,由标准变换器组件组成,如多头自注意力、前馈层和GeLU激活。为了提高训练速度和内存效率,研究团队还整合了FlashAttention-2技术。
为了支持单一训练过程内的多个任务,研究团队引入了任务标记。这些标记放置在每个输出序列的开头,作为提示,引导解码器的行为,为每个特定任务提供不同的指导。在优化过程中,研究团队对任务标记位置应用了特殊处理,有效地将其从梯度更新中掩蔽,同时允许其他标记根据需要进行不同的惩罚。这种方案使得提示能够引导生成过程,而不会因重建错误而受到惩罚。
Prot2Token的关键创新之一是其统一的标记化策略,该策略用于自回归解码器预测的输出标签。这一策略至关重要,因为它将各种生物学预测目标转换为标准化的离散标记序列,使解码器能够通过一致的下一个标记预测机制处理多样化的任务。所有标记化的输出序列都以标记开始,以标记结束,清晰地界定序列边界。
这种方法将异构标签转换为统一的顺序格式,促进了任务无关的解码过程。具体来说,对于分类任务,标签被映射到唯一的离散标记,多标签任务通常连接这些标记(通常按字母顺序)。回归任务通过其字符组件(例如,符号、数字、小数点)的细粒度逐位编码表示连续数值。序列到序列任务为输入蛋白质中的每个残基生成一个输出标记,保持直接对应关系。结合位点预测涉及标记化参与相互作用的残基的排序1-基索引。其他复杂的输出类型,例如用于PTMs的输出,也被转换为特定的标记序列,例如,通过列出由特殊标记分隔的潜在和确认的修饰位点。这种通用标记化协议对于Prot2Token统一广泛的蛋白质预测任务到单一解码架构的能力至关重要。
三、Prot2Token的实验结果:多样任务下的表现
研究团队在多个任务的不同数据集上评估了Prot2Token,包括蛋白质级、残基级和蛋白质-蛋白质级别的任务。对于这些任务中的一部分,研究团队将自回归解码器的自监督预训练阶段作为初始步骤。在所有实验中,Prot2Token中的蛋白质编码器使用预训练的ESM2-650m模型进行初始化。对于解码器部分,研究团队使用了基于ESM编码器大小和自回归解码器超参数的不同配置的自回归语言模型。研究团队仅将BARTSmiles作为蛋白质-配体亲和力任务的化学编码器,并在其他任务中禁用它。
优化使用AdamW优化器进行,应用0.1的权重衰减,beta-1和beta-2值分别为0.9和0.98,同时设置epsilon为1e-7。学习率遵循余弦退火计划,具有初始预热阶段,从1e-6开始,在前256步内逐渐增加到5e-5,除非另有说明。训练使用PyTorch 2框架在配备四个Nvidia A100 GPU(每个80GB)的单一计算节点上进行。
在分类任务中,研究团队的模型在DeepLoc 2.0数据集上显著改善了性能,相比原始方法提高了16个百分点(从0.46到0.5364)。在ER任务上,通过多任务学习,研究团队的模型性能提升了7.5个百分点。在回归任务中,Prot2Token在所有回归任务上都一致地超过了PEER基准的基线方法。特别是在荧光预测任务中,多任务学习带来了高达5.6%的性能提升。对于突变稳定性预测,Prot2Token相比最佳基线模型实现了超过51.5%的显著改进。
在结合位点预测任务中,研究团队为解码器引入了自监督预训练阶段,以增强模型初始化并改善预测性能。这种策略显著提高了模型在各种配体类型上的预测准确性,平均F1分数达到0.6132。研究团队还分析了学习到的标记表示,识别出与生化特性密切相关的关系,并利用这些见解来提高对表示不足的配体的预测准确性。
在序列到序列预测任务中,研究团队将Prot2Token应用于残基级序列,将其作为序列标记任务,其中模型为输入蛋白质序列中的每个残基生成一个离散标记。研究团队的主要关注点是具有挑战性的序列到3D结构预测任务。在这里,Prot2Token被训练使用矢量量化变分自编码器(VQ-VAE)基于蛋白质骨架坐标的表示从氨基酸序列生成离散3D结构标记。结果表明,Prot2Token-D展示了显著的速度优势,能够在单个A100 GPU上在1-2秒内为典型的384残基蛋白质产生结构预测——比使用多序列比对(MSA)输入的AF2(通常需要18-25分钟进行推理)快约三个数量级。这种显著的加速使Prot2Token特别适合大规模或实时结构生成场景。
在其他类型的任务中,研究团队将方法扩展到包括蛋白质-激酶磷酸化位点预测,这是一个具有显著实际应用的任务。研究团队选择了蛋白质-激酶序列对及其相应的磷酸化位点,并与20个自监督任务一起联合训练它们。与两种磷酸化预测工具(GPS 6.0和KinasePhos3)的比较结果表明,Prot2Token-C在验证集、GPS测试集和稀有组测试集上取得了更高的F1分数。
四、Prot2Token的独特优势和未来潜力
研究团队的工作引入了Prot2Token,这是一个旨在解决广泛蛋白质预测任务的统一框架,从蛋白质级和残基级特性到复杂的蛋白质-蛋白质相互作用。其核心创新在于其多功能的标记化策略,该策略在将这些多样化的预测挑战转换为统一的下一个标记预测问题方面表现出显著的广度。Prot2Token通过将它们连接到通用自回归预测器,有效地利用了预训练编码器风格PLMs的嵌入能力。这种内在的通用性促进了强大的多任务学习,允许单个模型同时学习和执行各种任务,其中某些任务的学习可以对其他任务产生协同效应,从而简化预测流程,并在部署单个模型以服务多种预测功能时显著提高计算效率。
研究团队的工作还检验了这类系统的当前限制,特别是它们在依赖精确空间信息的任务中的弱点,如结合位点预测,并为架构的解码器组件引入了专门设计的辅助自监督学习目标,以解决这一挑战。这些辅助目标旨在在解码器中灌输特定的归纳偏置,有效地教导它更好地捕捉准确结合位点预测所需的结构决定因素。
Prot2Token的一个重要意义是其潜力,可以将众多高度专业化模型(包括用于3D结构预测的AlphaFold2等)的预测能力蒸馏到单一高效系统中。这种整合可能会带来预测速度的大幅提升,潜在地提高三到四个数量级,将当前方法转变为高通量方法。因此,这一研究方向预计会带来许多现成且有影响力的机会,能够快速注释和功能表征不断扩大的蛋白质序列宇宙。此外,研究团队框架中核心的任务标记为解释性提供了一个途径;分析它们的嵌入可能会发现蛋白质属性或任务之间的新型生化关系。
展望未来,研究团队认为有几个值得探索的未来方向。一个全面的多任务训练方法,涵盖更广泛的生物学相关任务,将对充分实现框架泛化和协同学习的潜力至关重要。研究更复杂的随机采样方法,超越简单的贪婪解码,可能会解锁对预测的更精细控制,并潜在地揭示可能结果的更丰富景观。
或许最引人注目的是将这种方法扩展到蛋白质设计方面。能够在单一统一模型内无缝集成蛋白质预测和生成的能力,为在一个内聚计算环境中执行药物设计和发现流程的多个体内步骤打开了大门,从目标属性预测到新型候选生成。这可能会大大加速开发并降低新型治疗药物和生物材料的相关成本。
Prot2Token也有一些局限性。首先,自回归解码器的固有性质最初在需要精确空间理解的任务(如结合位点预测)中面临挑战。尽管引入自监督解码器预训练通过灌输关键归纳偏置显著缓解了这一问题,但基本架构需要这种增强以在这类空间敏感任务上实现最佳性能。其次,实现一个真正能够同时学习极其广泛的蛋白质相关任务的通用模型的抱负受到当前计算现实的限制。虽然本文中的实验虽然广泛,但专注于任务的子集组合。扩展到包含所有可能蛋白质预测类型的穷尽多任务学习场景需要大量计算资源,可能限制联合训练在其最全面形式中的实际范围。
此外,在序列到序列预测任务中,研究团队观察到自回归解码器有时会产生长度与输入蛋白质序列不一致的输出序列(1到3个氨基酸)。这需要在端序列标记上实施推理后约束,以确保连贯且正确维度的输出,表明原始解码器输出可能并不总是在没有此类措施的情况下完美符合预期的结构约束。
Prot2Token的性能也与其用于生成输入嵌入的基础预训练蛋白质编码器的能力内在相关。这些底层编码器模型中存在的任何限制或偏见都可能不可避免地传播并影响Prot2Token框架的预测准确性。此外,与许多机器学习模型一样,Prot2Token的性能可能会受到具有严重类别不平衡的数据集的挑战。虽然该框架在各种基准上显示了强大的结果,但具有高度倾斜标签分布的任务可能需要进一步的专门策略,以确保所有类别的公平学习和预测。
总的来说,Prot2Token代表了计算生物学领域的重要进展,在蛋白质研究、治疗发现和生物技术应用方面具有潜在变革性影响。通过将各种蛋白质预测任务统一到单一可扩展架构中,Prot2Token大大降低了计算需求并简化了模型管理。这种复杂预测能力的民主化可能会显著增强计算资源有限的研究组的可及性,促进该领域更广泛的参与和创新。
来源:至顶网一点号