摘要:同时,蛋白质聚集也是生物技术中的一个重要问题,例如在酶、抗体和其他蛋白质治疗剂的生产中。淀粉样蛋白在生物功能和疾病中的重要性促使人们投入了大量的研究,但其形成的决定因素和机制仍然知之甚少。
编辑 | 萝卜皮
淀粉样蛋白的蛋白质聚集是 50 多种临床疾病的主要特征,影响着超过 5 亿人的生活。这些疾病包括常见的神经退行性疾病和最常见的痴呆症等等。
同时,蛋白质聚集也是生物技术中的一个重要问题,例如在酶、抗体和其他蛋白质治疗剂的生产中。淀粉样蛋白在生物功能和疾病中的重要性促使人们投入了大量的研究,但其形成的决定因素和机制仍然知之甚少。
当前已知的根据序列预测聚集的方法都是在规模较小且存在偏差的实验数据集上进行训练和评估的。
在最新的研究中,西班牙 BIST(Barcelona Institute of Science and Technology)的研究人员通过实验量化超过 10 万条蛋白质序列的聚集情况,直接解决了数据短缺的问题。
这个前所未有的数据集揭示了现有计算方法性能的局限性。
同时,他们用这个数据集训练了 CANYA,一个能够准确预测序列聚集情况的卷积-注意力混合神经网络。
研究人员采用基因组神经网络可解释性分析,来揭示 CANYA 的决策过程和学习语法。分析结果表明,CANYA 拥有对随机序列空间进行大规模实验分析的强大能力,能够可解释且稳健地预测聚集现象。
该研究以「Massive experimental quantification allows interpretable deep learning of protein aggregation」为题,于 2025 年 4 月 30 日发布在《Science Advances》。
为了直接弥补蛋白质聚集相关的数据缺口,BIST 的研究团队曾经开发了一种大规模并行选择分析方法,能够在一次实验中检测和量化数千种不同的蛋白质聚集情况。
这使研究人员能够量化淀粉样 β 肽(该肽的聚集是阿尔茨海默病的标志)中所有可能的替换、插入和缺失所导致的聚集速率变化。所得测量结果与体外成核动力学速率常数高度吻合。
然而,这些数据集仅限于测试单个序列细微变化的影响,限制了其用于通用模型构建的实用性。
在最新的研究中,BIST 的研究人员将这种方法应用于更大规模,并量化了超过 100,000 个完全随机序列肽段的聚集情况。他们使用由此产生的海量数据集来评估现有的聚集预测方法,发现与之前在可能存在偏差的数据集上的表现不同,这些方法在更广阔的序列空间中仅具有中等程度的预测能力。
图示:量化 >100,000 个随机肽的聚集。(来源:论文)
鉴于先前的方法无法准确预测数据集内的聚集状态,研究人员构建了一个新模型来捕捉序列-聚集评分格局。
具体来说,他们开发了一个混合神经网络,称为 CANYA(Convolution Attention Network for amYloid Aggregation,即淀粉样蛋白聚集的卷积注意力网络)。
图示:CANYA。(来源:论文)
虽然该神经网络的解释性不如之前的模型,但是 CANYA 的架构不仅简单,而且具有生物学上的启发性。
CANYA 基于这样的观察:已知淀粉样蛋白由相互作用的短序列(例如堆叠的 β 折叠)组成,并将此信息视为模型的归纳偏差。首先,将序列传递到卷积层以找到「基序」,然后这些基序通过注意层以了解基序的位置效应并鼓励这些基序相互作用。
此外,研究人员根据 80 种已知淀粉样蛋白原纤维结构中二级结构长度的分布来设置卷积层的滤波器长度。虽然这类模型在蛋白质研究中不太常用,但卷积-注意力混合模型已在基因组学中得到应用,并被发现在寻找基序及其相互作用方面具有良好的归纳偏差。
研究人员对 CANYA 进行了 100 次训练,使用了超过 100,000 个合成序列及其各自的聚集状态,从而了解序列聚集概况。与大规模计算密集型神经网络不同,CANYA 仅包含三层(涵盖 17,491 个参数),在普通的 CPU 上训练只需不到一小时。
图示:CANYA 在各种预测任务中性能稳定。(来源:论文)
尽管很简单,并且只观察到了可能序列空间的一小部分,CANYA 还是显著改善了对保留测试序列聚集状态的预测(NNK 实验 1 至 3 的平均 AUROC 分别为 = 0.710、0.650、0.769),优于之前的方法(最大 AUROC CamSol、NNK1 = 0.617、NNK2 = 0.537 和 NNK3 = 0.673)。并且 CANYA 的预测准确度明显高于仅使用氨基酸组成或计数在同一数据集上训练的简单线性模型。
为了了解不同方法的性能差异,研究人员检查了性能次佳的方法(CamSol)和 CANYA 之间的序列得分。结果表明,非聚集序列的最大差异出现在含有色氨酸的疏水序列中,而聚集序列的最大差异出现在富含半胱氨酸或天冬酰胺且脂肪族残基较少的序列中。
这说明了探索广阔序列空间的实用性,也表明 CANYA 能够将序列内的物理化学特性情境化(例如,在疏水序列中,CANYA 会在存在大分子或破坏性残基的情况下调整其分数)。
图示:计算机实验揭示了 CANYA 的聚集语法。(来源:论文)
至关重要的是,该团队开发 CANYA 的目标是解释聚集语法,而非最大化预测能力。为了选择一个能够揭示这种习得语法的模型,研究人员使用最近开发的可解释性指标对每个经过训练的 CANYA 实例进行评分。
简而言之,该指标考察了训练模型时使用的模体丰富度,并将其与训练序列中所有等长 k 聚体(k=3)的集合进行比较。强富集(即与背景训练序列的差异)表明模型可能在后续的可解释性分析中产生更清晰的分辨率。
虽然测试序列的精确召回曲线下面积 (AUPR) 在实验间比 AUROC 更一致(平均 AUPR NNK1 = 0.434,NNK2 = 0.452,NNK3 = 0.415),但是没有发现预测性能与该可解释性指标之间存在相关性(平均 AUPR 与可解释性得分的相关性 r = −0.059,P 值 = 0.6847)。因此,研究人员选择了使用可解释性得分最高的训练模型。
图示:CANYA 发现物理化学聚集基序。(来源:论文)
总体而言,CANYA 提供了一个稳健且可解释的神经网络模型,用于理解和预测淀粉样蛋白形成蛋白。更广泛地说,该研究结果不仅提供了一个非常庞大且经过良好校准的数据集来训练和评估 CANYA 以外的模型,而且还展示了对随机蛋白质序列空间进行大规模实验分析的实用性。
论文链接:
来源:科学的十分