摘要:金属离子是许多蛋白质中用于蛋白质功能推断和工程化的重要成分,其复杂性与结构催化等作用有关。现如今的技术在应对过渡金属离子的建模,特别是在瞬时、可逆和浓度依赖性调节位点等难题时,显得有些乏力。
编辑丨&
金属离子是许多蛋白质中用于蛋白质功能推断和工程化的重要成分,其复杂性与结构催化等作用有关。现如今的技术在应对过渡金属离子的建模,特别是在瞬时、可逆和浓度依赖性调节位点等难题时,显得有些乏力。
汕头大学医学院、湖南大学与美国弗吉尼亚大学(University of Virginia)带来了一种混合机器学习系统,名为 PinMyMetal(PMM)。这个系统旨在准确预测生物大分子中的过渡金属定位和环境,适用于四面体和八面体几何形状。
PMM 优于其他预测因子,在配体和坐标预测方面实现了很高的准确性。它擅长预测调节位点(中位偏差 0.36 Å),在定位催化位点(0.33 Å)和结构位点(0.19 Å)方面表现出卓越的准确性。
该研究以「PinMyMetal: a hybrid learning system to accurately model transition metal binding sites in macromolecules」为题,于 2025 年 3 月 28 日刊登于《Nature Communications》。
模型使用与测试
PMM 系统采用混合学习方法,根据不同的几何形状来识别 MBS。对于四面体配位,该算法使用基于 CH 的方法,专注于 C 和 H 残基,而对于八面体配位,它采用基于 EDH 的方法,考虑 E、D 和 H 残基的组合。
在这个系统中,基于 CH 和 EDH 几何结构的模型需要大量修改,以适应这些金属的不同化学性质、较弱的配体结合和更灵活的配位。
系统首先应用几何约束来识别候选位点,重点关注基于特定氨基酸组成的适用于四面体和八面体几何形状的配体对。然后以完整协调性的一半进行区分,划分为低协调位点的集成学习模型(LCS)与高协调位点的 Pearson 相关系数(HCS)。
预测的配体与至少 50% 的实际配体重叠时,被标记为正预测。在如锰,铁等过渡金属上,这类高准确性的召回率超过了90%。不过由于某些并发症,该程序可能会将某些实验位点排除在考虑范围之外,例如配体之间距离超过 4.5 Å 的位点或配位原子为主链肽键的 N 或 O 的位点。
在混合系统中,团队采用不同的策略为 LCS 和 HCS 的候选站点分配确定性分数。对前者采用了两个独立的集成学习模型,分别检测 CH 站点与 EDH 站点;对后者则计算其预测位点曲线与相同算法对函数值 C 的相应标准曲线之间特殊系数的平均值。
图示:预测低配位 CH 和 EDH 位点的性能指标。(图源:论文)
对于金属类型识别,团队还使用测试集和 Metal3D 中看不见的数据集来评估模型。两个数据集的混淆矩阵都表明,PMM 在预测 Mn 和 Zn 结合位点方面表现稳健。
具体点来说,Mn 在测试集中的准确率为 88.6%,Zn 为 65.9%,而 VIII 的预测准确率在测试集中为 57.5%,这表明,虽然 PMM 可以有效地区分 Mn 和 Zn,但在区分 VIII 与 Mn 或 Cu 方面仍然存在挑战。
除了准确预测已知的实验结合位点外,PMM 还识别了许多未知的、推定的 MBS,包括未在实验结构中确定的 LCS 和 HCS。
虽然分辨率不足可能不支持此模型中金属离子的直接原子建模,但 PMM 提供了一种替代方法来模拟中低分辨率冷冻电镜结构中与金属离子有关的配位键。
此外,PMM 不仅准确预测蛋白质结构中的金属 MBS,还准确预测复杂结构下的金属 MBS,并成功预测了由残基 C670、C667、C685 和 C688 协调的锌结合位点,与实验确定的位点的最小距离偏差为 0.025 Å。
图示:PMM 预测的锌结合位点。(图源:论文)
相较于其他预测变量
PMM 与其他 MBS 预测因子的比较侧重于关键特征,例如输入数据要求、预测方法、输出数据和响应时间。与 Metal3D 等其他几种预测器不同,PMM 提供详细的配体信息,并且可以预测具有 CHED ≥ 2 配体的位点。
此外,PMM 提供的结构模型和金属离子位置比 ZincBindDB 和 znMachine 等不提供金属离子位置或结构模型的预测器具有更高的准确性。
进行不同种类的数据集的代表性预测因子与 PMM 进行比较的实验中,评估的一个数据集被排除在 PMM 的算法中以免出现偏差。尽管如此,PMM 还是实现了 98.5% 的召回率。
图示:PMM 和其他过渡金属预测因子的预测结果。(图源:论文)
开源的 PMM
PMM 预测器代码是开源的,允许对等方在本地下载、运行和编译。团队还提供了在线版本,方便进行基于 Web 的预测,增强了实际应用中的灵活性和易用性。
进行的实验与验证表明,PMM 是一款能根据局部几何和化学微环境预测金属离子位置和配位配体的新系统,在 MBS 中的应用表现出卓越的准确性和效率性能,为科学界提供了一种快速预测 MBS 的方法。
这个系统适用于检测金属结合位点、识别金属类型,还引入了一种创新算法,可显著减少筛选疏水性对比函数和确定候选金属离子位置所需的计算资源。
虽然在特定的实验下可能无法观测到金属结合状态,但不能说给定晶体结构中不存在 MBS 并不能保证它在相关的生物过程中不存在。因此,PMM 凭借其能力可以从任何已知的实验或计算方法都无法获得的角度来研究候选金属结合蛋白。
论文链接:
来源:必本科学社区