Boltz-2:两个月后的现实与期待 —从药物发现的视角深度解读

360影视 国产动漫 2025-08-29 15:47 1

摘要:亲和力预测模块(affinity prediction module):基于海量经人工清洗的结合测定数据(public databases)并结合分子动力学(MD)增强的数据,Boltz-2 在生成结构的同时直接预测结合亲和力,这在之前的 AlphaFold3

关键创新与官方宣称:

亲和力预测模块(affinity prediction module): 基于海量经人工清洗的结合测定数据(public databases)并结合分子动力学(MD)增强的数据,Boltz-2 在生成结构的同时直接预测结合亲和力,这在之前的 AlphaFold3 / Boltz-1 体系中是缺失的功能。

惊人的计算速度: 开发团队宣称 Boltz-2 比传统 FEP 快约 1000 倍;在单 GPU 上约 20 秒就能产出一次预测结果(相对物理学方法需数小时/数日), 使得对百万级化合物库做结构+亲和力筛选成为可能。

更强的可控性与物理现实性选项: 引入了“method conditioning”(可把预测偏向 X-射线或 NMR 风格的构象)、支持模板/几何约束、以及所谓的 Boltz-Steering(在推理阶段加入物理势以减少立体冲突等不合理构象)。

开源承诺: Boltz-2 以 MIT 许可证开源,包含模型权重与训练代码。

Boltz-2独立评估

结构与构象预测:两类靶标的分化表现

强项: 对于构象稳定、结合口袋刚性的靶标(例如 KRAS、SARS-CoV-2 主蛋白酶等),多个独立评估(例如 DeepMirror 的分析)表明 Boltz-2 能较好地重建整体折叠并将配体放置在催化口袋中,产出有用的构象用于后续结构-基础设计。 弱点: 当靶标涉及 induced fit(配体诱导的显著构象改变)、高度柔性或变构位点(例如 PI3K-α、cGAS、WRN helicase 等)时,Boltz-2 往往难以预测必要的构象重塑,而更倾向于回退到“已知的未结合态”构象,导致配体被错误放置或出现化学上不可行的结合位点。此外,仍存在立体化学(chirality)与关键键长/键角的偏差问题,需要有经验的化学家手动复核。

优势(排名能力): 多项评估显示 Boltz-2 在定性排序任务上表现稳健,能较好识别同系物中哪个更可能更有活性,适用于 hit-to-lead 阶段的候选优先级划分。 使用 Uni-FEP 大型基准的评估(覆盖 15 个蛋白家族)也显示出对 GPCRs、激酶等具有鲁棒性。同时,模型在面对某些公共数据库(如 ChEMBL)中的标签噪声时,仍能做出合理预测,表明其不是单纯的记忆训练集。

局限(精确性): 在精细化排序或绝对结合能预测上存在不足。Semen Yesylevskyy 在 PL-REX 数据集上的评估指出 Boltz-2 仅相较最近的机器学习竞争方法有 5–7% 的改进, 属于“渐进性改进”而非革命性飞跃 。另一个常见问题是预测值集中在窄范围(常见在 ±2 kcal/mol 以内回归到均值),也就是说当实验值跨越更宽区间时,模型的预测会回归中心(regressing to the center)。 尤其在处理“埋藏水分子”(buried water)参与的结合位点时,Boltz-2 的表现明显弱于物理学方法,这是 FEP 等方法的最后一道“堡垒”。

泛化 vs 记忆

社区中关于 Boltz-2 的最大讨论之一是:模型 是在学习普遍的生物物理规律,还是在“记忆”与插值训练集中的化学空间? 一些资深计算化学家(如 Pat Walters、John Taylor)警示数据泄漏(data leakage)与训练/测试集之间隐含重叠的风险:公共数据库(PDBbind、ChEMBL 等)中存在大量重叠或相似样本,可能导致在公开基准上的高分并不能代表对新颖化学骨架的真实泛化能力。

最令人担忧的证据来自制药公司私有数据的评估:在这些包含新颖化学类型与靶点变体的内部数据集上,Boltz-2 的性能明显下降,这暗示模型在公共数据上的表现部分依赖于训练集的覆盖范畴,而非真正学会可迁移的判别规则。另外,早期用户反馈指出模型的 高假阳性率(约 40%):即每 10 个被模型标注为“有希望”的化合物中,大约 4 个在实验中无法复现活性,这在实际发现流程中会带来可观的验证成本。

综合来看:Boltz-2 的输出不能直接信任为“实验级结论”,必须经过严谨的实验验证,它是引导实验而非取代实验的工具。

从 FEP-killer 到 Affinity funneling

Hype(宣传): 有声音宣称 Boltz-2 将彻底取代 FEP 等物理学方法,实现“一次性”解决亲和力预测问题,把传统重计算成本的环节快速替代掉。

Reality(现实): 更多的独立测试表明 Boltz-2 是“显著但增量的进步”,最适合作为高通量筛选与优先级排序的顶层工具,从而把“搜索空间”缩小到一个可由 FEP/NES 等“金标准”方法精细评估的子集。 基于此形成的 “Affinity funneling(亲和力漏斗)” 工作流被广泛接受:

使用 Boltz-2 在百万级虚拟库上进行快速筛选(top of the funnel),将化学空间浓缩为数千个优先候选;

在中层用 Docking / 更精细的 ML/物理混合策略进一步筛减;

在下层(bottom)对数百至数十个候选使用 NES/FEP 等严格物理学方法做最终精确打分与排序;

最终进入实验验证的仅为最有希望的小批量分子,从而高效利用实验与高性能计算资源。

未来方向

1. 提高泛化能力: 突破训练集依赖,需引入更多多样化、高质量、多模态的数据集,尤其要包含高度柔性蛋白、变构位点与工业私有数据。为解决私有数据问题,可探索联邦学习或数据共享联盟的可能性。

2. 增强生物物理真实性: 把简单的蛋白-配体视角扩展为更完整的化学环境建模,包括显式建模必需的辅因子、金属离子与结构性水分子——这些常常是决定结合识别的关键因子,目前的遗漏是精确预测的一道限制。

3. 实现 AI 与物理方法的混合流程(hybrid methodologies): 利用 Boltz-2 的速度生成初步结构假设,然后用 MD / FEP 等物理方法对这些候选进行精炼与重评分,初步研究已显示这种组合显著降低物理不合理构象并提升准确性。作者建议将 ML 与物理模拟视为互补,而非竞争关系。

来源:寂寞的咖啡

相关推荐