从想象到实现:计算分子设计中的“可合成性”误解

360影视 动漫周边 2025-09-17 19:29 1

摘要:今天为大家带来的是Huafeng Xu在Medium上面发表的一篇博客,在八月份我参加了上海交通大学的夏令营。很多教授都在做蛋白质的生成,我去请教为什么不做小分子呢,教授说可合成性是一个很大的问题。这篇文章在一个化学家的视角讨论了为什么在Xu看来可合成性不是瓶

今天为大家带来的是Huafeng Xu在Medium上面发表的一篇博客,在八月份我参加了上海交通大学的夏令营。很多教授都在做蛋白质的生成,我去请教为什么不做小分子呢,教授说可合成性是一个很大的问题。这篇文章在一个化学家的视角讨论了为什么在Xu看来可合成性不是瓶颈。

在我们与人探讨“计算分子设计”时,几乎总会被问到一个问题,像某种仪式一般反复出现:

那合成得出来吗?”意思是:好吧,你的那个“平台”( GPU、生成模型、对接打分、自由能计算这些东西)确实能设计出那些能紧贴蛋白质、影响它们功能的分子。听起来很好,但那些分子真的能合成出来吗?真的能用原子一个一个地拼出来吗?这个时候就很难用一句“我们也考虑了这个”来轻松应对了。

这样我们从一个故事说起吧:当年,Jack Northrop 和他的团队在诺斯罗普公司首次提出“飞翼”设计,也就是后来成为B-2幽灵隐形轰炸机的雏形时,他们很清楚:这玩意儿,在任何一个正常的航空工程师看来,都不能叫“能飞”。它没有垂直尾翼,没有翅膀末端的安定装置,没有那些让人安心的小结构去维持飞行时的平衡。换句话说:没人能手动操纵它飞行。但他们也意识到了:正是这种“纯粹的机翼形态”,赋予了它极低的雷达反射面积,跟个蜜蜂差不多。(当时轰炸机的标准雷达回波相当于“一个谷仓”甚至“小镇”那么大。)

这时候于是他们说了句传奇的话:“我们会教它飞。” 是否“可行”,从来不是一个客观的自然常数。当没有物理定律被打破时,是否“可行”,其实取决于我们有多在乎、有多相信。如果目标足够重要、回报足够丰厚,我们就会想出办法。我们会发明线控飞行系统。我们会把稳定性写进软件代码里。我们会让原本无法飞行的东西飞起来。

这个道理在分子设计中,同样的道理也适用。

图1:从左到右:维生素 B12、B-2 Bomber、紫杉醇

如果我们真的相信某个分子足够好 —— 如果它足够新颖、足够有效、足以解决关键的生物问题 —— 那么化学家们,这群世界上最倔强、最具创造力的工匠,就会想办法把它做出来。

这不是盲目乐观,而是化学史的经验总结。比如维生素B12的全合成:它是自然界中已存在的分子,却复杂得令人发指。Robert Burns Woodward 和 Albert Eschenmoser 两位大师,动用了两个实验室、整整花了近十年,才在1972年成功完成合成。重点在于:可合成性不是一个非黑即白的判断,而是一个“愿意投入多少资源、时间和创造力”的函数。

这就回到了“分子计算设计”中的那个老问题:“你们考虑可合成性了吗?”背后的潜台词常常是:“你们能不能给每个分子打个分,告诉我们它好不好做?”在AI时代,这又进一步变成了:“能不能训练一个模型来预测这个分子是否容易合成?”很多人觉得这不可能 —— 因为数据库里很少有“难以合成”的分子,更别提“根本做不出来”的了,训练数据不平衡,模型必然不准。

但现实世界里的药物研发并不需要那样一个“可合成性打分系统”。

让我们按照药物研发的流程,分阶段来看。

第一阶段:Hit-Finding(找到Hit)

目标很简单:找到可以起步的化合物。这个阶段不需要那些必须通过不稳定中间体来合成的“molecular unicorns”。你要的是简单、实用、能尽快进入生物实验的分子 —— 最好是现成的、可以买的,或者只需稍作修改就能用。我们之所以叫它“分子库”,就是因为它真的像个图书馆:能被“借出”、能被直接拿来用。此时的可合成性考虑也很朴素:它已经被合成过了吗?或者我们知道怎么合成它吗?

第二阶段:Hit-to-Lead(从Hit到Lead)

你找到起点了,现在要往上爬。这一阶段的目标是:确认那些分子不是虚假信号;初步建立结构-活性关系(SAR);证明这些分子可以被“改造”得更强、更像药。这里,化学策略通常是两种:“套路内换料”:用和最初路线相似的方法,换不同的试剂或反应物;“搜近亲,不找陌生人”:查找那些与原始分子相似、并且可以轻松合成的分子。如果愿意更激进一点,你可以:把命中分子的活性核心(pharmacophore)提取出来;寻找其他保留这些关键相互作用的新骨架;这叫做“骨架跳跃”(Scaffold Hopping):化学结构变了,功能不变。目标仍然是:快速推进,避免合成上的“大动作”。所以这个阶段的可合成性也很现实:用已有的方法或库里的化合物,搞定就行。

第三阶段:Lead Optimization(候选优化)

到了这一步,就是拼真本事的时候了。你不只是要活性了,你要优化溶解度、代谢稳定性、选择性、口服生物利用度、毒性等等所有影响药物能否进入临床的因素。每一个原子都可能影响结果。这个时候,如果你真的相信某个分子能成为候选药物,你就会想办法把它做出来。这时,计算模型已经和实验充分联动。你可以用它筛选那些:与已知活性分子相似的;结构合理、没有奇怪官能团的;保留关键靶点相互作用的;热力学稳定的;药代动力学(ADME)预测好的。

这样,经过筛选后的候选分子就只剩几十个到几百个。数量小到什么程度?小到你完全可以一个一个去规划合成路线,根本不需要再打什么“可合成性分数”。而现在,AI辅助的逆合成分析(retrosynthesis)工具已经越来越成熟,能在几秒钟内给出合理的路线:考虑试剂、反应条件、步骤数、起始物采购情况,全都能自动处理。所以,在这个阶段,合成的考虑不仅是“可行性筛选”的一部分,更是“设计本身”的一部分。如果某个分子真的太难合成,通常可以找到结构上非常接近的“邻居”分子 —— 就差几个原子 —— 可以更容易地合成。然后,计算模型可以帮助你选出在保留药效的同时,合成更简单的那个。

04 总结

在今天的计算分子设计和药物研发中,“可合成性”几乎从未成为真正的瓶颈。它是一个可以被人类智慧解决的问题。不需要一个打分系统来衡量它是否可行。

只要我们对某个分子有足够的信心 —— 基于可靠的模型和实验数据 —— 总有人能把它做出来。

过去如此,现在也是。

参考资料:https://medium.com/@huafeng/on-synthesizability-4aae0372125c

来源:小刘说科学

相关推荐