摘要:酶是人类生活中不可或缺的天然催化剂,不仅助我们消化食物,还能增强香水香味、提高洗衣效率,甚至用于疾病治疗。科学家们正使用酶工程创造新酶,用于吸收温室气体、降解环境毒素、研发高效药物。
编辑 | 萝卜皮
酶是人类生活中不可或缺的天然催化剂,不仅助我们消化食物,还能增强香水香味、提高洗衣效率,甚至用于疾病治疗。科学家们正使用酶工程创造新酶,用于吸收温室气体、降解环境毒素、研发高效药物。
但是,酶工程受限于快速生成和使用大量序列功能关系数据集进行预测设计的挑战。
为了应对这一挑战,斯坦福大学(Stanford University)、西北大学(Northwestern University)的研究人员开发了一个机器学习 (ML) 引导平台,该平台集成了无细胞DNA 组装、无细胞基因表达和功能分析,可以快速绘制蛋白质序列空间中的适应度景观并优化酶。
他们利用该平台对 10,953 个独特反应中的 1217 种酶变体的底物偏好进行评估,从而设计出酰胺合成酶。
研究团队使用这些数据构建了岭回归(Ridge Regression)增强 ML 模型,用于预测能够生产 9 种小分子药物的酰胺合成酶变体。这九种化合物中,ML 预测的酶变体相对于母体活性提高了 1.6 至 42 倍。
该研究以「Accelerated enzymeengineering by machine-learning guided cell-free expression」为题,于 2025 年 1 月 20 日发布在《Nature Communications》。
工程酶有望对能源、材料和医药等应用产生变革性影响。为了制造这样的酶,需要改变蛋白质的氨基酸序列以增强其天然功能或促进新的化学反应。这个过程通常依靠定向进化的方式完成。
计算技术的出现加速了现有的定向进化方法。但是,快速构建数据集来导航巨大的序列空间仍然是一个挑战,特别是考虑到大多数基因型-表型联系在高通量酶工程活动中丢失。
在最新的研究中,科学家开发了一种高通量、ML 引导的方法,用于探索化学空间多个区域的适应度景观,以便对生物催化剂进行正向设计。
「我们开发了一种计算过程,可以让我们更快地设计酶,因为我们不必像现在这样使用活细胞来生产酶。」论文的通讯作者,斯坦福大学生物工程学教授 Michael Jewett 表示,「相反,我们使用机器学习来预测高活性设计酶,这些酶是由计算机建模的突变 DNA 序列设计而成,而不是在实验室中手工制作的。我们可以在几天内完成这些实验,而不是通常情况下的几个月。」
图示:机器学习引导的无细胞酶工程平台。(来源:论文)
该方法的一个关键特征是使用无细胞基因表达(CFE)系统,从而可以在设计-构建-测试-学习(DBTL)工作流程中快速合成和功能测试蛋白质。
该框架首先针对从酶底物混杂性评估中确定的特定化学转化,绘制具有单阶突变的酶变体的序列-功能关系。然后,这些数据用于拟合监督式岭回归 ML 模型(该模型增强了进化式零样本适应度预测器),并推断出活性增加的高阶突变体。
重要的是,ML 模型可以在普通计算机的中央处理器上运行,这使得整个方法易于使用且易于理解。
该框架独特地整合了 CFE 和诱变方法、机器学习,从而加速定向进化过程;还可以发散进化,将一种通用酶转化为多种专用酶。
「我们现在可以在计算机上完成所有这些工作。」他补充道,「我们不必运行 10,000 次化学反应来反复提高酶活性,而是可以使用机器学习模型来预测仍然具有同样效果的高活性变体。」
图示:McbA 的多样化可及化学空间表明它是一种能够合成多种高价值分子的生物催化剂。(来源:论文)
团队应用该框架对耐热海洋孢菌的 McbA 进行发散进化,将形成酰胺键的通用酶转化为多种不同的专用酶。酰胺键的生物催化形成(在药物、农用化学品、聚合物、香料、香精和其他高价值产品中普遍存在)与合成化合物相比具有独特的优势(例如,反应条件温和以及化学、立体和区域选择性),并促进可持续的生物制造。
McbA 是一种代表性的 ATP 依赖性酰胺键合成酶,参与了 marinacarboline 次级代谢物的生物合成。McbA 及其同源蛋白 ShABS35 已被证实具有较宽的底物范围,可以接受药物中常见的几种简单酸和胺。
结果显示,该团队的方法将 McbA 酶活性相对于野生型酶提高 1.6 至 42 倍,以产生 9 种化合物。
Jewett 说:「蛋白质的结构决定了它们的功能,而蛋白质的结构是由分子中氨基酸的序列形成的。定向进化是一个已有数十年历史的领域,它已经开发出通过改变氨基酸来改变蛋白质功能的能力。我们只是利用机器学习和计算机来加快这一进程。」
图示:快速生成序列适应度景观数据,用于 ML 引导的 McbA 定向进化。(来源:论文)
从理论上讲,该方法可以应用于任何酶,但需要在数据收集和 ML 模型生成方面进行针对特定反应的微调。
「我们可以探索可持续发展和生物经济领域的多种机会。你可以开始考虑一些分子,它们可以降解环境中的毒素,提高富含蛋白质的食物的生物利用度,或者其他分子,它们可以采用现有的需要高压、昂贵成分或毒性反应的工艺,使它们更快、更安全、更便宜,」Jewett 说。
不过,在数据收集方面,生物催化反应的实验筛选方法仍然是一个瓶颈。Jewett 说:「我们都知道人工智能需要大量数据,但目前还没有。」
图示:机器学习引导的设计不同的酰胺合成酶,用于多种小分子药物的生物合成。(来源:论文)
Jewett 指出,随着科学越来越多地使用机器学习模型来加速设计,这些数据需求只会增加。在这项研究中,Jewett 最终能够评估约 1,000 种产品和约 10,000 种化学反应中的约 3,000 种酶突变体,但他的数据需求要大几个数量级。
「如果我想变异一种酶来测试数万种变体。」Jewett 举了一个具体的规模化例子说道,「我可能会找到一些论文,但它们可能会报告 10 种变体的突变数据。不是数百种,不是数千种,更不是数万种反应,而是 10 种。因此,我们在数据方面还有很长的路要走,但我们会做到的。这是第一步。」
论文链接:
来源:周瑞简说科学