摘要:OpenAI 正在进军蛋白质工程领域,并推出了 GPT-4b micro——一款专注于生物数据的语言模型,旨在提升蛋白质工程的效率。该模型与长寿研究公司 Retro Biosciences 合作,成功提高了 Yamanaka 因子的效率。这些因子能够将普通细胞
OpenAI 已经是一个大公司。
OpenAI 进军蛋白质工程,提升细胞重编程效率
OpenAI 正在进军蛋白质工程领域,并推出了 GPT-4b micro——一款专注于生物数据的语言模型,旨在提升蛋白质工程的效率。该模型与长寿研究公司 Retro Biosciences 合作,成功提高了 Yamanaka 因子的效率。这些因子能够将普通细胞转化为干细胞,而 GPT-4b micro 将其中两个关键因子的效果提升了超过 50 倍。这充分展示了 AI 在科学研究中的巨大潜力。
GPT-4b micro 的工作方式与谷歌的 AlphaFold 不同。AlphaFold 主要用于预测蛋白质的三维结构,而 Yamanaka 因子是一种异常松散且非结构化的蛋白质。因此,OpenAI 采用了不同的方法,其大型语言模型非常适合处理这类复杂的生物数据。该模型是基于来自多种物种的蛋白质序列示例以及蛋白质相互作用的信息进行训练的。Retro 的科学家们利用这一模型,通过“少样本”(few-shot)提示策略,引导模型为 Yamanaka 因子提出可能的重新设计方案。在这种方法中,用户先向模型提供一系列带有答案的示例,然后提出一个新问题,让模型生成相应的响应。
尽管基因工程师已经在实验室中开发出了指导分子进化的技术,但他们通常只能测试有限的可能性。即使是典型长度的蛋白质,也可以通过几乎无限的方式进行改变,因为它们由数百个氨基酸组成,而每种氨基酸都有 20 种可能的变体。然而,OpenAI 的模型能够提出对蛋白质中三分之一氨基酸进行改变的建议,并且在许多情况下,这些改变后的因子比原始的 Yamanaka 因子表现得更好。目前,我们还不清楚 GPT-4b micro 是如何得出这些优化建议的,这与 AI 模型的“黑箱”特性有关——就像 AlphaGo 曾经在围棋中击败顶尖人类棋手,但人们却花了很长时间才弄清楚其中的原因。
来源:老孙的科学课堂