摘要:研究人员利用人工智能模型(称为大型语言模型)在根据蛋白质序列预测蛋白质结构方面取得了重大进展。然而,事实证明,将这种方法应用于抗体更具挑战性,主要是因为这些蛋白质本身具有高度的可变性。
麻省理工学院的新人工智能模型可以更准确地预测抗体结构,从而有助于疾病治疗并简化药物发现。
利用这种模型,研究人员或许能够发现能够针对多种传染病的抗体药物。
研究人员利用人工智能模型(称为大型语言模型)在根据蛋白质序列预测蛋白质结构方面取得了重大进展。然而,事实证明,将这种方法应用于抗体更具挑战性,主要是因为这些蛋白质本身具有高度的可变性。
为了克服这一限制,麻省理工学院的研究人员开发了一种计算技术,使大型语言模型能够更准确地预测抗体结构。他们的工作可以让研究人员筛选数百万种可能的抗体,以找出可用于治疗SARS-CoV-2和其他传染病的抗体。
“我们的方法可以让我们扩大规模,而其他人则不能,以至于我们实际上可以在大海捞针,”西蒙斯数学教授、麻省理工学院计算机科学与人工智能实验室 (CSAIL) 计算与生物学小组负责人、新研究的资深作者之一 Bonnie Berger 说:“如果我们可以帮助阻止制药公司使用错误的药物进行临床试验,那真的可以节省很多钱。”
该技术专注于模拟抗体的高变区,也有可能分析个体的整个抗体库。这可能有助于研究对艾滋病毒等疾病有超级反应的人的免疫反应,以帮助弄清楚为什么他们的抗体能如此有效地抵御病毒。
麻省理工学院生物工程副教授、麻省总医院、麻省理工学院和哈佛大学拉根研究所成员 Bryan Bryson 也是这篇论文的资深作者,该论文最近发表在《美国国家科学院院刊》上。前 CSAIL 研究科学家、现任杜克大学生物统计学和生物信息学及细胞生物学助理教授的 Rohit Singh 和 Chiho Im ‘22 是这篇论文的主要作者。赛诺菲和苏黎世联邦理工学院的研究人员也参与了这项研究。
建模高变异性蛋白质由长链氨基酸组成,这些氨基酸可以折叠成大量可能的结构。近年来,使用 AlphaFold 等人工智能程序,预测这些结构变得容易得多。许多这样的程序,如 ESMFold 和 OmegaFold,都是基于大型语言模型,这些模型最初是为分析大量文本而开发的,使它们能够学会预测序列中的下一个单词。同样的方法也可以用于蛋白质序列——通过了解哪些蛋白质结构最有可能由不同的氨基酸模式形成。
然而,这种技术并不总是适用于抗体,尤其是抗体中被称为高变区的片段。抗体通常具有 Y 形结构,这些高变区位于 Y 的尖端,它们在那里检测并结合外来蛋白质(也称为抗原)。Y 的底部提供结构支撑并帮助抗体与免疫细胞相互作用。
高变区的长度各不相同,但通常包含少于 40 个氨基酸。据估计,人类免疫系统可以通过改变这些氨基酸的序列产生多达 1 千万亿种不同的抗体,有助于确保身体能够对大量潜在抗原作出反应。这些序列不像其他蛋白质序列那样受到进化的限制,因此大型语言模型很难学会准确预测它们的结构。
“语言模型能够很好地预测蛋白质结构的原因之一是,进化限制了这些序列,而模型可以解读这些限制的含义,”Singh 说:“这类似于通过查看句子中单词的上下文来学习语法规则,让你弄清楚它的含义。”
为了对这些高变区域进行建模,研究人员创建了两个基于现有蛋白质语言模型的模块。其中一个模块使用蛋白质数据库 (PDB) 中发现的约 3,000 个抗体结构的高变序列进行训练,使其能够了解哪些序列倾向于产生相似的结构。另一个模块使用将约 3,700 个抗体序列与它们结合三种不同抗原的强度相关联的数据进行训练。
由此产生的计算模型称为 AbMap,可以根据抗体的氨基酸序列预测抗体的结构和结合强度。为了证明该模型的实用性,研究人员用它来预测能够强烈中和 SARS-CoV-2 病毒刺突蛋白的抗体结构。
研究人员从一组预测会与该靶标结合的抗体开始,然后通过改变高变区生成数百万个变体。他们的模型能够识别最成功的抗体结构,比基于大型语言模型的传统蛋白质结构模型准确得多。
然后,研究人员采取了额外的步骤,将抗体聚类成具有相似结构的组。他们与赛诺菲的研究人员合作,从每个簇中选择抗体进行实验测试。这些实验发现,82% 的抗体比模型中原始抗体的结合强度更高。
研究人员表示,在开发过程的早期识别出各种优秀的候选药物可以帮助制药公司避免花费大量资金测试最终失败的候选药物。
“他们不想把鸡蛋都放在一个篮子里,”Singh 说:“他们不想说,我要用这种抗体进行临床前试验,然后发现它是有毒的。他们宁愿有一系列好的可能性,并将它们全部进行试验,这样如果其中一个出了问题,他们还有一些选择。”
利用这项技术,研究人员还可以尝试解答一些长期存在的问题,即为什么不同的人对感染的反应不同。例如,为什么有些人会发展为更严重的新冠肺炎,为什么有些人接触艾滋病毒后从未被感染?
科学家们一直在尝试通过对个体免疫细胞进行单细胞RNA测序并进行比较来回答这些问题——这一过程称为抗体库分析。之前的研究表明,来自两个不同人的抗体库可能只有 10% 的重叠。然而,测序并不能像结构信息那样全面地反映抗体的性能,因为具有不同序列的两种抗体可能具有相似的结构和功能。
新模型可以帮助解决这一问题,快速生成个体中发现的所有抗体的结构。在这项研究中,研究人员表明,当考虑结构时,个体之间的重叠比序列比较中看到的 10% 要多得多。他们现在计划进一步研究这些结构如何有助于人体对特定病原体的整体免疫反应。
“语言模型非常适合这个领域,因为它具有基于序列的分析的可扩展性,但接近基于结构的分析的准确性,”Singh 说。
该研究由赛诺菲和阿卜杜勒·拉蒂夫·贾米尔健康机器学习诊所资助。
参考文献:Rohit Singh、Chiho Im、Yu Qiu、Brian Mackness、Abhinav Gupta、Taylor Joren、Samuel Sledzieski、Lena Erlach、Maria Wendt、Yves Fomekong Nanfack、Bryan Bryson 和 Bonnie Berger 撰写的“学习抗体高变异性的语言”,2024 年 12 月 30 日,《美国国家科学院院刊》。DOI:10.1073/pnas.2418918121
来源:康嘉年華