冷冻电镜(Cryo-EM)中的人工智能

摘要:与传统的X射线晶体学和核磁共振等技术相比,冷冻电镜能够在近原子分辨率水平上对各种规模的生物分子及其复合物进行全方位表征。这一"分辨率革命"得益于硬件设备的升级和图像处理软件的进步。特别是在单颗粒分析领域,该技术能够揭示分子间的构象变化和复合物中的柔性区域,为理

半导体工程师 2024年11月20日 09:43 北京

自2013年以来,冷冻电镜(cryo-EM)技术在生物分子结构研究领域取得了突破性进展,其独特优势使其成为结构生物学领域最具影响力的研究方法之一。

与传统的X射线晶体学和核磁共振等技术相比,冷冻电镜能够在近原子分辨率水平上对各种规模的生物分子及其复合物进行全方位表征。这一"分辨率革命"得益于硬件设备的升级和图像处理软件的进步。特别是在单颗粒分析领域,该技术能够揭示分子间的构象变化和复合物中的柔性区域,为理解生物分子功能机制提供了重要依据。

近年来,随着人工智能技术的快速发展,深度学习方法被广泛应用于冷冻电镜数据处理的各个环节,从颗粒拾取到三维重建,大大提高了结构分析的效率和准确性。这些创新不仅推动了结构生物学研究的进步,也为新药研发提供了重要的技术支持。然而,处理复杂的异质性样品仍然面临挑战,这也是未来技术发展需要重点解决的方向。

哈佛医学院:两台在300 keV 下运行的ThermoFisher Scientific Titan Krios,每台配备Flacon4i 直接电子检测器、Slectris能量过滤器和Volta相板,以及一台在200kV下运行的ThermoFisherScientific Talos Arctica,配备Volta 相板和Gatan K3 直接电子检测器。https://cryoem.hms.harvard.edu/instruments


2 预处理:颗粒拾取Particle Picking

在单颗粒冷冻电镜技术中,颗粒选择作为关键步骤之一,其重要性仅次于样品制备。由于需要采用低电子剂量以减少辐射损伤,获得的电镜图像往往存在噪声大、对比度低等问题,这给颗粒识别带来了巨大挑战。

传统的颗粒选择方法主要包括模板匹配、边缘检测和特征提取等。其中,模板匹配因其相对简单和直观的特点成为最广泛使用的方法。然而,这些方法都严重依赖于图像质量。当面对信噪比低或样品异质性强的情况时,这些方法的可靠性会显著下降。

在实际应用中,如果半自动选择方法(模板匹配)失效,研究人员往往不得不采用手动选择方法。这不仅耗时耗力,还可能引入主观偏差。这一困境凸显了开发更先进、更可靠的颗粒选择方法的迫切需求。现有技术的局限性也为未来研究指明了方向:如何在低质量图像和复杂样品条件下实现准确的颗粒识别,将是该领域的重要研究课题。

近年来,深度学习技术在冷冻电镜颗粒选择领域取得了显著进展。从早期的DeepPicker和DeepEM到新一代的TOPAZ、WARP和crYOLO,自动化颗粒选择工具经历了重要的演变。

早期工具如DeepPicker和DeepEM采用卷积神经网络(CNN)技术,通过滑动窗口方法处理电镜图像。这些工具虽然开创性地实现了自动化颗粒识别,但存在计算成本高、样本需求大等局限性。特别是在处理大颗粒或存在冰污染的样品时表现不佳。

备注:卷积神经网络(CNN)是一种受生物过程启发的深度学习算法,通过接受输入图像并为图像的各个方面分配重要性(权重和偏差)来区分彼此。与多层感知器类似,每个卷积层在网络内都是相连的;也就是说,一层的值作为下一层的输入,使算法能够学习复杂的模式。

新一代工具针对这些问题提供了创新解决方案。TOPAZ通过正-未标记学习方法显著减少了训练样本需求;WARP利用深度残差网络提高了处理效率;而crYOLO采用YOLO技术,实现了单次图像传递即可完成识别的突破。这些改进大大提高了颗粒选择的效率和准确性。

备注:crYOLO利用称为"You Only Look Once"(YOLO)的目标检测方法,这是深度神经网络在速度和准确性方面的最新方法。crYOLO的优势在于它只需要对完整图像进行一次传递,而不是对裁剪区域进行多次传递。此外,由于crYOLO使用完整图像的单次传递,它更适合检测感兴趣颗粒周围的更大环境。

然而,当前深度学习方法仍面临着低信噪比图像处理的挑战。随着冷冻电镜数据集规模的扩大,如何在低信噪比条件下保持较高的检测准确率,将是未来研究的重要方向。

这一领域的发展表明,深度学习技术正在革新传统的颗粒选择方法,但仍需要进一步优化以应对新的挑战。

3. 三维(3D)图谱重建

单颗粒冷冻电镜(SPA cryo-EM)作为现代结构生物学的重要工具,通过独特的三维重建方法实现了对生物大分子的原子级观察。这项技术的核心在于将二维投影图像转化为精确的三维结构模型,其过程融合了物理学与数学的深刻原理。

在传统的三维重建方法中,投影匹配技术通过比对未知姿态与参考模型来确定图像方向。然而,由于冷冻电镜采用低剂量电子束以避免样品损伤,导致图像信噪比较低,这种方法在实际应用中面临着精确度与计算效率的双重挑战。

备注:投影匹配,即通过将未知姿态与计算机生成的初始三维参考模型进行比较来确定每个实验图像的未知姿态。虽然投影匹配方法相对简单,但在较低信噪比下姿态估计的准确性显著降低,因此投影匹配需要较高的计算成本。

为克服这些局限,研究者们引入了基于统计学的最大似然方法,该方法不再简单地为每个颗粒图像指定单一姿态,而是赋予多个可能的方向及其权重。近期,随机梯度下降算法的应用进一步推动了这一领域的发展,尽管在实现完全无偏估计方面仍存在改进空间,但其为深度学习在冷冻电镜领域的应用开辟了新途径。

备注:最大似然方法意味着每个单颗粒图像并不直接被分配单一姿态(最佳匹配)。相反,每个颗粒图像被赋予一组可能的方向和相似性得分,这些最终用作三维重建中的权重。在每次迭代过程中,估计得分不断改善,直到满足收敛标准。

这些方法的演进展示了结构生物学与计算科学的紧密结合,为生命科学研究提供了越来越精确的观察工具。随着技术的持续改进,单颗粒冷冻电镜必将在揭示生物大分子结构方面发挥更加重要的作用。

3.1. 模型构建、三维分类和三维细化

生物大分子的结构与功能研究一直是生命科学领域的核心课题。传统上,科学家们主要通过静态三维结构来推测分子机制,但这种方法难以完整展现生物大分子的动态特性。近年来,单颗粒冷冻电镜(SPA)技术的发展为解决这一问题提供了新的可能。

传统的SPA图像处理方法主要依赖离散分类,如三维分类和异质性细化。这些方法虽然可以获得高分辨率结构,但存在明显局限:它们无法有效描述类别之间的关系,且在处理连续构象变化时表现欠佳。为克服这些限制,研究者们提出了三维变异性分析(3DVA)等新方法,但这些方法仍可能因线性插值产生伪影。

随着人工智能技术的进步,深度学习算法在SPA领域展现出巨大潜力。CryoGAN、CryoDRGN和3DFlex等创新方法的出现,使得研究者们能够更准确地描述生物大分子的动态特性。这些方法各具特色:CryoGAN利用改良的生成对抗网络,CryoDRGN采用变分自编码器,而3DFlex则使用自解码器模型。尽管这些新技术在计算资源需求上存在差异,但它们都为揭示生物大分子的动态本质提供了重要工具。

这些技术的进步不仅推动了结构生物学的发展,更为深入理解生命过程提供了新的视角。

3.2.后处理

随着冷冻电镜技术的快速发展,高分辨率三维电镜图谱的重建已经成为揭示生物分子结构的重要手段。然而,如何准确评估和验证这些三维图谱的分辨率仍然是一个具有挑战性的问题。

传统的分辨率评估方法主要依赖于傅里叶壳层相关(FSC)曲线。这种方法虽然被广泛使用,但存在需要设置参考阈值且对数据集的各向同性过滤不敏感等局限性。为了克服这些缺陷,多种局部分辨率评估方法相继被开发,如BlocRes、ResMap和MonoRes等。这些方法各具特色,但都面临计算成本高、需要额外噪声估计等共同问题。

近年来,随着深度学习技术的兴起,基于神经网络的分辨率评估方法开始崭露头角。其中,DeepRes作为一种基于CNN的方法,展现出了独特优势,尤其是在处理各种后处理程序引起的图谱质量变化方面。这表明深度学习方法在解决传统评估技术的局限性上具有巨大潜力。

尽管取得了这些进展,但目前仍然缺乏一个被普遍认可的标准方法。这意味着在冷冻电镜领域,继续开发和完善分辨率评估方法,特别是探索深度学习的应用潜力,将是一个重要的研究方向。

4. 原子模型构建

近年来,冷冻电镜技术取得了突破性进展,特别是在仪器设备和分析工具方面的创新,使得科研人员能够深入研究难以分析的生物系统结构。值得注意的是,通过冷冻电镜获得的高分辨率结构图谱数量正在快速增长,甚至接近传统X射线晶体学方法的成果数量。

然而,结构分析的目标不仅仅是重建原子细节的3D图谱,而是要理解这些原子结构对生物大分子之间相互作用等分子机制的启示。在这方面,仍有很大的发展空间。

图2.过去7年里在给定分辨率范围内电子显微镜数据库(EMDB)的条目数量。EMDB(Electron Microscopy Data Bank)即电子显微镜数据库。它是一个用于存储生物样本的cryo-EM三维图像数据及相关实验数据的公共数据库


当前冷冻电镜技术仍面临着重要挑战。尽管高分辨率(

这对于具有高度灵活性和多构象状态的大分子复合物,获取高分辨率结构仍然困难重重。

备注:最近通过冷冻ET亚断层平均获得的中等分辨率图谱数量增加,这是冷冻电镜领域发展最快的方法,迫切需要针对中等分辨率电镜图谱的准确结构测定方法。实际上,截至2022年,提交给EMDB的约4000张中等分辨率(约5-8 Å范围)图谱中,只有约2000张有完整的原子结构。


为应对这些挑战,科研界正在积极探索新的解决方案。传统的模板拟合方法虽然可行,但往往需要较高的专业知识和经验。而新兴的深度学习方法,如Emap2sec和EMBuild,展现出自动化处理中等分辨率图谱的潜力。这些创新方法不仅提高了结构分析的效率,也为未来冷冻电镜技术的发展指明了方向。

备注:Emap2sec实现了一种基于CNN的算法,具有在整个3D图谱中执行局部结构检测的优势。EMBuild不仅在SPA电镜图谱(4-8 Å)上进行了评估,还在通过亚断层平均获得的图谱(4-9 Å)上进行了评估,并在将可靠的原子结构构建到中等分辨率3D图谱中显示出优异的性能。

5. 冷冻电镜技术与人工智能的融合发展

冷冻电镜技术在"分辨率革命"的推动下取得了显著进展,使我们能够更深入地了解大分子复合物的结构与功能。然而,由于这些复合物本身的异质性特征,传统分析方法在处理复杂数据时面临着诸多挑战。

为应对这些挑战,基于深度学习的新方法应运而生。特别是CNN模型在图像分类和颗粒识别方面展现出卓越性能,极大地推进了冷冻电镜数据处理的自动化水平。同时,新型神经网络算法的开发也使得异质样品的高分辨率3D结构重建成为可能。

当前研究重点正在从单纯的体外纯化样品分析,转向更具挑战性的天然细胞提取物研究。这一转变使得科学家们能够在更接近生理条件的环境中研究蛋白质群落。虽然细胞提取物的复杂性给分析带来了新的挑战,但基于AI的结构预测工具的出现为解决这些难题提供了新的可能。

参考文献 Artificial Intelligence in Cryo-Electron Microscopy https://doi.org/10.3390/life12081267

本文回顾了使用AI来自动化颗粒拾取、三维图重建和局部分辨率确定等数据分析步骤的新工具并讨论了AI的应用如何推动该领域向前发展,以及仍然存在哪些障碍。最后介绍了AI在使用冷冻电镜理解细胞中蛋白质群体方面的潜在未来应用。

来源于老千和他的朋友们,作者孙千

半导体工程师半导体经验分享,半导体成果交流,半导体信息发布。半导体行业动态,半导体从业者职业规划,芯片工程师成长历程。238篇原创内容公众号

来源:芯片测试赵工

相关推荐