GPB | 基因组学和泛基因组学时代高质量单倍型参考面板的现状、挑战与前景

360影视 国产动漫 2025-03-14 16:38 2

摘要:Genomics, Proteomics & Bioinformatics(GPB)在线发表了四川大学华西医院罕见病研究院/四川大学考古科学中心何光林课题组题为“High-quality Population-specific Haplotype-resolv

Genomics, Proteomics & Bioinformatics(GPB)在线发表了四川大学华西医院罕见病研究院/四川大学考古科学中心何光林课题组题为“High-quality Population-specific Haplotype-resolved Reference Panel in the Genomic and Pangenomic Eras”的综述文章。“要文译荐”栏目邀请到文章的第一作者,硕士研究生杨青鑫为大家介绍该综述的主要内容。

要点介绍

在基因组学和泛基因组学迅速发展的背景下,大规模国际性和区域性的人类基因组及泛基因组资源的涌现,为解析人类演化历史及复杂性状和疾病的遗传基础提供了重要见解,并衍生出大量单倍型参考面板(Haplotype Reference Panels, HRPs)的构建与应用。尽管近年来HRP相关研究取得了显著进展,但在定相(Phasing)工具的优化、不同HRP的整合、填补(Imputation)方法的开发,以及数据的多维应用与共享方面,仍面临诸多挑战。本综述系统总结了全球及特定群体中已构建的56个HRP,深入探讨了HRP在当代人类基因组学研究中的研究进展、应用局限性和未来发展方向,同时提供定相、填补软件及HRP选择的策略建议。我们强调,高质量HRP的构建对于全面捕获全球代表性人群中的各种遗传变异类型与遗传多样性至关重要,不仅有助于现代和古代基因组学研究,也进一步促进人类精准医学的发展。

研究背景

高深度全基因组测序(Whole Genome Sequencing, WGS)作为检测单核苷酸多态性(Single Nucleotide Polymorphisms, SNPs)和短片段插入/缺失(Insertions and Deletions, InDels)的金标准,在结构变异(Structural Variations, SVs)的初步筛查中也具有重要应用价值。然而,高昂的成本限制了其在大规模群体研究中的广泛应用。目前,基因组学研究主要依赖于基因芯片或低深度测序等经济型技术,尽管这些方法成本较低,但能够捕获的遗传信息有限。这一局限性在古DNA研究中尤为突出,由于样本降解和外源污染导致的数据覆盖度不足,严重影响遗传信息的完整解析。根据溯祖理论(Coalescent Theory),遗传背景相近的个体通常拥有从共同祖先继承的群体特异性单倍型片段。因此,群体特异性HRP由具有连锁不平衡(Linkage Disequilibrium, LD)特征的DNA序列组成,可用于推断和填补未被直接基因分型的常见、低频和罕见遗传变异,或在古DNA检测中缺失的变异信息。通过基因型填补,更多高质量的变异位点得以被利用,显著增强了全基因组关联研究(Genome Wide Association Study, GWAS)的统计效力,并为多基因风险评分、遗传谱系重建和人口统计学历史推断等分析提供了经济有效的解决方案。

现有的填补算法多基于隐马尔可夫模型,依赖群体特异性LD模式推断缺失基因型。然而,不同群体因突变率、重组率以及所经历的演化事件(如奠基者效应、基因渐渗、选择清除)的差异,其等位基因频谱与LD衰减特征呈现显著差异(图1A)。此外,HRP效能受多维因素调控:样本量、填补算法、目标位点频率、测序深度及群体遗传多样性等(图1B)。因此,构建一个能够全面涵盖全球人群遗传多样性的高质量整合HRP,并开发群体异质性的填补框架,已成为该领域的核心挑战。

图1 单倍型参考面板总览

本文系统综述了大规模基因组计划驱动的HRP开发与应用,重点探讨:(1)全球基因组计划驱动下的HRP构建策略及其地理-祖先代表性偏差;(2)定相和填补算法性能差异和组合使用策略;(3)公开可用的HRP的效能评估和高质量HRP整合的必要性(图1C);(4)填补数据在人类遗传学、基因组科学、基因组医学和法医学中的突破性应用;(5)端粒到端粒(Telomere-to-Telomere, T2T)参考基因组与泛基因组时代下,HRP应用的挑战和未来方向。

图2 已发表HRP的时空分布模式

研究内容

1. 全球及区域性人群单倍型参考面板研究进展

随着高通量测序技术的快速发展,大规模基因组计划得以广泛实施,推动了多个国际及区域性HRP的构建。截至2024年12月,用于HRP构建的全基因组测序样本量已超过830,000例,共涵盖56个HRP,主要分布于欧洲、北美和东亚等地区(图2)。然而,现有HRP存在显著的群体代表性偏倚,其中欧洲裔样本占比高达60.7%,远高于其他人群。这种群体代表性失衡导致许多代表性不足群体的单倍型多样性未能得到充分反映。值得注意的是,中国人群基因组研究中存在显著的汉族偏倚,这一现象也亟待解决(图3)。

图3 高质量HRP中的样本数量和祖先比例

2. 基因型定相与填补工具的性能差异

基于LD模式的基因型定相和填补工具的性能存在显著差异。研究表明,SHAPEIT、Beagle等主流定相工具与Beagle、IMPUTE、GLIMPSE等填补工具的组合效能会因研究群体的遗传背景、数据类型及位点频率而异。对于基因芯片数据,基于HRP使用Beagle进行定相和填补表现出最优效能;而对于低深度WGS数据,GLIMPSE则展现出更优越的性能。

3. HRP的群体匹配性与填补效能评估

关于HRP的选择与填补效能的相关性,现有研究尚未达成共识。本研究基于西湖大学和密歇根大学填补服务平台,使用人类基因组多样性计划中的东亚样本,对8个HRP进行系统评估(图4)。结果表明当研究群体与HRP的遗传背景相匹配时,填补准确性显著提高。特别是在研究群体具有较高的遗传同质性,或其遗传多样性在大型多祖先参考面板中得到充分代表时,这种优势更为显著。

图4 评估不同HRP的性能

4. 基因型填补的多学科应用

基因型填补技术作为现代遗传学研究的重要工具,在多个学科领域展现出显著的科研价值和应用潜力。在基因组医学和统计遗传学领域,该技术通过增加可分析的遗传变异数量,显著提升了GWAS的统计效能,同时实现了跨平台数据的有效整合,在确保成本效益的前提下提高了研究结果的可靠性,特别是在识别与复杂疾病相关的罕见变异方面具有独特优势。从群体遗传学视角,基因型填补不仅增强了数据的完整性,更为混合建模、生物适应性分析、古人类渐渗研究以及医学相关性解读提供了高分辨率的数据支持,极大地推进了人类演化历史的解析进程。在药物基因组学领域,该技术通过预测与个体药物反应相关的缺失基因组数据,推动了个性化药物治疗方案的优化,在药物靶点识别和药理机制阐释方面发挥了关键作用。在产前筛查应用中,基因型填补与非侵入性产前检测的超低深度测序数据相结合,显著提升了基因型数据的覆盖度和分辨率,为胎儿健康风险评估提供了更可靠的遗传学证据。古基因组学研究证实,对于测序深度高于0.5×的古代样本,基因型填补在常见变异的推断上具有极高的准确性,完整的二倍体古基因组数据为解析人类疾病和性状的起源及其时空演化模式提供了重要线索,有助于深入理解迁移、混合和自然选择等演化驱动力对疾病发生发展的影响机制。在法医学领域,基因型填补技术在疑难降解检材的分析中展现出独特优势,通过获取高质量、高覆盖度的基因组数据,显著提升了亲缘关系鉴定、人类遗骸等疑难检材的个体识别、法医表型预测、生物地理祖源推断以及法医系谱重建等方面的准确性和可靠性。这些跨学科应用充分体现了基因型填补技术在现代遗传学研究中的核心地位和广泛应用前景。

5. 展望与挑战

在HRP的构建与优化研究中,亟需纳入更多具有代表性的、民族语言多样性丰富的族群基因组数据。当前医学驱动的人类基因组学研究主要来源于都市地区参与者的数据,这种地域和群体的局限性不仅导致全球人群遗传多样性难以被全面捕捉,还可能加剧健康不平等,阻碍精准医疗和个性化医疗的推广。

高质量的基因组基础设施和先进的生物信息学算法是促进数据共享的关键。核心要素包括生物样本库、计算设施、资金策略、能力建设、全球合作联盟及利益相关方的支持。目前,基因组数据共享主要通过两种方式实现:联盟成员内部共享和基于云平台共享。然而,受数据安全、伦理、法律和社会影响等因素限制,大量基因组数据仍然受限访问或不可共享。为应对这一挑战,Recombine and Share Haplotypes方法和Meta-imputation从算法层面提供了集成多个HRP的策略。然而,要实现数据效用和隐私保护之间的平衡,仍需要计算机安全、遗传学、计算机科学、伦理学和隐私法领域专家的共同努力。

实现T2T水平的HRP构建及多种变异类型整合是未来的重要方向。基于T2T参考基因组和泛基因组的三代测序研究范式,为构建包含多祖先和多遗传变异类型的高质量HRP提供了新的机遇。长读长测序技术的应用显著降低了因定相错误带来的误差,提升了填补准确性。未来HRP的目标是构建基于T2T组装的泛基因组的参考面板(图5)。这一目标的实现将极大地推动全球人群遗传多样性研究,为精准医疗和个性化医疗提供更为全面和准确的遗传信息基础。

在多祖先整合与群体特异性HRP的权衡中,多祖先覆盖的HRP通过整合多祖源遗传数据显著扩展了单倍型多样性与变异频谱覆盖,尤其适用于跨群体或混合遗传背景的基因型填补;相比之下,群体特异性HRP通过聚焦特定人群的单倍型模式,在目标群体罕见变异解析和计算效率方面更具优势,其精简的遗传结构可降低算法复杂度并加速分析流程。因此,针对研究群体的遗传异质性程度,灵活选择匹配的HRP是优化填补精度的关键。

图5 在基因组学和泛基因组学时代,人类基因组的多样性和人类参考基因组的完整性协同发展,多维度(基因组/泛基因组项目、测序技术革新、遗传变异类型和参考基因组)协同提升人类群体HRP的质量

审校人:

GPB青年编委何光林

文章编译来源:

Yang Q, Sun Y, Duan S, Nie S, Liu C, Deng H, et al. High-quality Population-specific Haplotype-resolved Reference Panel in the Genomic and Pangenomic Eras. Genomics Proteomics Bioinformatics 2025. https://doi.org/10.1093/gpbjnl/qzaf022

英文全文详见:

作者及资助情况:

四川大学华西医院罕见病研究院/四川大学考古科学中心何光林副研究员、重庆医科大学基础医学院法医学系王萌鸽副教授及昆明医科大学法医学院邓虹教授为本文共同通讯作者;昆明医科大学法医学院/四川大学联合培养硕士研究生杨青鑫为本文的第一作者。该研究得到国家自然科学基金、国家社会科学基金重大项目、法医遗传学公安部重点实验室开放课题、四川大学考古科学中心重点项目、四川大学华西医院学科卓越发展1·3·5工程基金和四川省科技计划项目的资助与支持。

GPB论文:

High-quality Population-specific Haplotype-resolved Reference Panel in the Genomic and Pangenomic Eras

来源:微生物组

相关推荐