摘要:随着测序成本的大幅下降,对大规模自然人群队列实施全基因组和多组学测序及多尺度表型数据收集,已成为精准医学研究的一种重要手段。诸如英国生物样本库(UK Biobank)涵盖的50万人、美国精准化医学研究项目 (Trans-Omics Precision Medi
随着测序成本的大幅下降,对大规模自然人群队列实施全基因组和多组学测序及多尺度表型数据收集,已成为精准医学研究的一种重要手段。诸如英国生物样本库(UK Biobank)涵盖的50万人、美国精准化医学研究项目 (Trans-Omics Precision Medicine Program, TOPMed) 涉及的20万人、美国基因组测序计划 (Genome Sequencing Program, GSP) 计划的35万人和中国慢性病前沿研究项目的50万人等,已收集了海量的健康信息,并完成了对上百万计的全基因组测序,发现了近十亿个遗传变异位点,其中罕见变异占比率超过99%【1,2】。很多复杂性状具有共同的遗传基础,多性状联合分析可以检测出多效性基因,提高检验的统计功效。然而现有的罕见变异分析方法关注于单性状分析【3,4】,忽视了致病性多效性基因的检验。
2025年2月7日,哈佛大学林希虹院士、北卡罗来纳大学教堂山分校厉希豪助理教授、东北师范大学教授李子林、哥伦比亚大学助理教授刘中华等在Nature Computational Science杂志上发表了题为“A statistical framework for multi-trait rare variant analysis in large-scale whole-genome sequencing studies”的研究论文,发展了大规模全基因组测序数据多性状罕见变异分析方法MultiSTAAR,系统性地提高了多效性基因和区域的罕见变异检验功效。
MultiSTAAR方法发展了一种基于多元线性混合模型和功能知情分析框架的多性状罕见变异分析方法 (图1) 。首先, MultiSTAAR通过多元线性混合模型控制人群结构和家系结构的混杂影响,刻画性状间的相关性,达到针对多效性基因分析时“增大样本量”的效果。其次,MultiSTAAR通过STAAR框架整合了多组学功能注释数据【3】,实现了多性状罕见变异功能知情分析,提升了分析功效。最后,通过集成到全基因组一体化分析工具STAARpipeline中【5】,MultiSTAAR实现了分析流程自动化。这一研究为全基因组测序数据多性状分析提供了高效和高性能的统计分析方法和工具,填补了致病性多效性基因和区域检验的重要空白。
图1 MultiSTAAR分析框架和流程。a. MultiSTAAR框架。(i) 通过广义线性混合模型控制人群结构和家系结构的混杂影响,刻画性状间的相关性。(ii) 通过STAAR框架整合了多组学功能注释数据, 实现了多性状罕见变异功能知情分析。b. MultiSTAAR流程。(i) 输入数据,包括基因型和表型数据。(ii) 应用FAVORannotator工具得到全基因组功能注释数据、应用FastSparseGRM得到稀疏遗传相关性矩阵。(iii) 常见变异的单体分析。(iv) 罕见变异集合分析。分析单位包括以基因为中心分析中的编码基因组和非编码基因组的功能类别集和非以基因为中心分析中的滑动窗口。(v)分析结果汇总和可视化和条件分析。
研究团队将MultiSTAAR应用到TOPMed中的全基因组测序数据中,对多族裔的61,838个样本中的3种脂质性状进行了多性状罕见变异分析,发现了与脂质性状显著相关的罕见变异。值得注意的是,MultiSTAAR发现了5个新的非编码罕见变异显着性关联,这些显著性关联均未在单性状分析中呈现。研究团队进一步在UK Biobank的170,104个全基因组测序样本中验证并复现了这些显著关联。这些结果表明,MultiSTAAR实现了多性状功能知情罕见变异分析。与单性状分析相比,通过引入性状间的相关性,提升了对多效性基因或区域分析的统计功效。
综上所述,MultiSTAAR方法实现了全基因组测序数据高效和高性能的多性状联合分析,为多效性致病基因的发现奠定了基础,有助于构建疾病和复杂表型的遗传图谱,推动精准预防和医疗的发展。MultiSTAAR的R软件实现可以从网站https://github.com/xihaoli/MultiSTAAR下载。
哈佛大学教授、美国国家科学院和医学院两院院士林希虹院士、东北师范大学教授李子林、哥伦比亚大学助理教授刘中华为本文的共同通讯作者,北卡罗来纳大学教堂山分校厉希豪助理教授为本文的第一作者。
参考文献
1. Taliun, D. et al. Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program. Nature 590, 290-299 (2021).
2. Halldorsson, B.V. et al. The sequences of 150,119 genomes in the UK Biobank. Nature 607, 732-740 (2022).
3. Li, X. et al. Dynamic incorporation of multiple in silico functional annotations empowers rare variant association analysis of large whole-genome sequencing studies at scale. Nature Genetics 52, 969-983 (2020).
4. Mbatchou, J. et al. Computationally efficient whole-genome regression for quantitative and binary traits. Nature Genetics 53, 1097-1103 (2021).
5. Li, Z. et al. A framework for detecting noncoding rare-variant associations of large-scale whole-genome sequencing studies. Nature Methods 19, 1599-1611 (2022).
BioART战略合作伙伴
(*排名不分先后)
BioART友情合作伙伴
来源:小科学家