摘要:2024年11月13日,浙江大学生命科学学院寿惠霞课题组联合陈铭教授团队,安徽农业科学院胡国玉老师,在Genomics, Proteomics & Bioinformatics上在线发表了题为SoyOD: An Integrated Soybean Multi
2024年11月13日,浙江大学生命科学学院寿惠霞课题组联合陈铭教授团队,安徽农业科学院胡国玉老师,在Genomics, Proteomics & Bioinformatics上在线发表了题为SoyOD: An Integrated Soybean Multi-omics Database for Mining Genes and Biological Research的研究论文。该论文发布了该课题组新获得的基因组、转录组和表型组学数据及构建的组学数据网站SoyOD,SoyOD数据库一站式提供大豆遗传基因和功能挖掘所需的数据和分析工具。SoyOD的访问地址为 https://bis.zju.edu.cn/soyod。
我国是大豆的起源地,拥有丰富的大豆种质资源,重视收集、研究和利用大豆品种资源,从中挖掘高产、优质等具有重要育种价值的关键基因,是振兴我国大豆产业的重要支撑。随着高通量测序技术的飞速发展,目前大豆基因组学研究已积累了数千种大豆种质资源的遗传变异信息及其他多维组学数据,但现有数据库未能及时整合完整的数据集,限制了大豆研究的数据利用效率。新开发的多组学数据库SoyOD(Soybean Omics Database)发布了来自本研究的新组学数据,并融合了来自多个数据集的丰富信息,为大豆功能基因同时提供了数据和交互式在线工具包,该数据库可大大助力大豆生物学的深入研究。
SoyOD数据库在基因组模块收集了59个已发表的大豆基因组,即6个多年生大豆基因组、47个染色体水平基因组和6个完整的T2T基因组。该模块包含多个子模块,具体包括组装基因组、基因浏览、基因搜索、转录因子、转座子和同源基因等功能(图1);转录组模块整合了1,097个转录组文库,并将这些文库映射到多个不同的参考基因组上,获取了包括组织表达、不同种子发育时期、不同种质资源中的组织表达和种子发育、以及非生物和生物胁迫下的养分吸收和共表达等信息;表型组模块包含4,097个大豆种质资源的表型数据和约2,500张表型图像,涵盖了225个表型。用户可以通过输入种质资源的名称或ID以及感兴趣的性状来检索和收集相关数据,允许用户通过相关图像深入探索不同种质的特征,有效避免不同品种之间的混淆(图2);在群体模块,数据库收集了3,904个种质资源的重测序数据,其中包括生成了719,573个单核苷酸多态性(SNP)和753,361个插入缺失变异(InDels)。在共线性模块中,对55个组装的基因组进行了比较基因组分析,获得了结构变异和共线性等信息。
与已有大豆数据库相比,SoyOD涵盖了最新的大豆数据集,包括59个基因组、398,485条表型记录和1,097个转录组数据,其中940份大豆种质资源的高深度测序、162组种子发育期的转录组测序、53类表型数据的测定及2500多幅表型图片为本研究的源头数据。其次,SoyOD的用户界面友好直观,并支持多模块交互使用,用户可以轻松检索基因注释、表达水平、同源基因和相关QTL信息。
图1. SoyOD的数据来源和结构
图2.大豆种质资源的表型
浙江大学生命科学学院寿惠霞教授、陈铭教授,安徽省农科院作物所胡国玉副研究员为本文共同通讯作者;浙江大学生命科学学院在读博士生李杰、倪清扬为论文共同第一作者。本研究得到国家十四五重点研发计划“揭榜挂帅”项目(2021YFF1001204)、浙江省重点研发计划项目(2021C02057)等资助。
来源:小黄的科学讲堂