摘要:20多年前,当科学家首次进行人类基因组测序时,都惊讶于它包含的基因数量如此之少——似乎不到3万个基因及其编码的蛋白质就足以构建人体和维持运作,这甚至不及一些科学家预测数量的1/3。而近些年的统计将这一数字降至更低,约为2万个。
编译 | 徐锐
20多年前,当科学家首次进行人类基因组测序时,都惊讶于它包含的基因数量如此之少——似乎不到3万个基因及其编码的蛋白质就足以构建人体和维持运作,这甚至不及一些科学家预测数量的1/3。而近些年的统计将这一数字降至更低,约为2万个。
但一项针对“暗蛋白质组”的分析表明,科学家漏掉了数千个非传统基因。这些基因隐藏在此前被忽视的基因组片段中,且产生的蛋白质小于平均水平。这些新发现的基因及其产物可能颠覆人类生物学并加速医学发现。例如,一个新发现的非传统基因制造的迷你蛋白,似乎对儿童癌症至关重要。相关研究近日公布于预印本平台bioRxiv。
研究领导者之一、美国密歇根大学医学院的儿科神经肿瘤学家John Prensner之所以聚焦“暗蛋白质组”并开展深入研究,是因为他在搜索与癌症相关的基因时总是铩羽而归。
Prensner和同事扩展了基因的标准定义。研究人员所说的基因,通常是指DNA序列中具有编码蛋白质潜能的序列,被称为开放阅读框(ORF)。
经典ORF序列转录产生信使RNA(mRNA),后者进入核糖体,指导氨基酸序列组装成蛋白质。在大多数研究人员看来,如果一个ORF编码了由100个甚至更多氨基酸合成的蛋白质,那么它就符合一个基因的标准。此外,经典ORF前端还有一个DNA片段,后者吸引了读取基因所需的蛋白质。
但实际上,除了经典ORF外,还有许多非经典ORF广泛分布于整个基因组中。与经典ORF相比,这些非经典ORF缺少前端DNA片段,因此比平均水平更短。
非经典ORF序列通常被转录为RNA。这些RNA大多附着于核糖体上并被翻译成短氨基酸链或包含不到十几个氨基酸的蛋白质。许多科学家认为由此产生的迷你蛋白并不重要,是“噪声”,很快就会被降解。
但大约3年前,Prensner和同事证明癌细胞中含有约550个这种迷你蛋白。而荷兰玛西玛公主儿童肿瘤中心的系统生物学家Sebastiaan van Heesch两年前也在心脏组织中发现了类似数量的迷你蛋白。他们都意识到这些迷你蛋白并不是可有可无的,于是一拍即合,与GENCODE数据库的基因注释专家Jonathan Mudge等来自全球20家机构的几十名研究人员组成团队,通过分析梳理,评估了究竟存在多少非经典ORF。结果他们发现,到2022年,科学家已经在人类基因组中追踪到7264个非经典ORF。
为弄清这7264个非经典ORF中有多少能够产生蛋白质,研究团队在PeptideAtlas数据库中搜索了与这些非经典ORF匹配的迷你蛋白。结果表明,其中1/4能够产生蛋白质,总共约3000种(一种ORF由于被读取的方式不同会产生一种以上的蛋白)。
Prensner和van Heesch已经在追踪他们在“暗蛋白质组”研究中发现的非经典ORF,及其产生的迷你蛋白在癌症细胞中是否有重要作用。他们在此前发表的一项研究中指出,尽管迷你蛋白很微小,但它们却对髓母细胞瘤的存活至关重要。髓母细胞瘤是一种儿童后颅窝恶性胶质瘤。这些迷你蛋白有望成为生物标志物和药物靶点,发展出新的癌症治疗手段。
相关论文信息:
来源:中国科学报