摘要:在基因王国系列文章的序章中,我们介绍了遗传物质的初探,既有多位科学家通过三个实验证明了核酸是遗传物质,也有孟德尔这种天纵英才直接提出了遗传因子存在并给出了遗传规律的研究。(复习序章点这里!)
在基因王国系列文章的序章中,我们介绍了遗传物质的初探,既有多位科学家通过三个实验证明了核酸是遗传物质,也有孟德尔这种天纵英才直接提出了遗传因子存在并给出了遗传规律的研究。 (复习序章点这里!)
那么,遗传物质和基因是同一种东西吗?我们对基因的理解是什么样的呢?今天我们就来聊聊基因的问题。
基因——遗传物质的核心
明白了核酸是遗传物质,于是就可以 回归到我们最初的问题了,什么是基因?
根据简单的生物化学知识,就可以知道,核酸的基本组成很简单,就是四种核苷酸,分别是腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C),这四者排列组合,形成了我们的遗传物质DNA。
核苷酸
(图片来源:wiki)
形成核苷的含氮化合物,叫做碱基(base),这一部分根据具体的差异又可以分为ATGC四种。接下来是糖和磷酸基团组成的结构,这部分结构在DNA里是一模一样的,只有根据糖上面的氧差异分为脱氧核糖(DNA骨架)和核糖(RNA骨架)。
不过,又有一个问题出现了, 这些A、T、G、C到底是怎么样的组合,到底有什么意义呢?它们是随机组合还是有规律的?它们的具体信息又是如何转换成为我们观察到的性状呢?不同生命的差异到底和DNA哪些地方有关呢?
这就像你面前放了一本英语书,你知道它肯定是用ABCDE等26个字母写成的,但是这本书具体内容是什么样的却不清楚。
而要解决问题,我们就必须翻开这本书,去了解DNA的A\T\G\C排序情况是什么样子。
A、T、C、G
(图片来源:亚利桑那州立大学)
这就引发了对DNA结构的科学探索, 当然,这个问题的解决也不能一蹴而就,而是要分步进行。
首先,我们要解决DNA的总体结构是什么样子。
不过这一点可不容易,在当时,我们没有更精细的观察手段,只能依靠推测,于是就有了不少理论,比如有人曾提出DNA是有四种核苷酸等量组成的“四核苷酸假说”。
直到1950年,查盖夫才首次确定,DNA中碱基A和T的数量相同,而G和C的数量相同,这一规则奠定了DNA结构中的碱基互补配对这个基础原则,即A=T,C=G。
有了这一原则,接下来,威尔金斯和富兰克林两位科学家开始用X-射线衍射来分析DNA晶体的结构,通过不断的尝试和改进,他们成功拍到了清晰的DNA衍射照片,就是下面这张著名的图。
DNA衍射图
(图片来源:wiki)
而正是看到了这张图,年轻的沃森和克里克共同提出了对DNA结构的猜测,那就是——双螺旋。 简单地说,DNA是两条链组成的结构,每条链上都是由ATGC组成,但它们并不是完全孤立的,而是两条链的每个位置都是互补配对的,也就是A=T,G=C,这就形成了稳定的双螺旋结构。
沃森和克里克
(图片来源:wiki)
这一发现可谓石破天惊,从投稿到发表Nature仅仅花了23天,几乎创造纪录,而发现者威尔金斯、沃森和克里克三人也很快共同获得了诺贝尔奖。这一发现后来也被人们和相对论、量子力学并列为20世纪自然科学三大发现,可见其分量。
当然,也有一丝遗憾,就是当初拍摄了那张至关重要照片的富兰克林却并没有拿到诺奖,因为她在1958年罹患癌症而去世,而这个发现是1962年才获得诺贝尔奖。
有了DNA双螺旋模型,不仅让我们找到了DNA的结构,更意味着我们找到了DNA复制机制,只要我们知道DNA的其中一条链的信息,就可以得出另一条链的信息,这就是碱基互补配对的魅力,而DNA复制自身的过程就是保留一条链的信息然后通过碱基互补配对来合成另一条链,这就是半保留复制。而这一点也为我们进一步解读DNA提供了基础, 于是,第二个问题就顺理成章出现了。
我们要考虑DNA的序列是什么样的?
要了解DNA的序列具体情况,也就是DNA上的ATGC的排列情况,那么就需要对其进行检测,这种做法在生物学上有个专有名词叫做测序(sequence)。
当然,既然DNA本身是一种核苷酸,所以科学家们就想到了用化学的方法来进行反应检测其到底是哪个核苷酸。
著名生物学家桑格创造性地找到了一种策略,他使用一种特殊的核苷酸-双脱氧核苷酸, RNA全名叫核糖核苷酸,DNA的核苷酸和RNA的核苷酸相比,脱了一个氧,所以叫脱氧核糖核苷酸,而这种双脱氧核苷酸,比DNA还多脱了一个氧。这导致它的化学特性有点特殊,那就是当DNA聚合酶移到这个位置的时候,因为双脱氧核苷酸结构上少了一个氧就无法延续下去,只能终止。这样一来,我们就可以根据双脱氧核苷酸的指示来判断这个位置到底是什么样的脱氧核苷酸了。
DNA测序流程
(图片来源:wiki)
这种方法的发明直接解决了DNA的测序问题,因此被称为第一代测序法。RNA测序也是要把它转换成为DNA,然后按照DNA测序来进行的。而第一代测序的发明,也为人类基因组计划的开展奠定了基础,我们在后面会聊这方面内容。顺便一提,桑格不仅对DNA进行了测序,也对蛋白质也进行了测序,这为他赢得了两座诺贝尔奖。
有了测序技术的出现,我们才正式打开了基因的世界,也将迎来生命科学尤其是分子生物学和遗传学的飞速发展。
这个时候,我们才可以正式讨论这个主要的议题——基因。
基因和基因组
实现了DNA测序后,我们终于知道了DNA上的ATGC排列情况,也就是序列,第一次完完整整地看到了基因的世界。原来,无论是中国人还是外国人,无论是动物还是植物,甚至是病毒, 真正决定各种性状的是一段长长的ATGC排列,这样的排列既有总量的差异也有碱基种类的差异,从而导致了我们各自不同。 比如,人类的一个正常细胞中的DNA总长度是30亿碱基对,斑马鱼是15亿碱基对,而酵母才1200万碱基对。
面对如此庞大的碱基序列组合,科学家们开始思考,这些碱基序列真的是随机排列的吗?还是有规律?整个DNA上的所有序列都在发挥作用吗?
科学家们试图对这些序列进行研究,于是诞生了真正的概念——基因(gene)。 一开始,研究人员发现,我们的DNA上,并非所有序列都是一样的,有一些序列总是频繁出现,而且呈现一些规律。在反复总结之后,他们命名了一些很有规律的序列,这些碱基序列往往是有规律地开始、有规律地结束,而且它们有一个重要的标志,就是可以在转录酶的帮助下转录成为RNA,并最终翻译成为蛋白质。
于是, 科学家们将其正式定义为基因。
基因序列
(图片来源:NIH)
也就是说, 在生物学上严格意义上的基因是指能够转录翻译成蛋白质的序列。 而我们的全部遗传信息也就有了相应的命名——基因组(genome),“组”这个词在生物学里也常用,通俗的理解就是全部的合集意思。
当然,很快,科学家们又发现,这样定义也不严格。
首先是,这样定义的话,其实基因占整个基因组的内容很少,比如,人类的基因加起来不到整个人类基因组的10%,那剩下的是什么东西?
其次,如果一段DNA序列,只产生多肽(蛋白质的一种初级结构),甚至只产生RNA,但是这个RNA也有作用,它是不是基因呢?
再次,很多时候产生一个蛋白可能需要多个片段同时作用,它们属于一个基因还是多个基因呢?
大家别小看这几个问题,它们将在未来产生非常重大的影响。所以,基因的定义目前还很模糊。对于生物医学科研人员来说,基因往往是指能够产生多肽链或功能RNA所需的全部核苷酸序列,而对于其他人来说, 基因根据不同的语境有不同的意 义。
比如,说“人和动物不同是基因决定”的时候,基因是指基因组;而说“喝酒脸红是基因决定”的时候,基因可能是指某一个碱基的变异。
由此可见,基因这个概念还真的很复杂,而且目前还没有完全定论,所以大家在聊基因的时候,最好明确一下自己提到的基因到底是哪个概念。
明白基因的概念之后,基因组是怎么回事?又有什么意义呢?我们下一篇来聊一聊。
来源:东窗史谈一点号