Nature | DNA的“俄罗斯套娃”:PADIT-seq揭示了一个颠覆教科书的转录因子结合新模型

360影视 日韩动漫 2025-09-06 17:26 1

摘要:生命,这部由DNA谱写的壮丽史诗,其最核心的篇章在于基因的精准表达——在何时、何地、以何种强度开启或关闭特定的基因。这背后,一群被称为“转录因子 (Transcription factors, TFs)”的蛋白质扮演着乐团指挥的角色。它们通过识别并结合DNA上

生命,这部由DNA谱写的壮丽史诗,其最核心的篇章在于基因的精准表达——在何时、何地、以何种强度开启或关闭特定的基因。这背后,一群被称为“转录因子 (Transcription factors, TFs)”的蛋白质扮演着乐团指挥的角色。它们通过识别并结合DNA上的特定序列(即结合位点),如同指挥家挥动指挥棒,精确调控着基因转录的节奏与和谐。长久以来,分子生物学的经典模型将这种识别描绘成一种近乎“钥匙与锁”的静态关系:一个转录因子识别一个核心的、高亲和力的结合位点。然而,越来越多的证据暗示,在这幅看似清晰的蓝图之下,隐藏着一片广阔而神秘的“灰色地带”——由无数低亲和力结合位点构成的未知领域。这些微弱的相互作用,如同交响乐中若有若无的背景和声,可能对基因表达的精细调控至关重要,但传统的“火眼金睛”却难以捕捉它们的踪迹。

9月3日,《Nature》的研究报道“Multiple overlapping binding sites determine transcription factor occupancy”,为我们揭开了这片神秘领域的面纱。研究人员开发了一种创新的高通量技术,不仅以前所未有的灵敏度绘制出了转录因子的完整结合图谱,更重要的是,他们基于这些新发现提出了一个颠覆性的“重叠结合位点 (overlapping binding sites)”模型。这个模型如同一只精巧的俄罗斯套娃,揭示了DNA序列中信息编码的惊人深度与层次感,为我们理解基因调控、物种进化乃至人类疾病的遗传基础,提供了一个全新的、更为深刻的认知框架。

在转录因子研究领域,传统的“利器”主要是凝胶阻滞实验、蛋白结合微阵列 (protein-binding microarrays, PBMs) 和高通量配体系统进化技术 (HT-SELEX) 等。它们在鉴定高亲和力结合位点方面功不可没,但面对数量庞大、信号微弱的低亲和力位点时,往往显得力不从心。这就像使用一台标准望远镜观测星空,我们能清晰地看到明亮的恒星,却会错失构成星系主体的无数暗淡星辰。

为了突破这一技术瓶颈,研究人员巧妙地设计了一种名为“基于体外转录和RNA测序的蛋白亲和力检测技术 (Protein Affinity to DNA by in vitro Transcription and RNA sequencing, PADIT-seq)”。这项技术的构思十分巧妙:它不再直接测量蛋白质与DNA的结合本身,而是将“结合强度”这一物理化学事件,转化为一个可被高通量测序技术精准计数的“转录产物数量”。

其核心是一个体外合成的基因线路。首先,研究人员构建了一个巨大的DNA报告基因文库,其中包含了所有可能的一千万种以上的10个碱基对 (10-bp) 的DNA序列作为潜在的转录因子结合位点 (TFBSs)。当一个被特殊标记(ALFA标签)的转录因子结合到某个DNA序列上时,它会通过这个标签招募来一个经过改造的T7 RNA聚合酶。随后,这个聚合酶会启动下游报告基因的转录,产生RNA分子。关键在于,转录因子与DNA序列结合得越紧密(亲和力越高),招募来的聚合酶就越多,产生的RNA也就越多。最后,研究人员只需通过高通量测序对这些RNA进行计数,就能精确反推出转录因子对每一个DNA序列的亲和力大小。这个设计将一个原本难以捕捉的“亲和力”信号,成功转换并放大了为一个易于测量的“RNA丰度”信号。

这把新铸造的“探针”究竟有多锋利?研究人员用一系列实验给出了答案。他们首先将PADIT-seq的测量结果与另一种精确测量蛋白-DNA亲和力的技术MITOMI进行了比较。以转录因子EGR1为例,两种方法测量出的结合亲和力数值表现出惊人的一致性,其皮尔逊相关系数 (Pearson correlation) 高达0.94。这证明了PADIT-seq不仅灵敏,而且极其准确。

更激动人心的是它发现新大陆的能力。研究人员系统地检测了6个来自不同家族的转录因子,包括人类的HOXD13、NKX2.5、TBX5、EGR1和酵母的Pho4、Cbf1。结果令人震撼。以HOXD13为例,在传统的uPBM技术只能识别出约1,780个高亲和力的8-mer(8个碱基对的序列)结合位点时,PADIT-seq在5%的假阳性率 (False Discovery Rate, FDR) 控制下,发现了高达46,279个能显著激活转录的10-mer结合位点。这意味着,过去我们视野中的“结合版图”,可能只是冰山一角。

当与另一主流技术HT-SELEX进行“PK”时,PADIT-seq的优势更加凸显。通过受试者工作特征曲线 (Receiver Operating Characteristic curve, ROC) 来评估预测性能,曲线下面积 (Area Under the Curve, AUROC) 越接近1,表示性能越好。对于所有测试的转录因子,uPBM和PADIT-seq的吻合度极高,AUROC值普遍大于0.97。然而,HT-SELEX的表现则逊色不少,例如,对于HOXD13,即使是富集了4轮的HT-SELEX,其AUROC值也仅为0.848,远低于PADIT-seq所能达到的精度。进一步分析发现,HT-SELEX严重偏好于捕获那些亲和力最顶尖的序列,而系统性地遗漏了由PADIT-seq所发现的大量中低亲和力结合位点。正是这些被遗漏的“暗淡星辰”,为后续的颠覆性发现埋下了伏笔。

手握PADIT-seq这把利器,研究人员得以重新审视转录因子在真实细胞内的行为。他们分析了这6个转录因子在基因组上的结合区域,这些区域是通过染色质免疫共沉淀测序 (ChIP-seq) 技术确定的,代表了转录因子在细胞内的“落脚点”。过去,人们普遍认为ChIP-seq信号峰的出现,是因为其中心位置存在一个或多个高亲和力的结合位点。

然而,当研究人员将PADIT-seq发现的海量新位点叠加到ChIP-seq的图谱上时,一幅前所未见的景象出现了。在一个典型的HOXD13结合峰区域(例如位于Cadps基因附近),他们不仅找到了预期的高亲和力位点,更惊人地发现,在这个核心位点的周围,紧密排列着一串连续的、相互重叠的、具有中低亲和力的活性位点。具体来说,他们观察到了连续6个有活性的8-mer序列,它们像瓦片一样,每一个都与前一个序列有7个碱基的重叠,共同构成了一个更长的、具有复合结合能力的“超级位点”。

这个现象并非个例。通过对所有6个转录因子的ChIP-seq/ChIP-nexus结合峰进行系统性分析,研究人员发现,这些体内结合区域相比于随机的基因组背景区域,都显著富集了这种“连续重叠活性位点”的模式。例如,对于酵母转录因子Pho4,其结合峰中出现连续重叠位点的概率,与背景区域相比,其统计学P值达到了惊人的1.01 x 10⁻¹⁶⁸,这意味着这种现象绝非偶然。

这里需要特别强调的是,这种“重叠结合”模式与另一个大家熟知的概念“同型簇 (homotypic clustering)”有着本质区别。同型簇指的是多个独立的、不重叠的结合位点在空间上(通常间隔几十到几百个碱基)聚集,通过协同作用增强调控。而研究人员发现的重叠模型,则是指多个结合序列在物理上直接交织在一起,形成一个连续的、可被单个转录因子分子识别和结合的扩展区域。这暗示转录因子的结合行为,可能远比我们想象的要复杂和动态,它不是简单地踩在一个“点”上,而可能是在一个“面”上滑动和识别。

那么,这些由大量中低亲和力位点构成的重叠区域,在生物学功能上是否重要呢?进化给了我们答案。研究人员利用衡量基因组序列在不同物种间保守性的PhastCons评分,对这些区域进行了分析。结果显示,那些包含多个连续重叠活性位点的核心DNA区域,其保守性显著高于两侧的旁邻序列。这有力地表明,这些重叠的、看似“次要”的位点在漫长的进化过程中被选择性地保留了下来,它们很可能承载着不可或缺的生物学功能。

重叠结合模型无疑是一个极具吸引力的假说,但它是否真实反映了细胞内的分子事件?或者,它仅仅是计算分析带来的巧合?为了提供更直接的证据,研究人员动用了一项更高精度的“分子足迹”技术——ChIP-nexus

ChIP-nexus可以被看作是ChIP-seq的升级版,它在免疫共沉淀之后,会用核酸外切酶消化掉未被转录因子保护的DNA片段,从而能以单个碱基的分辨率,精确地勾勒出蛋白质在DNA上留下的“脚印 (footprint)”。这个“脚印”的大小和边界,直接反映了蛋白质与DNA分子接触的范围。

根据重叠结合模型,研究人员提出了一个大胆的预测:如果转录因子确实能够独立地识别并结合每一个重叠的位点,那么,每增加一个重叠的活性位点,转录因子在DNA上覆盖的范围就应该相应地扩大一点点,其留下的“脚印”也应该相应地变大

他们将分析聚焦于酵母转录因子Pho4和Cbf1。首先,他们根据基因组序列中包含的连续重叠活性8-mer的数量,将ChIP-nexus的结合峰分成了不同的组别,例如,包含3个、4个或5个连续重叠位点的峰。然后,他们仔细观察了每个组别中,转录因子留下的平均“脚印”大小。

结果与模型的预测完美契合!以Cbf1为例,在包含3个连续重叠位点的区域,其分子足迹的平均大小是28个碱基对 (bp)。当重叠位点增加到4个时,足迹大小精确地增加到29 bp。而当重叠位点达到5个时,足迹大小则进一步扩展到30 bp。同样,对于Pho4,其足迹大小也随着重叠位点数的增加,从27 bp增加到了28 bp

这种每次增加一个重叠位点,足迹就精确地增加1 bp的现象,是支持重叠结合模型极为有力的体内证据。它描绘了一幅生动的分子动态图景:转录因子如同一个攀岩者,每多识别一个重叠的“手点”(活性位点),它与DNA“岩壁”的接触就增加了一分,保护的区域也随之向内延伸了一个碱基的距离。这个发现几乎排除了其他替代理论,例如认为转录因子只是识别一个具有模糊边界的单一加长位点的可能性。它清晰地表明,每一个重叠的位点都贡献了独立的结合事件,它们共同决定了转录因子的最终占据行为。

重叠结合模型不仅刷新了我们对单个转录因子行为的认知,它还能否解决一些困扰生物学界已久的难题?其中一个经典问题就是“旁系同源蛋白的结合特异性”。许多转录因子都属于庞大的蛋白质家族,家族内的成员(即旁系同源蛋白)往往具有非常相似的DNA结合域,能够识别几乎完全相同的核心DNA序列。那么,在同一个细胞中,这些“长相”酷似的“兄弟”蛋白,是如何避免“认错门”,实现各自精准的基因调控呢?

研究人员将目光投向了酵母中的一对经典旁系同源蛋白:Pho4和Cbf1。它们都属于碱性螺旋-环-螺旋转录因子 (bHLH) 家族,并且都优先结合一个被称为E-box的核心序列“CACGTG”。在低磷酸盐环境下,Pho4会被激活并进入细胞核,与Cbf1竞争结合基因组上成千上万个E-box位点。它们之间的竞争与合作,精妙地调控着磷酸盐代谢和染色体分离等关键生命过程。

利用PADIT-seq,研究人员首先全面解析了Pho4和Cbf1对所有8-mer序列的结合偏好。他们发现,在总共311个被两者之一识别的活性8-mer中,有34个高亲和力位点是两者共享的,而大量的差异存在于中低亲和力位点上:有58个位点是Cbf1特异的,而多达219个位点是Pho4特异的。

这是否意味着,决定这对“兄弟”蛋白结合特异性的关键,就隐藏在核心E-box序列两侧的旁邻序列 (flanking sequences)中呢?这些旁邻序列通过创造不同数量的、具有特异性的重叠低亲和力位点,来为Pho4或Cbf1提供额外的“加分项”或“减分项”。

为了验证这个假说,研究人员进行了一项漂亮的定量分析。他们考察了基因组中所有包含核心E-box的序列,并计算了每一个序列两侧能形成的、对Pho4和Cbf1特异的重叠活性8-mer的数量差异。惊人的是,这个简单的“数量差”,竟然能很强地预测两者在该序列上的实际结合优势。其预测能力与实验测量值的皮尔逊相关系数达到了0.796

当他们更进一步,不仅仅考虑重叠位点的“数量”,还把每个位点的“质量”(即由PADIT-seq测得的结合亲和力)也纳入模型,进行加权求和后,模型的预测能力达到了前所未有的高度。新的相关系数飙升至0.948,这意味着模型的方差解释率 (r²)接近0.90 (r² = 0.898 ± 0.0004)。这是一个非常了不起的数字,它表明,这个基于重叠结合位点加和效应的新模型,几乎完美地解释了旁系同源蛋白的竞争性结合机制。经典的PWM(位置权重矩阵)模型无法解释的约50%的变异,如今被这个新模型轻松破解。

这就像两位棋手,虽然都懂得棋盘中心“天元”的重要性(相当于高亲和力的核心序列),但决定胜负的,往往是他们在棋盘边缘“金角银边”(相当于旁邻序列创造的重叠低亲和力位点)的布局和算计。谁能创造出更多、更强的有利于自己的局部优势,谁就能最终主导棋局。

重叠结合模型的另一个深远影响,在于它彻底改变了我们对非编码区遗传变异,特别是单核苷酸多态性 (Single Nucleotide Polymorphisms, SNPs) 功能的理解。全基因组关联研究 (GWAS) 已经发现了成千上万个与人类复杂疾病和性状相关的SNPs,但其中超过90%都位于非编码区。这些“暗物质”般的变异如何影响基因功能,一直是遗传学研究的核心挑战。

传统观点认为,一个非编码区的SNP要有功能,它很可能需要直接命中一个转录因子的核心高亲和力结合位点,通过“破坏”或“创建”这个关键位点来改变基因表达。然而,重叠结合模型告诉我们,事情远非如此简单。一个SNP,即使它位于核心位点之外的旁邻区域,也可能引发“蝴蝶效应”。因为它的一次微小改变,可能会同时影响到多个与之重叠的中低亲和力结合位点,导致结合亲和力的累积性发生巨大变化。

为了验证这一点,研究人员系统分析了数千个已知会影响HOXD13和EGR1结合的SNPs。他们将PADIT-seq的预测结果与另一种实验技术SNP-SELEX以及广受欢迎的计算预测工具MotifBreakR进行了正面比较。

结果再次彰显了新模型的威力。PADIT-seq不仅成功识别出了SNP-SELEX发现的绝大多数(HOXD13: 92.8%EGR1: 96.4%)具有显著影响的变异,还额外发现了超过五倍数量的、具有更细微效应但同样真实存在的变异。这些变异很可能因为效应较弱而超出了SNP-SELEX的检测极限。

在与基于PWM模型的MotifBreakR的对决中,PADIT-seq更是取得了压倒性胜利。在预测一个SNP是否会改变转录因子结合的“大考”中,以AUROC作为评分标准,对于HOXD13,PADIT-seq的得分是0.943,而MotifBreakR只有0.790;对于EGR1,PADIT-seq得分高达0.962,而MotifBreakR为0.872。这表明,新模型在精确判断非编码变异功能方面,远胜于传统方法。

一个生动的例子是与人类多指(趾)畸形 (polydactyly) 相关的致病性突变rs606231230。这个突变位于一个调控肢体发育的关键增强子区域。PADIT-seq分析显示,这个致病等位基因的出现,并非简单地改变了一个位点,而是在局部创造出了一连串新的、重叠的HOXD13结合位点。这种累积效应极大地增强了HOXD13在该区域的结合,从而导致基因表达失调和发育异常。重叠结合模型为这个经典的孟德尔遗传病案例,提供了一个清晰而深刻的分子机制解释。

行文至此,一个更深层次的问题浮出水面:这种奇特的重叠结合现象,仅仅是这6个被研究的转录因子所特有的怪癖,还是代表了一个更具普遍性的生物学原理?

为了回答这个问题,研究人员引入了一个非常形象的概念——“可编织性 (weavability)”。他们将每一个被PADIT-seq识别出的活性结合k-mer(如8-mer)视为一个网络中的“节点”,如果两个节点(两个k-mer序列)之间存在k-1个碱基的重叠,就在它们之间连接一条“边”。这样,所有活性结合位点就构成了一个巨大的网络。

分析结果令人称奇。对于HOXD13,其全部3536个活性8-mer(包含正反链)节点中,竟然有高达97.5%(3446个)都属于同一个巨大的、相互连接的“超级网络组分”。这意味着,几乎可以从任何一个活性位点出发,通过一系列重叠的路径,“编织”到网络中的其他任何一个位点。相比之下,如果用同样数量的随机8-mer序列构建网络,形成最大网络组分的节点比例仅为0.2%(7个)

这种高度的“可编织性”在所有6个转录因子中都得到了验证,并且高亲和力的位点往往是这个网络中的“枢纽 (hubs)”,拥有更多的连接边。为了进一步探寻其普适性,研究人员将分析范围扩大到了UniPROBE数据库中涵盖9个主要蛋白家族的200个人类和鼠源的转录因子。结果是压倒性的:在199个转录因子中,其高亲和力结合位点所构成的网络,最大的连通组分都包含了超过80%的节点

这强有力地表明,“可编织性”并非特例,而是真核生物转录因子结合位点固有的一种内在属性。DNA序列的进化,似乎并非仅仅是优化单个的、孤立的结合“点”,而是在编织一张张复杂的、信息高度冗余和重叠的识别“地毯”。高亲和力位点如同地毯上鲜艳的主图案,而无数重叠的低亲和力位点则是构成背景、决定质感和色调的精细纹理。

这篇文章所揭示的重叠结合模型,以一种大道至简的方式,统一解释了转录因子调控领域的两大难题:旁系同源蛋白的特异性竞争和非编码区变异的功能。它让我们意识到,解读非编码基因组,或许不能再像阅读线性文字那样逐字逐句,而更应像欣赏一幅织锦,需要理解每一个“线头”(碱基)是如何通过重叠和交织,共同贡献于整体图案(生物学功能)的。

这不仅为基础研究开辟了新的方向,也为我们精准预测和解读与疾病相关的遗传密码,提供了一把前所未有的、更加锋利的“解码钥匙”。生命的史诗,原来比我们想象的,还要更加错综复杂,也更加和谐有序。

参考文献

Khetan S, Carroll BS, Bulyk ML. Multiple overlapping binding sites determine transcription factor occupancy. Nature. 2025 Sep 3. doi: 10.1038/s41586-025-09472-3. Epub ahead of print. PMID: 40903577.

声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!

来源:生物探索一点号1

相关推荐