相关不等于因果:今天给大家推荐一篇关于临床研究因果推断的文章

360影视 日韩动漫 2025-05-23 15:23 2

摘要:在此情况下,因果推断提供了一种强大的统计框架,能够在缺乏随机对照试验的情况下估计真实的因果关系。观察性研究必须依赖这些因果推断技术,以判断某种治疗或干预是否真正导致了所关注结局的变化,或是否有其他因素在起作用。

在医学研究中,理解相关与因果的区别至关重要,然而这一区别仍然是临床医生和研究人员常见的困惑来源。

有关系不等于因果。尽管相关性表明两个变量之间存在联系,但这并不必然意味着一个变量的变化会直接引起另一个变量的变化。

在医学研究中,随机对照试验(RCT)被视为评估新疗法效果的金标准,但由于伦理、后勤或资金等方面的制约,RCT并非总能实施。

在此情况下,因果推断提供了一种强大的统计框架,能够在缺乏随机对照试验的情况下估计真实的因果关系。观察性研究必须依赖这些因果推断技术,以判断某种治疗或干预是否真正导致了所关注结局的变化,或是否有其他因素在起作用。

那么,怎么样才能做好一篇观察性研究论文呢?

最近,《Journal Of Surgical Research》发表了一篇题为:“Associations in Medical Research Can Be Misleading: A Clinician's Guide to Causal Inference”的研究论文。

本文作为入门指南,旨在为临床医生和医学研究人员提供一条清晰且实用的路径,帮助他们区分相关性与因果性。

文章探讨了两种关键的框架:

基于反事实推理的潜在结果模型;

以及利用有向无环图来可视化和分析因果关系的结构因果模型。

详细讨论了多种因果估计的实用方法,包括回归分析、工具变量法、倾向性评分匹配和逆概率加权,重点介绍了这些方法的假设条件、优点和局限性。

此外,文章还针对常见的挑战,如未测量的混杂因素、反向因果关系和模型不当设定,提出了减弱偏倚、增强因果估计有效性的策略。

最后,本文提供了一个结构化框架,用于指导研究人员在临床和外科研究中有效地选择合适的因果推断方法。通过为临床医生配备做出循证决策的工具,本文旨在强化医学研究的科学基础,改善患者的治疗效果。

我们来详细看看!


相关性与因果性

因果推断是从数据中推导因果关系的过程。

在统计学、医学和外科等领域,理解变量之间不仅仅是相关性,更要明白一个变量如何影响另一个变量至关重要。虽然相关性指的是两个变量之间的统计关联,表明它们有共同的变化趋势,但这并不意味着其中一个变量的变化必然导致另一个变量的变化。相比之下,关联则是指两个变量之间更广义的关系,这种关系可能存在因果,也可能并非因果。

例如,某项研究可能发现术后感染率与手术时间存在相关性,但这并不必然说明手术时间越长就会导致更多感染;这种相关性可能受到手术复杂程度或患者既往健康状况等因素的混淆。

在临床环境中,研究的重点往往是干预和治疗,因此正确区分关联与因果对于做出明智决策尤为重要。因果推断在评估治疗效果、探明疾病机制和设计公共卫生干预措施方面具有关键意义。

因果推断的基础可追溯至二十世纪初:罗纳德·费希尔(Ronald Fisher)对随机化实验的开创性研究,以及耶日·奈曼(Jerzy Neyman)提出的潜在结果框架。随后,西沃尔·赖特(Sewall Wright)引入的结构方程模型为理解复杂因果关系奠定了基础,而朱迪亚·佩尔(Judea Pearl)在二十世纪末提出的有向无环图(DAG)方法,则为表示和分析因果结构提供了直观的工具。

这些框架后来被应用于医学和外科研究,即使在复杂的观察性研究环境中,也提高了因果效应估计的能力。

在医学研究中,随机对照试验(RCT)被视为评估新疗法效果的金标准,但由于伦理、后勤或资金等方面的制约,RCT并非总能实施。在此情况下,观察性研究必须依赖因果推断技术,以判断某种治疗或干预是否真正导致了所关注结局的变化,或是否有其他因素在起作用。

如 Cunningham(2021)所强调的,观察性数据常面临混杂、反向因果和测量误差等挑战,这就需要采用严谨的因果估计方法,确保在缺乏随机化的条件下,仍能正确识别因果关系。

此外,奥斯汀·布拉德福德·希尔爵士(Sir Austin Bradford Hill)在1965年提出的布拉德福德·希尔标准,至今仍是医学研究中评估因果性的基石。这九项标准:强度、关联的一致性、特异性、时序性、剂量-反应关系、合理性、连贯性、实验证据和类比,为判断观察到的关联是否可能具有因果性提供了结构化的方法。尽管现代因果推断方法提供了更为复杂的统计工具,布拉德福德·希尔标准在医学和外科研究中解读因果关系时,仍具有重要的指导意义。

本文旨在作为入门指南,帮助医学研究人员、外科医生和临床工作者熟悉设计稳健可靠研究所必需的统计方法。文章将阐释因果推断的关键概念,概述常用的统计分析方法,并强调在医学研究中应用这些技术时必须考虑的假设和注意事项。

从关联到因果

关联与因果之间的核心区别是因果推断的基础。如前所述,相关性并不意味着因果性。要确立因果关系,就必须判断两个变量之间的关系是真正的直接因果效应,还是受混杂因素影响。

例如,吸烟与肺癌之间存在相关性,但生物学证据以及在不同人群中一致的发病模式支持了二者之间的因果联系。之所以强调这一点,是因为并非所有观察到的变量间关系都是因果的。一个经典例子是冰淇淋销量与溺水事故之间的相关性——在观察数据中,这两者常常同时在夏季高发,但这并不意味着冰淇淋销量增加会导致更多溺水事故;实际上,是第三个变量(在此例中是季节因素)驱动了这种“虚假相关”。Angrist 和 Pischke(2009)强调,在因果分析中考虑此类混杂因素的重要性。

因此,为了做出具有现实影响的决策,如是否推荐某种治疗或干预,因果推断是必不可少的。

因果推断则致力于理解一个变量(原因)如何直接影响另一个变量(结果)。以吸烟和肺癌为例,我们需要探究的是吸烟是否真正导致肺癌,还是有其他混杂因素在解释两者的关系。要确立因果关系,需要超越简单的相关,考虑可能同时影响吸烟和癌症风险的其他变量。

因果分析通常涉及考察当原因被操纵时,结果会如何变化。在实验环境中(如随机对照试验,RCT),这种操纵比较简单:我们随机将受试者分配到试验组或对照组,然后比较两组的结局。然而在无法进行随机化的观察性研究中,我们必须依赖统计技术来估计在不同条件下可能发生的结果,这就引入了随机化、一致性和可忽略性等假设。

因果推断框架

因果推断通常有两大主要框架。

一、潜在结果框架

该框架起源于 Neyman(1923)和 Rubin(1974),以反事实(counterfactual)概念为核心,即假设在不同条件下本可能发生的结果。其关键思想是比较在接受或未接受某种处理条件下的潜在结果。例如,在临床试验中,我们期望比较接受新药与未接受新药的个体健康结局,但对于每位受试者而言,我们只能观察到其中一种情景下的结果。

这就导致了因果推断的基本难题:每个个体只能经历一种结果(处理或未处理),因此无法直接观察同一人两个潜在结果的差异,该限制称为“缺失数据问题”。在统计分析中,我们依赖若干假设来估计那些未被观察到的反事实结果,并据此得出因果结论。

二、因果推断的假设

要使因果推断结果有效,必须满足以下关键假设:

1.无未测量的混杂因素(No unmeasured confounders):假设不存在同时影响处理和结局的未被观察或测量的变量,否则因果效应估计将被混杂所偏倚。

2.一致性(Consistency):一致性假设意味着,个体实际接受处理时所观察到的结果,应当等同于在该处理条件下的潜在结果。例如,如果某患者在试验中接受了新药,那么我们观察到的该患者结局就应当是如果其被分配到处理组时的潜在结果。这一假设确保观察数据真实反映了处理效应,使得处理组与对照组结果的比较具有意义。

3.可忽略性(Ignorability,也称条件独立性 Conditional Independence):在控制了观察到的协变量后,处理的分配应当与潜在结果无关。换言之,一旦调节了相关的混杂变量后,处理分配就不应再依赖于未观测因素。可忽略性保证了组间差异源自处理本身,而非基线特征的不同。

4.正向性(Positivity):假设每位个体都有非零概率接受或不接受每种处理,避免某些处理条件对特定个体完全不可能,从而保障了因果比较的有效性。

三、结构因果模型

结构因果模型(SCM)由 Judea Pearl 提出,建立在潜在结果框架之上,加入了更形式化的结构。

SCM 使用有向无环图(DAG)来表示因果关系。图中的节点代表变量,带箭头的有向边代表因果效应。通过这种图形结构,我们可以直观地表达变量间的因果架构,并据此分析当一个变量变化时,其他变量将如何受到影响。

例如,若要研究新药对血压的影响,可在 DAG 中设置“药物治疗”“血压”以及如“年龄”“合并症”等混杂因素的节点。从“药物治疗”到“血压”的箭头表示药物对血压的直接影响,而其他混杂因素节点则通过箭头指向“药物治疗”和“血压”,表示它们对两者的共同影响。如图1所示。

图 1 有向无环图(DAG)示意混杂关系。箭头表示因果影响的方向。混杂变量 C 同时作用于处理 T 和结果 Y,若在分析中未加以适当控制,会引入偏倚。

四、建模因果关系——DAG

研究者通过使用有向无环图(DAG)或结构方程,来明确变量之间的因果关系。在这些模型中,箭头的方向表示假定的因果效应。例如,从处理 T 指向结果 Y 的箭头即表明该处理会影响结果。此类模型对于指导分析、确保考虑到所有相关变量至关重要。如结构因果模型(SCM)一节中的示例(图 1)所示,DAG 原则演示了处理、结果与混杂变量如何相互作用。在构建 DAG 时,必须仔细考虑因果关系的方向性,并防范潜在偏倚来源。

DAG 是由节点(代表变量)和有向边(代表因果关系)组成的图。无环(acyclic)意味着图中不存在闭环——因果效应不会循环回去影响原始原因。虽然 DAG 为表示和推理因果关系提供了框架,但它本身并不是用来估计因果效应的方法,而是作为概念工具,用来识别潜在混杂因素,并为选择合适的统计方法奠定基础。

例如,在上述图 1 中,若要分析新药对血压的因果效应,可按以下方式解读:

T(处理)对 Y(结果)有直接因果效应,如 T→Y 所示;

C(混杂因素)同时影响 T 与 Y,如果不加以控制,会偏倚 T 对 Y 的估计;

箭头方向显示了假设的因果关系方向。

在此结构中,混杂因素 C 同时作用于处理 T 与结果 Y,形成偏倚来源。通过调节 C,可更准确地估计处理对结果的真实因果效应。

DAG 有助于直观展示因果推断中对精心建模的需求——它可以帮助研究者识别潜在混杂因素、中介变量和效应修饰因子,从而指导合适统计方法的选择,提高因果推断的有效性。然而,DAG 本身不足以完成因果估计;它只能告知分析结构,必须配合恰当的统计方法方能准确估算因果效应。

因果推断方法论

第一步是确定感兴趣的因果效应能否从可用数据中识别。若在正确模型和假设成立的前提下,数据能够唯一决定该因果效应,则称该效应可识别。识别过程通常包括检验“无未测量混杂因素”、“一致性”和“可忽略性”等假设是否成立。如果这些假设得到满足,我们即可自信地从数据中估计因果效应。

在开展因果推断时,研究者必须形式化因果假设,并采用合适的统计工具来估计因果效应。将方法与支撑其使用的假设清晰地链接起来,对于确保结论的稳健性至关重要。以下概述了关键的因果推断方法及其基本假设。

一、基于回归的方法

回归模型常用于通过控制潜在混杂因素来估计因果效应。但回归估计的有效性依赖于若干关键假设:

1.无未测量的混杂因素:需要在模型中纳入所有同时影响处理和结果的混杂变量,否则会因遗漏变量而产生偏倚。

2.线性假设(线性回归中):除非另有说明,回归方法假设变量间关系为线性,若不满足则可能导致模型不适配和估计偏差。

例如,在研究新型降压药对血压下降效果时,若未调整年龄、合并症或基线血压等关键混杂因素,回归模型可能给出偏倚估计。

二、工具变量法

工具变量(IV)方法通过引入一个影响处理但只有通过处理才影响结果的工具变量,来解决混杂问题。除潜在结果框架中的一般假设外,还需满足三项额外假设:

1.相关性:工具变量需与处理高度相关;

2.排除限制:工具变量对结果没有除通过处理外的直接影响;

3.工具变量的可忽略性:工具变量需与未观测混杂因素独立。

例如,在研究吸烟对肺癌的影响时,可将烟草税率作为工具变量:税率影响吸烟行为,却不太可能通过其他途径直接影响肺癌发病。

三、倾向性评分匹配

倾向性评分匹配(PSM)是观察性研究中常用的混杂控制方法,通过根据个体接受处理的概率(倾向性评分)来匹配处理组与对照组。PSM 的有效性依赖于:

1.可忽略性:在调整观察到的协变量后,处理分配与潜在结果独立;

2.积极性:所有个体对每种处理都有非零概率。

例如,在评估术后早期活动对康复效果的研究中,PSM 需仔细调整年龄、合并症和手术复杂程度等变量,确保活动组与非活动组具有可比性。

四、其他因果推断方法

除了回归、工具变量和 PSM 外,因果推断领域还有其他重要方法:

1.G-估计:在结构嵌套模型框架下使用,可在调整时变混杂因素的同时估计因果效应,适用于纵向研究。

例如,在评估反复使用类固醇对术后恢复影响的研究中,G-估计可针对因先前用药反应而变化的给药方案进行反事实建模,从而更准确地估计类固醇的直接因果效应。

2.逆概率加权(IPW):通过根据个体接受处理的逆概率加权,构建伪人口,使得处理组与对照组在协变量上平衡。

例如,在评估早期下床活动对手术结局影响的研究中,IPW 可调整基线患者特征差异,减少选择偏倚,更准确地估计因果效应。

此外,诸如目标最大似然估计和结构嵌套均值模型等方法,也展示了因果推断技术的多样性。方法的选择应根据数据性质、基本假设和研究问题的具体需求而定。以下 表 1 对主要因果推断方法及其假设进行了简要汇总。

表 1 关键因果推断方法及其假设汇总

五、假设违反的后果

当这些假设被违反时,会显著地偏倚因果估计。尽管本文所述的方法依赖于“无未测量混杂因素”、“一致性”和“积极性”等关键假设,但根据具体的建模方法,可能还需要满足其他假设。现实环境中,这些假设并不总是成立,因此必须仔细评估其有效性,以确保因果估计的准确性。

1.未考虑未测量的混杂因素会导致回归模型中遗漏变量偏倚。例如,在评估某外科干预术后康复效果的回归模型中,如果未调整患者合并症这一关键混杂因素,估计的效果就可能因未测量的混杂而偏倚。

2.工具变量法中弱工具变量会放大误差,产生不可靠的估计。当工具变量与处理之间相关性较弱时,因果效应估计对数据中的微小变动非常敏感,易导致不精确或误导性的结论。

3.倾向性评分匹配中可忽略性假设被违反,会产生残余混杂并导致错误的因果结论。例如,在用 PSM 估计术后早期下床活动对并发症影响的研究中,若患者的痛耐受力或手术复杂度等未测量因素同时影响下床活动和并发症发生,则交换性假设被破坏,从而引入偏倚。

4.模型专属假设:除了一般性假设外,不同方法往往还要求满足特定假设,而这些假设在实践中并不总是成立。比如,G-估计要求存在时变混杂——即处理与结果之间的关系会随时间变化;这在纵向研究中尤为重要,因为患者特征和治疗反应会随时间演变。

示例:在评估反复使用类固醇对术后恢复影响的研究中,G-估计假定类固醇效应会因先前剂量和患者健康状态的变化而改变。若患者因并发症导致对类固醇的反应随着时间恶化,G-估计会通过建模不同给药方案下的反事实结果来调整这种变化,从而更准确地估计类固醇的真实因果效应。

同样,IPW 要求对处理分配的模型进行正确指定,即用于计算接受处理概率的模型必须包含所有影响处理决策的相关因素。

示例:在评估早期下床活动对手术结局的研究中,IPW 假定在估计下床概率时,已充分调整年龄、合并症和手术复杂度等因素。若模型忽略了重要因素(如术后疼痛水平),则因治疗组与对照组实际上不可比,导致因果效应估计偏倚。

若不满足这些方法特定的假设,就会产生偏倚或不一致的估计,难以可靠地判断处理的真实效应。理解各方法背后的假设,对于选择合适的方法并正确解读结果至关重要。

注意事项与局限性

虽然因果推断为理解因果关系提供了强大工具,但它们也存在局限。清晰认识这些局限,有助于确保结论的稳健性与可靠性。

1.未测量的混杂:若存在未观测变量同时影响处理和结果,就会导致因果效应估计偏倚。例如,在评估体育活动对心血管健康影响的研究中,心脏病遗传易感性或社会经济地位可能未被完全记录或调整,扭曲真实因果关系。可采用工具变量分析或敏感性分析来应对未测量的混杂。

2.工具变量法:IV 方法依赖于外部变量——仅通过处理影响结果且与未测量混杂因素独立的工具。医学研究中,常以医生的用药偏好作为工具变量。IV 方法的有效性取决于:(1)工具与处理相关;(2)工具对结果无处理以外的直接影响;(3)工具与未测量混杂因素独立

3.敏感性分析:通过敏感性分析可评估因未测量混杂而可能改变因果结论的程度。例如,E 值(E-value)量化了一个未测量混杂因素需要与处理和结果之间具有什么强度的关联,才能解释掉观察到的效应。敏感性分析帮助研究者评估未测量混杂对估计效应的潜在影响。

4.阴性对照:使用负对照结局或暴露,可检测未测量混杂的存在。负对照是指与处理已知不存在因果关系的结局或暴露,若观察到显著关联,可能表明存在残余混杂。

5.模型设定:模型设定错误指对变量之间的函数关系或形式定义不当。例如,若真实关系是非线性的,却用线性回归估计药物剂量与血压的关系,就会产生偏差。

可采用广义加性模型或机器学习技术等灵活模型,处理复杂非线性关系。同时,通过敏感性分析和对比不同模型结构的结果,可提升稳健性。

6.外部有效性:在某一环境(如临床试验)中获得的因果结论,不一定能推广到其他环境或真实人群。样本不具代表性时,外部有效性是主要关注点。

通过更广泛且具代表性的抽样,反映目标人群的人口学和临床多样性,可提升外部有效性;在不同人群和医疗环境中验证研究结果,也有助于增强推广性。

7.伦理与实践限制:在医学领域,RCT 虽是因果推断的金标准,但因伦理或后勤限制并非总可行。例如,将救命药物剥夺给重症患者即不道德。

在此情况下,可采用准实验方法,如双重差分法(difference‐in‐differences)或回归不连续设计(regression discontinuity design),在无需随机化的前提下,仍能获得可信的因果估计;自然实验借助外部因素导致的处理分配差异,也可作为有价值的替代方案。

缺失数据处理

缺失数据是因果推断中的重要挑战,不完整观测会引入偏倚并降低估计精度。以下几种方法可帮助应对缺失数据问题:

1.多重插补:基于观测数据模式,对缺失值进行多次插补,生成多个完整数据集,分别分析后合并结果,以反映插补的不确定性。多重插补相比单一插补,能获得更准确的标准误并减少偏倚。

2.IPW:通过根据个体被观测到的概率为观察到的样本加权,重建目标总体,对因缺失而被低估的个体进行上权,从而减少因缺失带来的偏倚。

3.敏感性分析:评估不同缺失机制(如随机缺失 vs. 非随机缺失)对因果估计的潜在影响,有助于提高结论的稳健性。

在观察性研究中,缺失更为常见,有效处理缺失数据对因果推断的有效性至关重要;将多重插补与 IPW 结合使用或进行敏感性分析,可进一步提升因果估计的可靠性。

结论

在医学领域,确立因果关系对于判断治疗与干预措施的有效性至关重要。布拉德福德–希尔标准为流行病学和临床研究中的因果推断提供了框架,强调时间先后性、关联强度与生物学可行性等因素。然而,医学统计方法仍需应对偏倚、混杂及生物系统复杂性等挑战。统计检验可衡量观察关联中偶然性的作用,但并不能替代对潜在偏倚或其他解释的审慎考量。

在外科研究中,从观察性数据中确立因果仍是重大挑战。为帮助研究者选择合适的因果推断方法,我们提出以下结构化流程:

1.明确研究问题:确定研究目标是确立因果关系还是探索关联;

2.评估数据结构及混杂因素:识别数据集中是否包含潜在混杂变量,并判断随机化是否可行或合乎伦理;

3.选择合适方法:

若混杂因素可测量且定义清晰 → 使用回归分析;

若存在满足假设的工具变量 → 使用工具变量分析;

若混杂因素可测量但处理分配非随机 → 使用倾向性评分匹配;

4.验证结果:进行敏感性分析,并在不同患者群体和环境中测试稳健性。

因果推断为理解因果关系提供了坚实的框架,在医学领域尤其适用于评估治疗和干预措施。

然而,该框架依赖于多项假设,例如不存在未测量的混杂因素、工具变量的有效性以及模型的正确设定。如果这些假设被违反,因果估计可能会产生偏倚或误导性结论。正如 Angrist 和 Pischke(2009)所指出的,在处理非随机化数据时,采用双重差分法和回归不连续设计等方法至关重要,但这些方法同样依赖于有效的工具变量和关于变量关系的假设。研究者应当承认所用方法的局限性,并对其假设保持透明。

因此,为确保因果推断的准确性和可靠性,尤其在无法进行随机化时,必须进行严谨的方法学考量。虽然随机化实验和自然实验等实证策略对于消除混杂偏倚至关重要,但当这些策略不可行时,工具变量法和倾向性评分匹配等替代方法必须谨慎应用。

这些方法虽强大,但仍依赖于诸多假设,一旦被违反,就可能导致偏倚或误导性结论。在临床环境中应用因果推断技术时,研究者必须仔细权衡方法学、假设及潜在局限性。只有通过对假设的严格验证和对模型的恰当设定,才能使基于观察性数据的因果结论与随机对照试验的结论一样可靠。

参考文献:

Associations in Medical Research Can Be Misleading: A Clinician's Guide to Causal Inference.Karamitros, Georgios et al.Journal of Surgical Research, Volume 310, 145 - 154

来源:郑老师讲统计

相关推荐