病例对照研究该如何开展因果推断?8000字深度长文

360影视 国产动漫 2025-09-04 15:45 3

摘要:2025年8月21日,美国流行病学杂志《American Journal of Epidemiology》(医学二区,IF=4.8)发表了一篇方法学综述,旨在对病例对照研究中使用的因果推断方法做详尽综述,并回顾和检视这些方法在既往研究中的应用情况。

近年来,因果推断方法在队列研究中的应用显著增加,但在病例对照研究中的应用仍较有限。

2025年8月21日,美国流行病学杂志《American Journal of Epidemiology》(医学二区,IF=4.8)发表了一篇方法学综述,旨在对病例对照研究中使用的因果推断方法做详尽综述,并回顾和检视这些方法在既往研究中的应用情况。

为促进病例对照研究中的因果推断,已有若干方法被提出,包括:

截距调整(intercept-adjustment)

倾向性评分(propensity scores)

基于权重的估计器

以及双重稳健估计器

研究者利用 Medical Literature Analysis and Retrieval System Online 数据库,检索并识别了 2014 年 3 月至 2024 年 3 月间应用这些方法的原始同行评审病例对照研究。

下面详细看看这篇文章。

因果推理方法是统计方法的一个集合,在不同的假设集下,已被证明可以直接估计因果效应。在潜在结局框架中,因果效应可以表示为两份(假设的)同一总体的结果差异:这两份总体在一切方面相同,唯一区别在于暴露状态。

随机对照试验(RCTs)由于研究设计与执行上的特点,对所得估计进行因果解释时所需的假设较弱,因此是研究许多因果问题的金标准方法。然而,在许多情形下,RCTs 在伦理上不可行或其外推至感兴趣目标人群的普遍性不足,这凸显了从观察性研究中推进因果推断方法的重要性。

尽管过去几十年里针对观察性研究的因果推断方法在理论与应用上迅速发展,研究重心主要集中在队列研究上。但当研究罕见结局或暴露检测成本高昂时,队列研究往往不切实际。在这些情况下,为了成本效益,常采用病例对照研究设计。

迄今为止,在病例对照研究中估计暴露效应最常用的方法是逻辑回归,此时病例对照比值比(OR)通常是事实上的目标估计量。之所以常用病例对照 OR,是因为在嵌入队列的累积抽样(cumulative sampling)情形下,病例对照 OR 可估计队列研究中会得到的 OR。因此,在某些情况下,病例对照研究与队列研究在 OR 的推断上是一致的,并且若满足因果假设,则这些 OR 可被解释为因果 OR。然而,逻辑回归参数至多可解释为在给定已测调整变量集合条件下的条件因果效应。

因果方法对于估计与总体平均效应相对应的边际因果参数(例如边际风险差)非常有用:边际风险差等于整个目标总体中个体水平因果效应的平均值,对公共卫生具有重要意义。因此,因果推断方法既可用于处理偏倚问题,也可用于估计针对特定人群的参数——这两个概念此前通常被界定为内部效度与外部效度。

已经提出若干用于病例对照研究的因果推断方法,但在实践中很少被采用。为促进更广泛的应用并澄清这些方法的用途,我们综述了可用于病例对照研究的因果推断方法及其相关假设。我们讨论了文献中的应用情况,提供了代码,并权衡了每种方法的优缺点以识别空白并提出建议。


研究方法

自从 Rubin 于 1974 年通过潜在结局框架提出在观察性研究中进行因果推断以来,针对队列研究在该框架下已经发展出许多方法。常用的方法包括倾向评分/处理的逆概率加权(IPTW)、g-计算(g-computation)以及双重稳健方法(例如目标最大似然估计,TMLE)。这些方法均侧重于对已测混杂因子的统计控制,并确保结果与特定目标人群相关。为简洁起见,我们不讨论其他方法,例如效应分解(因果中介分析)、阴性对照或像孟德尔随机化这样的工具变量方法,这些方法依赖一组不同的假设。

对于病例对照研究,上述大部分方法已被改造用于控制混杂(内部效度),同时也处理抽样偏倚(外部效度)的问题。

所谓“抽样偏倚”,指的是由于非病例相对于病例在目标人群中被低采样而产生的偏倚。抽样偏倚主要表现为两种形式:

1)研究人群中的患病率相较于目标人群偏高(“结局抽样偏倚”);

2)与结局相关的协变量在研究人群与目标人群中的分布不同(“协变量抽样偏倚”)。

在此,我们综述通常被归入“因果推断方法”或“g-方法”下的若干方法,包括倾向评分、病例对照加权估计(CCW-MLE)和病例对照目标最大似然估计(CCW-TMLE)。此外,我们还回顾了更为经典的截距调整逻辑回归方法,该方法在处理混杂的同时也可用于校正抽样偏倚,因此可被视为“结果回归”或“g-计算”家族的一员。有关抽样偏倚的更技术性说明可参见其他文献。

因果推断方法在此主要是为累积发生率抽样(cumulative incidence sampling)开发的——在这种抽样中,病例与对照(非病例)是在随访结束时被选取的。某些方法也适用于病例—队列设计(case–cohort design),在该设计中,非病例由嵌套病例的队列在基线时抽取的一个样本替代。对于发病密度抽样(incidence density sampling)(即在每个病例出现时从仍然处于风险中的人群中选择对照)则在讨论部分作简要考虑。

下面我们考虑在目标人群(Pop)中抽取了病例与对照的病例对照数据。为简便起见,我们假定观察到的结局 Y 的分布可用逻辑回归模型描述:

其中 𝑿 = (𝑋1,…,𝑋𝑝)为包含p个协变量的向量(包含暴露 A),该向量足以控制混杂;
𝛽0和𝛽𝑗(j = 1,…,p)是待估计的log-OR参数。

截距调整的逻辑回归

长期以来,在没有匹配的病例对照研究中,人们知道有一种解决结果抽样偏差的简单方法,它可以估计绝对风险。其做法是在标准逻辑回归中加入一个偏移项c0。该偏移项等于抽样比值比(sampling OR)的对数。

其中 𝑃(𝑌 = 1|𝑃𝑜𝑝) 与𝑃(𝑌 = 1|𝑆𝑡𝑢𝑑𝑦) 分别表示目标人群和病例对照研究数据中的结局患病率。

该方法需要已知目标人群的结局患病率,从而使得估计某些人群水平的因果效应成为可能。若采用匹配设计,也可使用分层的抽样 OR 来处理匹配。在充分控制混杂的前提下,截距调整的逻辑回归将估计条件因果 OR(即针对具有特定协变量组合的一组个体的 OR)。该方法可用于在其它尺度上估计边际因果效应(例如风险差),但由于残留的协变量抽样偏倚,其估计值并不能直接代表目标人群。

要在目标人群中估计边际效应,截距调整还必须配合对目标人群协变量分布的加权或标准化。原因在于,效应度量会随研究中协变量分布而变化,而研究样本的协变量分布受抽样偏倚影响(除非这些协变量与结局无关),因此需要对协变量分布进行校正。

当在病例对照研究中对某些群体过度抽样(例如为提高估计群体差异的检验力而对某些种族或族裔少数群体过度抽样)时,也会出现相同问题。在匹配研究中,必须针对匹配变量的分布进行加权或标准化。病例对照样本加权(case–control sample weighting)可以解决这一问题,后文将对此作进一步讨论。

倾向性评分

与通过回归调整来控制混杂不同,倾向性评分方法是一组广泛使用的方法,它通过利用倾向性评分,即在给定协变量时暴露的条件概率来处理混杂。为了控制混杂,可以使用不同的倾向性评分方法:倾向性评分匹配、基于倾向性评分的逆概率处理加权(IPTW)、按倾向性评分分层,以及使用倾向性评分进行协变量调整。这些方法在是否以及如何处理抽样偏倚方面有所不同。

简而言之,倾向性评分是在人群中给定其他协变量时个体被暴露的概率:

其中 Z 是不包括暴露 A 的协变量向量 X 。对于二元暴露的平均效应估计,可以为每个个体定义逆概率权重,例如:

关于倾向性评分的详尽介绍有很多,可以自行检索。关键的一点是:对于病例对照研究,样本中倾向性评分的估计量 𝑃(𝐴 = 1|𝒁,𝑆𝑡𝑢𝑑𝑦) 会受到抽样偏倚的影响——例如,如果某暴露在给定 Z 的条件下会增加结局发生的概率,则在病例对照研究中被暴露的个体相对于队列研究会更常见。通常,倾向性评分方法(以及其他因果推断方法)可通过自助法(bootstrap)来生成标准误,但特定的估计量可能允许采用计算强度较低的方法。

针对病例对照研究中倾向性评分的抽样偏倚,已有多种处理方法被提出。

在罕见结局情形下,Robins 提出可在边际结构模型(marginal structural models)框架下使用 IPTW,以在目标人群中估计边际 OR,而倾向性评分仅在对照中估计——这样可以解决协变量抽样偏倚,但不能解决结局抽样偏倚。所得权重随后应用于所有个体,并允许总体结局风险未知(仅要求其为罕见)。

Mansson 提出若干在病例对照研究中使用倾向性评分的新方法,包含:a) 在研究的一个子集中估计倾向性评分,该子集包含所有对照和部分病例;以及 b) 在倾向性评分模型中加入病例状态,并像所有人都是对照那样为每个个体估计倾向性评分。

与 Robins 的方法类似,这两种方法均限于估计边际 OR,因为它们仅通过倾向性评分估计来解决协变量抽样偏倚。

Zhu 等人提出的方法是在病例中估计倾向性评分模型,然后在估计条件对数 OR 之前根据预测的倾向性评分对对照进行匹配;然而,该方法无法产生任何边际参数的有效估计,因此在因果推断(关于混杂或抽样偏倚调整)的语境中仅有间接关联。

G-计算

G-计算作为倾向评分(对暴露建模)方法的补充,采用对结局建模并在不同暴露条件下预测潜在结局的思路。对于时间不变(固定时间)暴露,g-计算的主要步骤为:

1.用回归模型对结局进行建模,回归式中包括暴露与协变量;

2.利用该回归模型,在每种暴露状态下为个体预测(潜在)结局;

3.通过对研究人群中预测的结局取平均来估计平均因果效应。

第三步等价于对研究人群的协变量分布进行标准化,从而得到研究人群平均的效应。混杂和抽样偏倚分别在第 1 步和第 3 步中被处理(下文有更详细描述)。如果研究人群是目标人群的代表性样本,则该方法估计的是总体平均(边际)因果效应。对于存在时变暴露且先前暴露会影响随时间变化的混杂因子的情形,算法会更为复杂。

在 g-计算中,病例对照加权极大似然估计(CCW-MLE)是一个有用的步骤。CCW-MLE 使用的加权方法类似于 Mansson 等人提出的方法之一。该方法与 Miettinen 的标准化方法(由 Newman 应用)是一致的。

在第 1 步中,优先使用加权逻辑回归,其中 P(Y=1)与P(Y=0)/J(假设从病例对照研究参与者的目标人群中已知,𝐽是对照与病例的比率)分别为未匹配研究的病例和对照的权重。

直观上,病例对照数据中经加权后的病例比例(以及经加权后协变量的分布)等于目标人群中的边际病例比例(以及边际协变量分布),因此可以对数据拟合更一般的模型(不限于逻辑回归),并估计边际效应。随后可按上述 g-计算的第 2 步和第 3 步执行,唯一区别是在第 3 步使用病例对照加权平均,以充分考虑协变量抽样偏倚。可用自助法(bootstrap)或 delta 法来估计标准误。该方法也可兼容匹配设计。通过此法可以估计边际效应(例如 OR、相对风险和风险差)。

目标最大似然估计(TMLE)

TMLE 是一种因果推断估计方法,可同时利用暴露和结局的模型。TMLE 属于双重稳健方法——即当暴露模型或结局模型中任一模型一致时,估计量仍一致;若两者皆一致,则方差还能得到改善。典型流程为先得到结局风险的初步估计(类似 g-计算),然后基于倾向性评分对该估计进行更新。

下面给出用于病例—对照加权 TMLE(case–control weighted TMLE)的具体步骤:

1.按照 CCW-MLE 的权重定义方法,为病例与对照分别定义病例—对照权重。在下文中记:

2.拟合一个 CCW-MLE 或截距调整的逻辑回归模型,用暴露与协变量预测结局,并计算每个个体在每种暴露状态下的初始结局概率,记为 :

3.对暴露 A拟合一个 CCW-MLE 的逻辑回归模型以估计倾向性评分,记为:

4.利用估计得到的倾向性评分,为每个个体构造“巧妙协变量”(clever covariate)以用于更新预测。

对风险差(risk difference),巧妙协变量为一元形式:

其中 I(A=a)为指示函数,当 A=a时取 1,否则为 0。对相对风险(relative risk)与比值比(OR),巧妙协变量为二元向量,通常取不相交指示的集合:

5.通过一个以 h(A,Z)为辅助协变量的 CCW-MLE 逻辑回归(无截距)来估计“扰动参数” ε:即在以初始预测为 offset 的无截距逻辑模型中,用观测到的结局对巧妙协变量回归,得到 ,然后更新初始预测:

6.使用更新后的概率,并按 CCW-MLE 的协变量分布对其取平均,得到目标的边际(或总体)估计。例如,可据此计算边际因果风险比或风险差等。标准误可采用影响函数(influence curve)法或自助法(bootstrap)来估计。

对 TMLE 的若干修正可以增强检验力与稳定性。作为替代或补充,队列研究中常用的基于倾向性评分与结果回归的联合方法也可用于估计类似量,并将不同方法的结果对比以评估模型设定的影响。病例—对照研究使用类似策略时,须注意在每种方法中以相同方式处理抽样偏倚。

使用因果推断方法的病例对照设计研究的文献综述

以英文发表的研究通过 Medical Literature Analysis and Retrieval System Online(MEDLINE)数据库检索获得。我们纳入了 2014 年 3 月 12 日至 2024 年 3 月 11 日间发表的原始病例对照研究。孟德尔随机化、全基因组关联研究和中介分析被排除在外。检索目标是识别那些明确提及因果推断的病例对照研究。

我们使用 Covidence(Veritas Health Innovation)这一用于系统综述管理的在线软件对研究进行筛选与评审。两位作者(MM 与 MX)独立对每篇摘要和全文进行筛选与评审。存在分歧时通过讨论达成一致。随后我们从所有纳入研究中提取了以下信息:

i) 病例对照研究类型;

ii) 病例的招募方式;

iii) 使用的软件;

iv) 论文类型;

v) 被估计的参数;

vi) 所用方法;

vii) 是否讨论因果假设;

viii) 是否对抽样偏倚进行校正。

检索共得 418 篇研究,其中 47 篇被纳入全文资格评估。最终 23 篇被纳入分析;其中 5 篇来自美国,5 篇(含 1 篇重复分析)来自伊朗,5 篇来自欧洲。

超过一半的研究发表于 2020 年及以后。

26% 的研究为嵌套病例对照研究,65% 为匹配设计,74% 纳入了新发病例。

大多数研究(83%)为应用性研究,而方法学研究占 17%。比值比(OR)是最常报告的估计参数(占 74%)。

超过 50% 的研究采用了倾向性方法/IPTW,约 30% 使用了病例对照加权 TMLE(CCW-TMLE)。

仅有 56% 的研究明确讨论了至少一条因果假设(例如可交换性、因果一致性、正性等变体),65% 的研究提到了对病例对照设计所致抽样偏倚的校正。

讨论

本文综述了为在随访结束时抽取病例与对照的病例对照研究中用于明确估计病例对照研究中边际因果效应的现有方法。纳入综述的研究中,有超过一半发表于 2020 年及以后,并对抽样偏倚的校正有所涉及。如上所述,本综述讨论的方法可以针对除条件 OR 之外的更多估计量(例如其它尺度上的边际效应)。然而,在我们检索的文献中,大多数研究仍只报告了条件 OR。

所呈现的各统计方法各有长短。截距调整逻辑回归易于使用,但在我们识别到的应用中实际上很少被采用,尽管它在文献中由来已久。此外,仅靠截距调整无法直接推导出边际因果效应,因为研究样本中的协变量分布并不能代表目标人群中的协变量分布。模拟研究表明:在模型设定良好时该方法表现良好,但在模型误设时会产生偏倚。

这一发现反映出更广泛的规律——基于结果回归的因果推断方法(如 g-计算)对结果模型的设定较为敏感,因为非线性和非加性必须被显式处理。

另一种基于结果回归的方法 CCW-MLE 则更具吸引力且直观:通过加权使病例对照样本在加权后类似队列研究,从而用加权来校正结局与协变量的抽样偏倚(因此允许估计 OR 以外的参数),而且许多软件包均支持加权分析。应用权重后,还可以进行诸如中介分析等在标准病例对照框架下通常难以直接实施的进一步分析。

相比之下,基于倾向性评分的方法不需要对结果指定模型,可能对模型误设不那么敏感,但在未经修改的情况下并不能处理结局抽样偏倚,并且限制了可用的目标估计量范围。倾向性评分方法是我们综述中最常被使用的方法。我们推测这并非因为研究者对边际 OR 更感兴趣,而是因为其使用方便且“倾向性评分”与“因果推断”之间存在一种隐含关联——尽管因果推断是通过满足一定假设与良好研究设计实现的,而非靠某一特定方法本身。尽管如此,若倾向性模型误设,这些方法仍可能产生偏倚,并且由于它们不允许插值,通常对正性假设(positivity)较为敏感。模拟研究还指出在中等样本量下暴露与估计倾向性评分之间可能出现一种修饰伪影。

TMLE 集成了 CCW-MLE 与倾向性评分的思想,兼具二者优点(可估计多种目标量、结果回归类方法的效率,以及倾向性评分类方法的误设稳健性)。TMLE 亦属双重稳健方法,从而降低了模型误设带来的担忧。TMLE 在概念上是我们综述中最难掌握的方法,但现有的 R 包推动了其应用。与 CCW-MLE 类似,TMLE 允许估计风险差等参数,这一点是截距调整逻辑回归与未经进一步修改的 IPTW 所不具备的。从公共卫生角度看,加法尺度上的效应(如风险差)比 OR 更有助于说明人群健康负担并评估潜在暴露的影响。

我们识别出一项明确以用病例对照数据模拟一个模拟目标试验(target trial)为目标的研究。其结果表明,恰当的病例对照抽样可以产生与队列研究相当的估计值。在目标试验框架下的审慎设计是病例对照研究的一个令人期待的发展方向,这可能促使对回忆偏倚或选择偏倚等在回顾性研究中更突出的议题进行更深入的探讨。

尽管许多为病例对照研究开发的因果推断方法的主要目的在于校正抽样偏倚,但在我们纳入的研究中,超过三分之一并未提及这一定向目的。此外,约 44% 的研究未讨论因果假设。我们注意到,许多使用倾向性评分的方法的研究并未明确提到“因果推断”这一术语。在这些研究中,可交换性假设下的混杂控制可能是主要目标,在此类情形下基于倾向性评分的方法有时相较其他方法更为合适。如果研究者关注的是一个可被视为因果的 OR(若可被视为因果50),则这些方法可能已足够。我们呈现的所有方法均假定人群中疾病的风险/患病率(从而抽样概率,无论是边际的还是分层的)是已知的,或疾病足够罕见以可忽略。然而,现实中两者皆可能不成立。因此在可能的情况下,应使用一系列合理的患病率值开展敏感性分析,尤其当目标参数为风险差时——风险差对总体风险的假设尤其敏感。大多数纳入研究采用了匹配设计。匹配可在病例对照研究中提高效率,但并不能消除混杂,甚至可能引入需通过适当分析方法加以抑制的选择偏倚。

最后,我们发现现有方法在兼容发病密度抽样(incidence density sampling)方面存在较大空白。利用 CCW-TMLE,van der Laan 将一些针对累积发生率抽样研究的方法扩展到发病密度抽样的情境。一个提出的问题是此类研究可能来自开放队列(open cohorts),而基于潜在结局的发展性方法多数在封闭人群内构建,因而带来困难。

第二个问题是,尽管 CCW-TMLE 可在时间特定的基础上应用(例如在病例被抽样的时间点),但这仅在大量病例同时出现时可行,而在许多抽样方案中(例如按确诊精确年龄抽样)并不常见。Takeuchi 等人在嵌套病例对照研究中通过边际结构 Cox 模型考虑了因果危害比(causal hazard ratios),其中使用逆概率抽样权重拟合包含时变混杂因子的时变倾向性模型。这类方法代表了在病例对照研究中推进更一般化因果推断方法的有前景途径,当时变混杂因子可能成为关切时,考虑能够在设计上最大化效率的新型研究设计可能是有益的。

需要澄清的是,我们侧重于综述现有方法,而非对所有应用这些方法的论文进行系统性全面的回顾。从这个角度看,我们仅检索了 Medline 数据库,以便向读者展示方法在文献中的应用情况。尽管我们可能遗漏了一些相关应用,但我们的检索策略很难导致所识别的论文成为非代表性样本。此外,诸如孟德尔随机化之类的其他因果推断方法也被用于病例对照研究,但由于它们依赖于与本文讨论方法不同的一套假设,故未在此呈现。

总之,本综述旨在汇编并评述病例对照研究中现有的因果推断方法,以增进理解、推动其应用并激发对方法学空白的深入思考。为此,我们提供了许多方法的详细 R 代码(可在https://github.com/alexpkeil1/Case-control-causal-review获取)。在队列研究中推动因果推断方法成长的一个关键因素是能处理随时间变化的混杂问题,这对随时间变化的暴露尤其重要。然而,我们的综述仅识别出三项已应对这些挑战的研究,这凸显出对进一步方法学发展的迫切需求。随着公共卫生挑战日益复杂但研究成本不减,继续开发并在病例对照研究中应用因果推断方法将对制定有效干预措施和基于证据的政策决策至关重要。

参考文献:Mésidor M, Xu M, Diop A, Fantodji C, Parent MÉ, Keil A. Use of causal inference methods in case-control studies: a methodology review. Am J Epidemiol. 2025 Aug 21:kwaf182. doi: 10.1093/aje/kwaf182.

预告:我们将在9月份底开启高级统计课程,“机器学习与因果推断训练营”,为期3个月,进行“督导式”学习,有兴趣可以和郑老师团队联系吧。


来源:郑老师讲统计

相关推荐