流行病学因果推断方法是不是越复杂越好？是该好好评估了

摘要：这是一篇《国际流行病学杂志》评论，题目是,Time for evidence-based methodology in epidemiology.

这是一篇《国际流行病学杂志》评论，题目是,Time for evidence-based methodology in epidemiology.

老郑先说两句：

最近几年出现很多新概念新方法，尤其是因果推断的概念与方法：

引言

形式化的反事实因果推断方法在过去几十年间逐渐主导流行病学研究。这一转变部分源于对传统流行病学分析方法的广泛反思。形式化因果推断通过引入有向无环图（DAGs）、目标试验模拟（target trial emulations）等概念工具，以及G方法、边际结构模型（MSMs）和逆概率加权（IPW）等分析方法，试图重塑学科范式。与此同时，实证经济学领域也经历了“可信度革命”——从“朴素回归分析”转向工具变量、断点回归等“准实验”方法[1]。这些方法虽已进入流行病学工具箱，但在该领域中的应用仍相对有限。

一个重要问题是：这些方法论的革新是否真正提升了我们从观察性数据中推断因果关系的能力？ 对于流行病学的学生、教师以及研究成果的使用者而言，回答这一问题至关重要，因为它决定了应学习何种方法以及哪些研究结果值得信任。关于形式化因果推断的优劣，学界已展开激烈争论，但尚未达成共识[2–7]。而工具类方法在流行病学中虽有支持者，却较少受到严格批判。本文主张：流行病学方法的进步必须通过系统性实证评估来实现。研究方法不仅可作为评估干预措施的工具，其本身也应成为实证研究的对象。

现有观察性方法的实证评估证据

本节并非对庞杂文献的系统综述，但旨在指出已有证据足以引发对现有观察性方法可靠性的质疑。

1. 观察性研究与随机对照试验（RCT）的对比

早期研究（1982年）：79%的观察性研究显示治疗有效，而RCT中仅20%支持这一结论[8]。传统流行病学调整方法未能显著缩小差异。

后续研究（2000年后）：对19种治疗的对比显示，观察性研究与RCT结果总体相似[9]，但效应量差异显著[10]。这些研究存在局限性：多数观察性研究发表于RCT结果公开后，且早期RCT缺乏预注册机制，存在p-hacking和发表偏倚风险。

2.现代因果推断方法的验证

IPW的表现：在4项心血管疾病研究中，与传统调整或匹配方法相比，IPW产生的效应估计几乎相同，但精度更低，且易受极端值影响[12]。

目标试验模拟：RCT-DUPLICATE项目尝试用观察性数据模拟32项RCT。在预先设定的“监管一致性”（即方向与统计显著性一致）标准下，成功率仅为56%；在13项优效性试验中，仅3项（23%）达成一致[13]。

MSM研究：47%的MSM研究其95%置信区间未覆盖RCT结果，42%的效应方向与RCT相反[15]。

3.工具类方法的验证

孟德尔随机化（MR）：一项系统性综述发现，MR结果与RCT存在显著差异，包括阳性MR结果未能被RCT复现[17]。另一研究显示MR与RCT的一致性优于传统观察性研究[18]，但未量化具体比例[19]。

断点回归：尚未有流行病学领域内系统性评估。

方法论创新的潜在代价

1. 学习与沟通成本

教学负担：复杂方法挤占有限课时，可能削弱核心流行病学技能（如研究设计）的培养。

跨学科合作障碍：临床医生、政策制定者对术语（如“反事实效应”）的理解偏差可能阻碍有效沟通。

学术碎片化：过度专业化导致学科分裂为“方法论孤岛”，损害跨学科协作潜力[20]。

2. 严谨性幻觉

术语误导：即使不实践这些方法，许多临床医生和公共卫生官员可能对传统回归和倾向评分分析得出的关联足够熟悉并保持适当谨慎。但他们可能错误认为新方法已克服观察性研究的传统局限。例如，FDA对“真实世界证据”的开放态度[21]可能放大这一风险。

学科内过度自信：形式化方法的数学严谨性可能使流行病学家对观察性研究结果产生不合理的信任。

当然，这些假设的“副作用”与各种方法声称的优势一样缺乏实证验证

如何科学评估研究方法？

实证评估的核心原则

与金标准对照：将方法效应估计与RCT结果进行多维度比较（方向、显著性、效应量）。

系统性验证：需大规模协作（如RCT-DUPLICATE项目），避免个案研究的局限性。

预注册与透明度：防止分析后数据操纵，确保结果可复现。

具体实施方案

方法学随机对照试验：受试者先随机分配至观察性/试验性研究分支，比较不同方法在匹配人群中的表现[30]。

教育学评估：随机分配学生接受DAGs/潜在结果框架/传统方法教学，测试其研究设计能力[32]。

政策传播研究：通过焦点小组分析决策者对不同方法报告的理解差异。

统计评估指标

方向一致性：效应方向与RCT一致的比例。

效应量等价性：定义临床等效阈值（如Δ

可复制概率：基于P值计算二次研究复现显著性的概率[23]。

结论

与任何学科一样，流行病学必须持续完善其理论基础和方法论原则。当创新主张的优越性强烈且影响广泛时，尤其需要接受严格审视。传统方法、工具类方法和因果推断方法都需要与彼此和RCT进行稳健比较。否则，我们的方法选择将主要受观点、偏好和制度惯性驱动。理解方法的真实优势与局限，可能有助于回答关于本学科的更深层问题。包括：为何在更简单方法主导的时代，流行病学似乎更成功地识别了吸烟、胆固醇、高血压和石棉等主要疾病危险因素？过度关注方法学习和技术严谨性是否会分散我们获取制定良好研究问题所需的深层领域知识的精力？

自1970年代以来，临床医学因广泛接纳循证医学（EBM）经历革命。EBM的核心在于：理论前景不足以证明新干预措施的合理性，必须通过稳健实证评估。现在是否是流行病学拥抱循证方法学的时刻？

老郑后评

这篇文章呼吁我们应该好好评价这20年出现的新方法新技术：主要包括：有向无环图（DAGs）、目标试验模拟（target trial emulations）等概念工具，以及G方法、边际结构模型（MSMs）和逆概率加权（IPW），工具变量、目标实验模拟等

这些

我有三个观点：

（1）这几年的方法让因果推断更接近RCT结果，越复杂越好

（2）再复杂也没有RCT复杂

（3）在因果推断方法上，一般是，你会什么，就用什么？你会回归，就用回归；你会复杂的，就来点复杂的方法。

老郑最近就在学机器学习因果推断方法，有兴趣可以一起探索。

文献来源：

International Journal of Epidemiology, 2025, 54(3), dyaf052 https://doi.org/10.1093/ije/dyaf052

最后，在文末给郑老师我们团队打个一对一指导广告吧，大家不要见怪哈！