随机对照试验，是医学的金科玉律吗？

摘要：我们如何了解新研发的药物和治疗方法是否有效？为了解决这一问题，“循证医学”（Evidence-base medicine，EBM），也就是基于临床实践数据的医学，衍生出了一些重要工具，比如随机对照试验（Randomized clinical trials，RC

随机对照试验（RCT）通常被认为是评价药物有效性的金标准，但其自身有局限性。一些人将此方法奉为金科玉律，对其过度依赖，却忽视了医疗的复杂性。

撰文 | Trisha Greenhalgh（牛津大学基本卫生保健科学教授）

编译 | 皮卡龙妙蛙

我们如何了解新研发的药物和治疗方法是否有效？为了解决这一问题，“循证医学”（Evidence-base medicine，EBM），也就是基于临床实践数据的医学，衍生出了一些重要工具，比如随机对照试验（Randomized clinical trials，RCT）。虽然类似的工具大大推动了医学科学的进步，但我们在评估新疗法时，还是应该对单纯依靠临床试验结论的做法保持谨慎的态度。试验固然有其价值，很多情况下甚至被视为验证新治疗方法是否有效的“金标准”，但如果试验本身的设计不够科学，结果可能适得其反——产生具有误导性的结论。事实上，随机对照试验并不肯定比其他类型的临床证据更好。循证医学，应当把随机对照试验的数据和实际的观察结果结合，来获得更为全面和准确的答案，达到最终造福患者的目的。

图1：随机对照试验的示意图，在理想状态下，研究者希望看到实验组患者获得疾病缓解（绿色小人）的百分比比对照组更高，才能证明试验药物有效 | 来源：sohu.com

假设一种情景：你手中有一种可能可以挽救得了某种致命疾病的病人生命的药物，但是药物的数量仅仅够治疗一半患者，你会如何决定把药给谁？抛硬币？按特定顺序分配（排序后序号单数的患者给药，双数的患者不给）？还是让大家随机抽签？

换一种情景：你知道某种药物可能可以挽救生病，但疗效还没得到验证，你会使用上述分配方法之一来进行药物的分配，同时给一部分患者吃安慰剂（跟药物外观一样，但是吃了没有任何作用）来测试药物的实际疗效吗？

以上场景，就是英国统计学家奥斯汀·布拉德福德·希尔（Austin Bradford Hill，后来被封为爵士）在1947年所面临的抉择。他是一位对方法学（Methodology）非常严格的学者，在他所在的时代，验证新药疗效有两种对比方法：一个是采用“历史对照”，对照组采用的是过去的标准疗法，实验组是在现今的标准疗法上加上需要被测试的全新的疗法。因为现今的标准疗法大概率已经比过去的标准疗法效果好，用这种对照方法来测试全新的疗法并不科学，因为两组病人的基础治疗方案已经有了差别。

另一种是“顺序分配”，可以理解为根据就医顺序，按照单双数给患者分配药物和安慰剂，这是上面说的方法的改进版本。但这意味着医生对每一位患者的用药情况是完全知情且可操纵的，可能会不自觉地改变分配过程，比如出于同情把病情较重但本来应该给予安慰剂的患者，换成治疗药物，从而产生临床试验中所谓的“偏倚”（Bias），也就是系统性的“误差”。如果治疗药物组的患者比安慰剂组的患者病情更重，那么药物的效果就可能看起来比实际情况差。

图2 英国统计学家奥斯汀·布拉德福德·希尔 | 来源：www.bradfordhill.org

对于以上两种研究新药效果的方法，希尔表达了自己的顾虑。1937，他在《柳叶刀》（The Lancet）上发表了一系列文章，主张取代上述两种方法，而采用一种完全随机分配的方法（在他那个年代就是把名字放在密封的信封里面，然后随机抽签分配；现代社会，随机分配可以采用更先进的计算机随机数）来进行研究。尽管当时他的观点十分合理，但他的方法在临床中的真正应用却举步维艰。

第二次世界大战时期，肺结核肆虐，每20个英国人就有1人死于结核。当时，一种叫“链霉素”的新型抗生素被认为是有效的治疗药物，但是它只能在美国大规模生产，且出口管控极为严格。英国政府想方设法从美国购买了一些链霉素，移交给英国医学研究委员会（MRC），但是药物总量只够治疗一部分的肺结核患者。委员会决定，由希尔领导一项临床试验，采用他倡导的匿名抽签分配（使用密封信封）的方法。这种方法不仅是分配稀缺药物最公平的方式，同时还能可靠地检验药物是否真的有效。在这项后来看可以称之为具有里程碑意义的临床试验中，没有用药的55名对照组患者中，15人在试验开始后的六个月内死亡，而使用了链霉素组的55个患者中，仅有4人死亡。

英国医学研究委员会的这项临床试验成为了改变医学临床研究范式的转折点，原因有二。首先，它证明了链霉素是肺结核的有效初始治疗（尽管后来发现，链霉素单独使用时长期治疗效果不佳）。其次，它首次确立了随机对照试验的地位，让其成为检验药物相对于安慰剂（或另一药物）的疗效的金标准。而这个里程碑事件也被一些医学史学家认为是“循证医学”时代的序章。

在之后的几十年中，针对各种药物和预防性治疗的随机对照试验可谓遍地开花。在试验的实验组和对照组的设置中，只有给不给药的区别，把其他所有可能影响结果的干扰因素（包括病情严重程度、性别、年龄、研究人员的偏好等等）都控制到无限趋近于等同，这样可以把实验药物本身的治疗效果和副作用都凸显出来。现在已经被普罗大众熟知的一些药物，比如他汀类药物能降低心血管病风险，化疗药物可以治疗癌症，疫苗可以预防传染病，这些结论无一不是通过严谨的随机对照试验所得出的。而如果有多项随机对照试验具有同一个研究目的，还可以使用统计方法中的荟萃分析（meta-analysis）来进行结果整合，让结论更加有信服力。

随机对照试验变成了一门科学，而且在不断发展，愈发复杂，人们逐渐识别了可能影响试验结果的其他类型偏倚，并想到了办法加以解决，包括表现偏倚（Performance bias，指的是实验药物治疗组接受了比安慰剂对照组更频繁和更细致地观测）、测量偏倚（Measurement bias，指的是当医生知道某个患者服用的是实验药物而不是安慰剂，会更加关注和记录产生的副作用）、失访偏倚（Attrition bias，指的是两组中退出试验的患者数量不同），以及发表偏倚（Publication bias，指的是临床试验的药物产生了“有效”的结论比“无效”结论更容易发表在杂志期刊上）。循证医学的支持者们发展出了各种“偏倚风险工具”，用于系统全面性地审视这些可能的试验偏倚。

其实，分配上的随机还不能最大程度的避免偏倚。如果分配的结果被参加试验的患者知道了，或者被研究人员知道了，仍然可能会导致一些潜意识的主观偏倚。这里就又要提到两个名词：安慰剂效应（placebo effect）或者观察者偏倚（observer bias）。安慰剂效应是指当患者接受一种实际上不含有任何活性成分的治疗（安慰剂，如假药、假治疗）后，由于心理或生理因素而产生积极的治疗效果，从而干扰实验药物真实效果的判定。而观察者偏倚指的是研究人员在收集、记录或分析研究数据时，因其主观期望、假设或先入为主的观点而导致的系统性偏倚，可能会无意中影响研究结果的准确性和客观性。也就是说，研究者和被研究者双方的知情都会潜在影响实验结果。为了进一步避免这个问题，“盲法”应运而生。“单盲法”指研究中一方不知道分组情况，通常是受试者，而“双盲”是研究中的受试者和研究人员均不知道分组情况，“三盲”是在双盲的基础上，后续的数据分析人员自己也不知道分组信息，所有分组信息在试验结束后才揭晓。

实际上，虽然随机对照试验的产生和后续各种改进的初衷是避免所有偏倚，但在实践中并非完美无缺。同时也不是说只要提到了“随机”和“盲法”，结论就一定比非随机的临床研究更靠谱。尽管如此，循证医学变革有些幼稚的支持者，高举随机对照试验的“锤子”，对他们来说每个问题都是钉子。当他们快乐地把锤子砸向家具、猫，甚至是早餐的鸡蛋时，他们封闭了自己的思想，不会考虑他们最爱的工具在这一系列环境中的局限性。

当随机对照试验用来研究更加复杂的干预方式时，结论可能具有较强的误导性，比如研究某种教育方式、某种建议、新型的服务工作结构，数字技术的使用，都需要人的主观参与、学习和操作。除非干预方式本身已经极致优化，保证参与者可以完全按照理想状况来行事，不然最后的结论就是干预方式几乎或者完全没效果。

图3：苏格兰母乳喂养临床试验：与事实相反的“科学”结论 | 来源：www.gcph.co.uk

在苏格兰进行的一项多试验测试中心随机对照试验显示，给愿意尝试母乳喂养的母亲社区支持和服务非但没有提高当地的母乳喂养率，甚至在某些地方“母乳喂养支持”组的喂养率低于对照组。实地调查分析表明，在这些地方，所谓的母乳喂养支持并非是人们想象中那样由经验丰富的工作人员无条件随时待命地来帮助新手妈妈调整婴儿姿势来哺乳，提供个体化的、温柔的、不带偏见的鼓励；事实上是在寒冷、吵闹、不友好的工作环境中，由一名超负荷的工作人员根据工作手册照本宣科，提供建议，严格按照规定执行操作。那里的“母乳喂养支持”组织没有什么组织力、领导力可言，所谓的母乳喂养“支持”团队也没什么工作激情，对帮助新手母亲建立母乳喂养缺乏兴趣和动力。这也就解释了，为什么做了母乳喂养支持工作还不如不做，不如让妈妈们自己去找找姐妹或邻居们帮忙更行之有效。然而，一些人对这种显而易见的事实视而不见，还坚持认为，已经有“科学证明”，母乳喂养支持是没用的。

在数字技术开发领域，医学领域以外的标准研究方法是迭代设计，也就是早期开发的原型会逐步在实验室和实际应用场景中进行测试，逐步改进，秉承的理念是“早失败、常失败”，失败来得越早、越频繁，开发和改进的代价就越低。聪明的设计师会采用广泛的方法来提高研发效率，比如民族志（Ethnography，仔细观察人们使用产品的过程）和出声思维技巧（Think-Aloud Technique，鼓励用户在使用产品时直接表达体验和不满）。

遗憾的是，虽然类似的方法在一定程度上也被应用于医学技术的开发，但这些产品往往随后会进行随机对照试验，与安慰剂对照组进行对比，又烧钱，又浪费时间，更重要的是没什么意义，因为技术版本迭代很快，试验过程中所用的版本，在试验结束前就已经变成“老古董”淘汰了。你会在手机系统更新之前要求做一个随机对照试验，来测试新版本与旧版本的差异吗？明显不会。当然这并不是说软件不需要经过实验性的测试，只是说随机对照试验这种只在药物研究中有重要地位，注重“证据级别”高低的研究模式，套用到快速发展的数字技术领域，既不合逻辑，也不切实可行。

人们对随机对照试验还有一个常见的错觉，那就是认为用其可以独立指导政策和指南的制定，天真地认为，任何决策应该尊重和崇尚科学, 不受政治因素影响。如果真是这样，那就好了！无论来源于随机对照试验还是其他类型研究的科学发现，常常都是模糊、不完整、有争议的甚至相互矛盾的。一种药物或疗法可能在医学上行之有效，但患者或公共医疗提供者负担不起。在公共医疗的背景下，机会成本可能显得尤为重要。一位患者使用了价格很贵但是能医保报销的心脏病药物，可能意味着另一个患者无法通过医保报销髋关节置换的手术，毕竟公共医疗的预算支出总额是有限的。还有在一些情况下，治疗可行但人力不足，例如当时需要一名具有丰富经验的技术专家来实施治疗，但当地没有这样的资源。此外有些干预措施，比如口罩、阿片类药物替代品、体外受精（试管婴儿）等在医学上可行，但是社会舆论或道德不支持。实际上，政策辩论中的各方往往都会引用所谓的“科学证据”。比如，对于一些特定的恶性肿瘤到底是需要药物治疗，还是放射治疗，还是手术切除，不同科室的专科大夫都倾向于援引支持自己专业方向的研究结果，来证明某种治疗方法具有优势，换而言之，“公说公有理，婆说婆有理”

有些循证医学的极端拥护者常常把布拉德福德·希尔的名字当成挡箭牌，企图将随机对照试验的模式强加于所有医学、社会研究领域，甚至政策制定。布拉德福德·希尔要是知道自己的名字被当成这些人的“免死金牌”，可能棺材板都压不住了。尽管他对随机对照试验的价值有着深刻的认识和研究，但他同样坚信，这种简单粗暴的实验方法（将错综复杂的真实世界简化为A与B两者间的单纯对比）并非金科玉律，而只能为现实世界的决策提供一部分的证据支持。对此，他还提出过“干预性研究九问”，又名布拉德福德·希尔标准（ Bradford Hill criteria），要求人们在解读研究结果之前，必须先一一回答这些问题。这九个问题中一部分需要用随机对照试验产生的证据来回答，其他问题的答案则来源于对现实世界的观察。

图4：临床试验的布拉德福德·希尔标准 | 来源：joshualoong.com

如果布拉德福德·希尔活到今天，他肯定会瞠目结舌，因为自己一百年前提出的、用于严谨测试药物效果的随机对照研究方法，现在已被循证医学的极端拥护者当作一把被滥用的武器，他们试图把临床研究的证据固化成一个“金字塔”结构，而随机对照试验就在塔尖，完全不承认临床研究其实是一个多元化的证据体系。现实世界日新月异，循证医学领域需要重新审视自己，听取布拉德福德·希尔曾经的谆谆教诲，采取一种更谦逊、更加多元的科学证据方法，才能更好地为人类健康服务。

致谢：

感谢渤健公司科学总监史隽对本文的审核和修订。

作者简介

Trisha Greenhalgh教授是英国著名的初级卫生保健专家，现任牛津大学初级卫生保健科学教授，英国医学科学院院士。她在剑桥大学获得社会与政治科学学士学位，随后在牛津大学完成医学学位。在学术界，Greenhalgh教授以其在循证医学和医疗创新领域的研究而闻名。她著作等身，其中《如何阅读论文：循证医学基础》（How to Read a Paper: The Basics of Evidence-Based Medicine）自1997年首次出版以来，已成为评估医学研究的重要参考书。研究兴趣方面，她涉猎初级卫生保健、医疗创新和全球健康等领域。此外，她还积极参与医疗政策的讨论和制定，曾与其他科学家和政策制定者联名致信英国首相，呼吁对国家卫生服务（NHS）周末服务质量的声明进行调查。Greenhalgh教授多年来的研究成果在全球范围内被广泛引用和应用，对初级卫生保健和循证医学的发展产生了深远影响。

本文主要译自Trisha Greenhalgh, Medical trials are not the whole truth，原文地址：

https://iai.tv/articles/medical-trials-are-not-the-whole-truth-auid-2989?_auid=2020