如何进行研究设计？|《临床试验基本原理（第五版）》新书抢先看_治疗_患者

编者按：它是Springer经典图书，从第一版面世至今已有42年历史；它是美国研究生课程的经典参考书目，被誉为“全面了解临床试验并迅速上手”的第一选择；它由5位NIH一线研究者著就，46位中国优秀科研工作者翻译；全书22章500+页内容，覆盖从确定科学问题到结果报告的方方面面；穿插60多个经典研究范例，以实践为媒将临床试验的原理娓娓道来。这就是AME即将推出的大部头译著——《临床试验基本原理（第五版）》。在图书预售之际，AME科研时间将精选部分图书内容进行连载，以便令读者进一步了解本书。今天我们分享几种主要的临床试验设计类型。

第五章基本研究设计

对照试验设计的理论基础首先创建并应用于农业，在一些经典统计学教材里有详细描述[1-4]。基于这些经典理论，对照试验的基本研究设计方法逐渐发展起来。

纵观临床研究的发展史，尽管在发展初期设立对照组的必要性已经被意识到了[5-6]，但直至1950年后，设立对照组的做法才被广泛接受[7]。从前，当开始研究一种新的治疗措施时，一般仅会在少量人群中进行比较，对比相同情况下既往接受了不同治疗方式的结局。这种比较是非正式的，常常仅依赖于记忆。有时候，在有种被称为“准试验”的研究中，受试者预先接受评估，在干预措施被实施后再次接受评估，与初始状态对比产生的变化用于评估这种新的干预措施的成败。无从得知的是，受试者是否在没有任何干预条件的情况下产生了同样的治疗效应。时至今日，这种类型的观察性研究已经成为一种新的治疗措施应用的基础。

当然，某些极其显著的研究结果使得对照组的设立毫无必要，然而，这种程度的研究结果往往是罕见的。其中一个例子是盘尼西林治疗肺炎球菌性肺炎的有效性，另一个经典例子来源于1884年Pasteur[8]叙述的注射一系列疫苗用于预防狂犬病的研究。由于狂犬病有较长的潜伏期，Pasteur认为在被咬后快速免疫接种可预防这种致死性疾病。首例患者是一名9岁男孩，他曾被一只感染狂犬病的狗咬伤，3天后接种疫苗完全有效。疗效在另一名被咬6天后接种疫苗的男孩身上也得到了验证。在随后的数年中，数以百计的患者接种了狂犬病疫苗，只要在一定的时间内接种，狂犬病疫苗总是有效的。

在急性暴发性病毒性肝炎患者身上，Gocke[9]报道了类似的非对照性研究。他连续对9例患者进行观察，所有患者均死亡。接下来一名确诊患者是位有肝昏迷的年轻护士，在标准治疗之外她被给予了免疫治疗。这名患者与其他8例被给予抗血清治疗患者中的4例一样，存活下来了。Gocke起初认为，这项非对照研究的结果是确定性的，然而，在考虑了其他可能的解释后，他不能排除的一种解释是，这些结果可能是由于他较早地对这些患者进行了较为周密的治疗，从而使得预后更好。因此，他进行了一项随机双盲的临床试验，比较澳抗超敏球蛋白与普通人血清球蛋白对于严重急性肝炎患者的有效性。随机进入对照组的28例患者中有19例（67.9%）死亡，进入治疗组给予外源性抗体治疗的25例患者中有16例（64%）死亡，两相对比，结果不具有统计学差异[10]。

许多疾病持续时间短或只是偶发事件，如果没有对照性研究，很难对这些疾病的治疗进行评价。Snow及Kimmelman[11]回顾了许多关于梅尼埃综合征手术治疗的非对照研究，他们发现，75%接受手术的患者症状得到了缓解，然而这与不接受治疗的患者的症状缓解率（达70%）相似。

考虑到几乎所有疾病均具有纷繁多样的自然病史，以及个体对于同一种干预措施反应的多样性，绝大多数研究者都承认设立一个清晰的对照组或比较组的必要性。

一、基本要点

科学合理的临床研究几乎总是需要一个与新的干预手段进行比较的对照组。随机化是把受试者分配到干预组或对照组的首选方法。

二、概述

统计学和流行病学的教科书及论文[12-31]均详细地描述了各种类型的研究设计。Green和Byar[32]叙述了“考虑治疗有效性的证据强度的分级”，在此分级规则中，奇闻逸事类的个案报道的证据等级是最低的，而证据等级最高的是有确定结果的随机对照临床试验，位于其后的是各种观察性或回顾性研究。在本章节中，我们将对几种主要的临床试验设计类型进行深入讨论。

大部分临床试验使用的平行设计是指干预组和对照组自分配入组的那一刻起，同时接受随访观察。与同时随访有别的是历史对照研究，这种研究设计是对一组受试者施加一种新的干预手段，与之前的接受了对照治疗或标准治疗的一组受试者进行比较。交叉试验是平行设计的一种重要改良形式，每个受试者至少进入对照组一次，进入一个或多个干预组一次。另一种重要改良是撤退试验，所有受试者首先接受积极干预，而后一部分受试者继续接受积极干预，而余下的受试者不再接受干预。析因设计试验，如下文所述，根据两个或更多的因素分配受试者进入干预组或对照组。

无论试验是典型的平行设计还是其他类型，都必须选择对照组的类型以及受试者的分配方式。对照组可以使用安慰剂、不做任何治疗处理、只做常规或标准治疗或使用其他指定的治疗方法。随机对照和非随机同期对照研究都将受试者分配给干预组或对照组，但只有前者通过随机化分组进行分配。杂交设计可将随机对照与非随机对照相结合。与其他类型的试验相比，大型、简单试验或实效性试验通常具有更广泛、更简单的纳入标准，但与其他研究类型一样，可以使用任一指定的对照。即使是随机分配，也可以以不同方式分配干预组和对照组。随机化可以通过单个受试者或受试者组（小组或群体分配）进行。适应性设计是指可以根据受试者的特征或治疗结局来调整干预组或对照组的入组分配或样本量。

最后，还有优效性试验、等效性试验以及非劣效性试验。优效性试验多年来一直是临床试验的典型设计方式，它是指评估一种新的干预措施是否不同于对照组（优于或差于对照组）。等效性试验是指评估一种新的干预措施是否大致等同于对照组。非劣效性试验是指设定一定的界值（δ）来评估一种新的干预措施是否不劣于对照组。在后两种设计中，对照组一般为一种已被证明有效的治疗方式。

人们往往对如何设立对照组提出疑问，但以往的争议主要围绕在历史对照和随机对照的使用上[33-35]。关于药物评估的争议没有过去那么激烈，但关于新医疗器械或新术式评估的争议一直非常激烈[36-37]。尽管学术界公认随机对照可以提供最佳的临床证据，但对于那些较少使用的医疗器械的审批通过可能会基于历史对照的数据，然后通过上市后研究的结果进一步评估可能存在的不良反应。其中一个典型例子是先天性心脏病心脏缺损的封堵装置[38]。需要注意的是，在进入市场使用后，临床上报告了罕见但严重的不良反应[39]。没有任何研究设计是完美的或能回答所有问题的，每个设计都有优缺点，但是随机对照设计是评价其他研究设计的标准。关于序贯设计将在第十七章叙述及讨论，这是因为序贯设计涉及了期中分析。

对于以下每种设计类型，为简化讨论，我们假定正在评估一个简单的对照组和一个简单的干预组。这些设计可以扩展到一个以上的干预组和对照组。

三、随机对照试验

随机对照试验是对干预组和对照组的比较性研究，对受试者的分配入组由正式的随机化程序确定。随机化是一个过程，简单而言，是指所有受试者被分配给干预组或对照组的机会均等。关于随机化的要点和特征将在第六章中讨论。与其他研究设计比，随机化设计在对照组的选择上具有三个优点[35]。

第一，随机化消除了研究者将受试者分配给干预组或对照组的潜在偏倚。在非随机同期对照或历史对照研究中，这种选择偏倚很容易发生，甚至难以避免，因为研究者或受试者均可能会影响干预措施的选择。这种影响可能是有意识的或潜意识的，并可由多种因素引起，包括受试者的预后。分配偏倚的存在很容易使比较无效化。随机化的优点是假定分配过程是以有效方式执行的，且无法预测分配结果。

第二，与第一点有关联的是，随机化更倾向于产生可比较的群体，也就是说，平均意义上，在随机分组时，被测量的以及未知、无法测量的预后因素和其他受试者特征在干预组和对照组之间形成平衡状态。这并不意味着在任意单一试验中，所有这些特征（有时称为基线变量或协变量）都在两组之间达到完美平衡。然而，这确实意味着对于独立的协变量，无论各组之间存在什么已被检测的、抑或未被检测到的差异，差异总体大小及方向在两组之间都趋向于均衡。当然，许多协变量彼此之间紧密关联，因此，任何一个协变量的不均衡都有可能导致其他协变量的不均衡。正如第六章及第十八章所述，分层随机化和分层分析是用于防止和校正不平衡随机化（即偶然偏倚）的常用方法。

第三，随机设计可以保证显著性检验的有效性。正如文献所述[35]，“尽管在任何单一试验中，进行组间比较时，在重要的协变量上都无法做到完美均衡，但随机化过程可将这种概率分布归因于接受同样有效治疗的组别之间的结果差异，因此可为研究观察到的差异指定显著性水平”。显著性检验的有效性并不取决于随机分组之间预后因素的均衡。仅依据随机化就可以证明2×2四格表的卡方检验和比较两个均数的t检验的正确性，而无须进一步对基线变量的分布进行假设检验。如果不使用随机化，则在进行比较之前，必须对各组别的可比性和统计模型的适当性作出进一步的假设，而这些假设有效性的确立可能很困难。

1977年，Chalmers等[40]回顾了在急性心肌梗死患者中使用抗凝治疗的随机和非随机对照试验，并对研究结论进行了比较。在32项研究中，有18项使用了历史对照，总共包含900例患者；8项使用了非随机同期对照，总共包含3 000多例患者；还有6项随机对照试验，包含超过3 800例患者。Chalmers等报道，在18项历史对照试验中有15项、在8项非随机同期对照试验中有5项的结果存在统计学显著性差异，支持抗凝治疗。然而在6项随机对照试验中，只有一项研究的结果存在显著性差异，支持抗凝治疗。综合这6项随机对照试验的研究结果，最终得出了抗凝治疗能使总体死亡率降低20%且具有统计学意义的结论，证实了非随机研究的结果。而对非随机对照研究的结果进行汇总表明，干预组的总体死亡率降低了约50%，为随机试验汇总结果的两倍以上。Peto[41]认为，总体死亡率下降比例的差异是偏倚所致。他认为，由于非随机试验中的假定的偏倚与假定的真实效应在数量级上相同，因此即使治疗措施是无效的，非随机试验中也可能出现阳性的结果。当然，对几个研究的结果进行汇总可能具有较大风险。正如Goldman和Feinstein[42]指出，并非所有抗凝药物的随机试验都对相同类型的受试者进行研究、使用完全一致的干预措施或测定同样的结局指标。此外，当然也并不是所有的随机试验都能被很好地完成。

在20世纪60年代，Grace、Muench和Chalmers[43]回顾分析了针对肝硬化门脉高压症患者行门腔分流手术的临床研究。在他们的综述中，47项非随机研究中有34项强烈支持分流手术，而4项随机对照试验中只有一项支持分流手术。作者得出的结论是，该手术不该被认可。

Sacks及合作者对上文提及的Chalmers等[40]的工作进行了扩展，纳入了5种其他干预措施[44]。他们得出结论，是选择偏倚导致了历史对照研究不恰当地偏向于新干预措施。此外，还需注意的是，许多随机对照试验的样本量并不够，因而无法得到阳性结果，但实际上阳性结果可能真实存在[45]。Chalmers等[46]还检查了145份关于心肌梗死后治疗的研究报告。在使用随机化时对干预组或对照组分配入组时适当设盲的57项研究中，14%的基线变量至少有一个明显分布不均（P<0.05），而所有变量中，3.4%在组别之间存在显著性差异。在这57项研究中，9%被发现组别之间的结局指标存在显著性差异。而在通过非随机化设立对照组的43项研究中，58%的基线变量存在差异，而所有变量中，34%存在组别间显著性差异。在非随机研究中，组别间的结果有58%存在显著性差异。在使用了随机化，但无法对对照组设盲的45项研究中，结果介于两者之间，28%的基线失衡，7%的基线变量存在显著性差异，24%存在显著的结果差异。

Ingelfinger[47]表示，对开展随机对照临床试验最常见的反对意见来源于“情感上和伦理学上的问题”。许多临床医生认为，无论临床证据的有效性是如何声称的，都不得剥夺受试者接受他们或他人认为有益的新疗法或干预措施的权利。随机化争论的焦点是典型的随机化试验剥夺了一半的受试者接受新的、假定疗效更好的干预措施的权利。

随机对照并非适用于所有的临床研究。有时，某些疾病十分罕见，以致于无法轻易获得足够大的样本量，在这种情况下，仅可能进行病例对照研究。这类研究，根据本书的定义不属于临床试验，流行病学教科书中对此类研究有详细叙述[15-16,22,28]。

Zelen[48]提出了一个标准随机对照研究的修改方案。他认为，对于不知道将要被分配到哪一个小组的前瞻性试验的受试者，研究人员通常不愿意招募他们。忽视对患者最佳治疗方式的表达与告知将损害传统的医患关系。因此，Zelen建议先将符合纳入标准的受试者进行随机分组，而后再对受试者进行临床试验的知情告知。仅对分配入积极干预处理组的受试者询问是否愿意参加试验，而对于对照组的受试者，只需跟踪并监控其结果指标。显然，这样的设计是无法使用盲法的。对于这种存在争议的设计，另一个为人所诟病的是伦理学问题，即不告知对照组的受试者他们事实上已经参与了试验。评估这种设计的效能取决于同意遵照指定干预措施的受试者的比例[49]，而为弥补这种可能存在的低效能，需要增加样本量。Zelen的改良方法曾取得不同程度的成功[50-51]，尽管在1979年就被提出，但它似乎并未得到广泛应用。

四、非随机同期对照研究

在这种类型的研究中，进入对照组的是不进行新的干预措施的受试者，他们在与干预组接受干预措施大致相同的时间内接受治疗。受试者被分配到两组之一，但是根据定义，这不是一个随机化过程。非随机同期对照研究的一个典型例子是比较在两个不同机构中接受不同方式治疗的患者的生存结果，其中一个机构使用一种新的外科手术方式，而另一机构使用传统的医疗手段。另一个例子是当为患者提供两种治疗方式中的一种时，患者选择了自己更倾向的一种。然后在两组之间进行比较，并对任何观察到的基线失衡进行校正。

对于一些研究者而言，与随机对照相比，非随机同期对照设计具有一些优势。有些研究者十分反对剥夺一个患者对治疗方式的选择机会，他们可能会支持这种设计。此外，研究人员有时难以说服潜在的受试者认可随机化的必要性。他们发现一个更容易的做法，即将某些受试者分配入干预组，其他的分配入对照组，以期望关键特征因素互相匹配。

非随机同期对照研究的主要潜在缺点是，干预组和对照组可能没有严格的可比性，或者说两组的可比性难以证实，这是因为研究者必须假定对照组已经包含了关于重要的预后因素的所有信息。通过匹配多个因素来选择对照组是不切实际的，因为对于多种其他特征的可比性仍需进行评估。对于某些小型研究，研究者不大可能发现那些在干预之前就已经真实存在的组间差异，因为在统计学上检测这些差异的敏感性较差。即使对于可检测到大多数具有实际临床意义差异的大型研究，未知或无法测量因素的不确定性仍须关注。

例如，是否存在一些未知且无法测量的过程，导致某种类型的受试者被更频繁地招募到这个组中而不是另一个组中？如果所有受试者均来自同一个机构，医生可能因为某些细微而无形的因素而将受试者选入某一组。此外，在将受试者分配到干预组或对照组中时，潜意识中有存在偏倚的可能性。一个组中的受试者可能来自与另一组不同的社会经济阶层，所有这些不确定性因素将降低非随机同期对照研究的可信度。非随机同期对照研究具有低成本、相对简单、研究人员与受试者接受度高等相对优势，但对于任何特定问题，在做出使用非随机同期对照研究的决策之前，必须对其相对性优势与潜在性偏倚的劣势进行仔细权衡。我们认为这种仔细的权衡在实践中很少被执行。

五、历史对照研究

在历史对照研究中，一项新的干预措施在一系列受试者中被使用，并将研究结果与既往一系列受试者的研究结果进行对比。因此，按照此定义，历史对照研究是非随机、非同期的。

（一）历史对照研究的优势

使用历史对照设计的论据是，所有新加入的受试者均可接受新的干预措施。正如Gehan和Freireich[33]所指出，许多临床医生认为，不应剥夺任何受试者接受新疗法或干预措施的可能性。某些临床医生可能仅需较少的支持性证据便会接受一项对临床有益处的新干预措施。如果一个研究人员已经认定这项新的干预措施在临床上是有益处的，那么他很可能会认为任何限制这项干预措施的手段都是不道德的，因此会更倾向于进行历史对照研究。此外，若确保受试者可接受某种特定的治疗或干预措施，他们可能会更愿意参加这项研究。最后，由于所有新加入的受试者都将接受新的干预措施，因此完成招募受试者参加临床试验所需的时间将缩短约一半。这使研究人员可以更快地获得结果，还可以利用给定的资料实施更多的研究；或者，干预组的样本量可以更大、效能更高。

Gehan[52]强调了历史对照研究在伦理学上的优势，并指出它们为医学知识作出了巨大贡献。Lasagna[53]认为，传统上，临床医生在做出治疗判断时依靠历史对照，他声称，尽管历史对照偶尔会出错，然而，这些判断往往正确且实用。

通常，历史对照研究的数据可以从两种来源获取。首先，对照组数据可存在于文献中。但这些数据通常不合要求，因为很难甚至不可能确定对照组和干预组的基线资料是否具有可比性。即使以相同的方式测定了这些指标，这部分信息也可能不会发表，并因此发生数据缺失。其次，有些数据可能尚未发表，但可能存在于计算机数据库文件或医学图表中。例如，用于对照组的数据可能存在于一个大型医疗中心的数个正在进行的临床研究中。当完成一项研究后，该研究的受试者数据可被用作以后某项研究的对照组。像癌症研究一样，进行连续性研究的中心通常会拥有一个数据系统，用于存储和检索过去研究的数据，以备将来使用。电子病历的出现也有助于从多个来源获得历史数据，尽管它并不能解决非标准化格式、变量的测量或丢失等问题。

（二）历史对照研究的局限性

尽管历史对照研究在成本、时间上及伦理上具有一定的优势，但必须牢记的是，它仍存在很多潜在的局限性，比如特别容易产生偏倚。Moertel[54]引用了许多癌症治疗研究的例子，这些例子在历史对照研究中被认为有益处。根据长达30年的数据，过去的许多治疗方法都被宣称为医学上的突破。Pocock[55]分析了19个在同一个机构的类似受试者身上使用同一干预措施的实例，这些受试者连续参加了两次试验。从理论上讲，两组使用相同的治疗方法，死亡率应相似，然而Pocock指出，这些组之间的死亡率差异范围在–46%至24%。相同干预措施的19个对照研究中有4个在5%的显著性水平上具有显著性差异。

某种疾病结局的改善可能归因于新的干预措施，而事实上，这种改善亦可能源于患者人群的变化或患者管理的改进。患者人群数量的变化可能是微妙的，甚至是无法被察觉的。美国退伍军人管理局泌尿外科研究小组（veterans administration urological research group，VAURG）的前列腺癌研究结果显示[56]，在7年的时间里将2 313人随机分为安慰剂组或雌激素治疗组，最后2~3年内入组的患者，安慰剂组和雌激素组之间没有发现差异；然而，最初2~3年入组安慰剂组的患者比最后2~3年入组雌激素治疗组的患者生存时间更短。最可能导致这种差异的原因是，最初随机入组的患者比最后入组的患者年龄更大，因此在随访期内死亡风险更高[35]。如果这是一项历史对照研究，且没有进行同期随机比较，那么研究结果可能会产生误导。

最近的一个例子包括两项评估心力衰竭患者使用钙拮抗剂氨氯地平潜在益处的临床试验。其中一项是PRAISE-1试验[57]，试验通过心力衰竭的缺血性或非缺血性病因进行分层，对使用氨氯地平或安慰剂的受试者进行随机分组。研究的主要结局指标是一个复合结局，即死亡率加上因心血管病住院治疗事件的发生率，其组间对比没有显著性差异（P=0.31），但单独考虑死亡率这一结局，其降低程度几乎达到了显著性差异（P=0.07）。考虑到与病因之间的交互作用，在非缺血性病因这一分层中，氨氯地平的所有益处在主要结局指标和死亡率中均可观察到。另一项是PRAISE-2试验[58]，仅在非缺血性病因引起的心力衰竭患者中进行。PRAISE-1中提到的令人印象深刻的亚组分析结果未被重复。与此相关的是，PRAISE-2中安慰剂组的心血管事件发生率显著低于第一次试验中非缺血性病因安慰剂组的（图5-1）。

PRAISE-2的信息来源于1999年12月19日研究者发送给SDAC的ENDPT数据集。PRAISE-1的结果仅适用于非缺血性病因亚组。*在PRAISE-1中，患者在接受器官移植时已删失，器官移植在此研究分析中不被视为心血管疾病事件。在PRAISE-2中，器官移植患者的存活情况在接受器官移植后被密切随访。

图5-1 PRAISE-1和PRAISE-2安慰剂组主要结局对比

即便是相同的研究者使用了相同的研究方案进行了两次试验，但参加第二次临床试验的受试者的类型与首次试验往往截然不同。协变量分析也无法解释结局的差异。

出于已知或未知原因，在更广的范围内，许多国家不同疾病的患病率存在随时间而发生改变的趋势[59]。因此，基于这些情况，任何涉及使用历史对照的关于长期治疗的临床试验都需要将治疗效应与时间趋势分开，但这几乎是不可能完成的任务。

图5-2阐释了在美国不同性别特定死因死亡率随时间的变化趋势[60]。一些死因有非常大的变化。图5-3阐释了美国不同类型肝炎的发病率变化趋势[61]。发病率的巨大改变使历史对照试验的解释变得困难。

死亡率已经过年龄校正。数据自1998年起，根据ICD-10代码的死因来进行分析。来源：美国疾病预防控制中心/国家卫生统计中心，联邦健康，2011[60]。数据获取自美国国家人口统计系统。

图5-2 美国1998~2008年不同性别全年龄段特定死因的死亡率变化趋势

来源：美国疾病预防控制中心/国家卫生统计中心，联邦健康，2008，图9。数据获取自美国国家法定传染病监测系统。

图5-3 美国不同类型肝炎的发病率变化趋势[61]

对某项特定研究而言，选择受试者的方法可能会对他们与之前的受试者群体或一般人群的可比性产生重大影响。冠心病药物研究项目[62]始于20世纪60年代的心肌梗死幸存者研究，对照组的年总死亡率预计是6%，这是基于未选定的心肌梗死患者群体的比率。而实际上，对照组的死亡率约为4%，干预组和对照组之间的死亡率对比没有显著性差异。使用历史对照，可以得出药物治疗使死亡率降低33%的结论。预期死亡率与研究中观察到的死亡率之间存在差异的一种解释是，纳入标准中排除了那些病情最严重的心肌梗死患者。

由于技术的进步，某种特定疾病的诊断标准可随之发生变化，可能导致该特定疾病被发现并被记录的频率以及预后发生重大变化。血清肌钙蛋白的升高有时可用于排除急性心肌梗死，它可以对心肌梗死的其他特征（例如症状或心电图变化）进行鉴别、排除，显然，这种方法的使用可明显提高心肌梗死的诊断率。肌钙蛋白测定类别的改变以及肌钙蛋白用于心肌梗死再定义的改变也会进一步影响心肌梗死的发病率。相反，提升应用经皮冠状动脉介入或溶栓治疗来阻遏进展中的心肌梗死的能力可以减少心肌梗死确诊患者的数量。

1993年，美国疾病预防控制中心（Centers for Disease Control and Prevention，CDC）对HIV感染实行修订后的分类，并扩充了艾滋病监测病例的定义。这项举措影响了报告的病例数[63-64]，如图5-4所示。

*疾病定义在1987年10月作出过修订，根据修订后的诊断标准额外增加了病例数。†疾病定义于1993年作出过修订，增加了CD4阳性的标准及三种疾病（肺结核、复发性肺炎和侵袭性宫颈癌）。

图5-4 美国1984—1993年的艾滋病患者病例数（按季度记录）[64]

国际编码系统和疾病的名称会定期修改，而除非人们意识到这种修改，否则在某些特定疾病的患病率可能会突然发生急剧变化。例如，1968年《国际疾病分类》第八次修订版出台时，缺血性心脏病的死亡人数比第七次修订版中确定的死亡人数增加了近15%[65]。当第九次修订版在1979年出台时，以相近的幅度往下做了一定程度的修正[66]。过渡到第十次修订版时，也将产生死因分布的相应变化[67]。关于历史对照设计的一个共同关注点是对照组数据收集的准确性和完整性。除了许多正在进行的临床研究的中心以外，数据往往都是由不计其数的人员以非统一的方式收集的。缺乏统一的收集方法很容易导致记录的不完整与错误。因为从病历中收集到的数据具有很大的局限性，所以从包含了数项临床研究并具有计算机化数据管理系统的医学中心提取的历史对照数据可能最为可靠。

（三）历史对照研究的定位

尽管历史对照研究具有一定的局限性，它仍然在科学研究中占有一席之地。作为获得新疗法初始印象的一种快速、廉价的方法，这样的研究非常重要，特别是当研究人员了解潜在偏倚并且在偏倚导致了研究结果错误以后愿意放弃有效新疗法的时候。Bailar等[68]确立了能加强历史对照研究结论可靠性的几个要点，其中包括提前确立合理的假设和分析计划。

在一些特殊情况下，比如疾病的诊断标准很明确、疾病的预后很清楚或者疾病高度致命，历史对照可能是唯一合理的研究设计。比如，与既往的研究结果相比，青霉素治疗肺炎球菌性肺炎的效果是如此显著，以至于进一步的证据显得毫无必要。同样，与以往未经治疗的恶性高血压患者相比，进行治疗的益处显而易见[69-71]。

使用前瞻性注册数据来描述患者特征并评估治疗效果值得提倡[72-74]。支持者认为，系统性的数据收集和随访方法可提供当地患者人群的相关信息，并有助于临床决策。他们认为加入临床试验中的群体可能无法代表医生的实际临床患者。Moon等[75]描述了使用从临床试验中获得的数据库来评估治疗效果的方法。他们强调，通过这些来源获得的高质量数据，可以减少典型历史对照研究的局限性。许多医院和其他大型医疗保健系统都有电子健康记录，其他临床护理机构也正缓慢地将传统记录转变为电子化记录系统。至少在某种程度上，由于这些系统的存在以及访问庞大的电子化医学数据库更加便捷，在治疗结局的研究中数据库应用迅猛发展[76]。这种类型的临床数据分析比进行临床试验更快捷和低廉。数据库也可用于识别不良事件，例如比较不同的降压药对脑卒中的风险[77]和COX-2抑制剂对冠心病的风险[78]。此外，数据库代表的人群可能比典型的临床试验要广泛得多，因此可对临床试验的结果进行适当的补充。但我们需要时刻记住，药物的使用者和非使用者是截然不同的，因此他们具有不同的特征。

有部分学者[32,79-81]强调了临床注册研究的局限性，例如治疗分配中的潜在偏倚、多重比较，收集和数据报告缺乏标准化以及数据丢失等。前瞻性数据库注册研究的另一个缺点是它们严重依赖于分析数据使用的统计学模型的有效性[82]。

Lauer和D’Agostino[83]注意到临床试验的高昂费用，并认为大型数据库可能可以替代那些因经费不足而无法继续进行的临床试验。他们还指出，现有的注册数据库和电子健康记录可以协助临床试验的进行，TASTE试验就具有详尽的电子健康记录[84]。

毫无疑问，大型数据库的分析结果可以提供疾病发生和结局的重要信息，及某些治疗方法是否更可取的建议。如上所述，历史对照研究可以用于帮助揭示在选定人群中进行的临床试验结果是否适用于更广泛的人群。然而，考虑到这一研究方法存在固有偏倚的可能性，在评估一种干预手段是否真正优于另一种时，历史对照研究不能替代临床随机试验。

关于交叉设计，撤退试验，析因设计，整群分配设计，杂交设计，大型、简单试验和实效性试验，等效性试验和非劣效性试验以及适应性设计，您将在书中看到更多详细内容

若您只对部分章节感兴趣，也可扫描下方二维码，线上阅览单章内容

参考文献

（向上滑动👆）

[1] Fisher R A. Statistical Methods for Research Workers[M]. Edinburgh：Oliver and Boyd，1925.

[2] Fisher R A. The Design of Experiments[M]. Edinburgh：Oliver and Boyd，1935.

[3] Cochran W G，Cox G M. Experimental Designs[M]. 2nd ed. New York：John Wiley and Sons，1957.

[4] Cox D R. Planning of Experiments[M]. New York：John Wiley and Sons，1958.

[5] BULL J P. The historical development of clinical therapeutic trials[J]. J Chronic Dis，1959，10：218-248.

[6] Eliot M M. The control of rickets：preliminary discussion of the demonstration in New Haven[J]. JAMA，1925，85：656-663.

[7] HILL A B. Observation and experiment[J]. N Engl J Med，1953，248(24)：995-1001.

[8] Macfarlane G. Howard Florey：The Making of a Great Scientist[M]. Oxford：Oxford University Press，1979.

[9] Gocke D J. Fulminant hepatitis treated with serum containing antibody to Australia antigen[J]. N Engl J Med，1971，284(15)：919.

[10] Failure of specific immunotherapy in fulminant type B hepatitis[J]. Ann Intern Med，1977，86(3)：272-277.

[11] Snow J B Jr，Kimmelman C P. Assessement of surgical procedures for Ménière’s disease[J]. Laryngoscope，1979，89(5 Pt 1)：737-747.

[12] Armitage P，Berry G，Matthews J N S. Statistical Methods in Medical Research[M]. 4th ed. Malden，MA：Blackwell Publishing，2002.

[13] Brown B W，Hollander M. Statistics：A Biomedical Introduction[M]. New York：John Wiley and Sons，1977.

[14] Feinstein A R. Clinical Biostatistics[M]. St Louis：The C.V. Mosby Company，1977.

[15] MacMahon B，Trichopoulos D. Epidemiology：Principles and Methods[M]. 2nd ed. Boston：Lippincott Williams & Wilkins，1996.

[16] Lilienfeld D E，Stolley P D. Foundations of Epidemiology[M]. 3rd ed. New York：Oxford University Press，1994.

[17] Srivastava J N. A Survey of Statistical Design and Linear Models[M]. Amsterdam：North-Hollard，1975.

[18] Peto R，Pike M C，Armitage P，et al. Design and analysis of randomized clinical trials requiring prolonged observation of each patient. I. Introduction and design[J]. Br J Cancer，1976，34(6)：585-612.

[19] Brown B W Jr. Statistical controversies in the design of clinical trials—some personal views[J]. Control Clin Trials，1980，1：13-27.

[20] Pocock S J. Allocation of patients to treatment in clinical trials[J]. Biometrics，1979，35(1)：183-197.

[21] Brown B W Jr. The crossover experiment for clinical trials[J]. Biometrics，1980，36(1)：69-79.

[22] Hennekens C H，Buring J C. Epidemiology in Medicine[M]. Boston：Little，Brown，1987.

[23] Byar D P. Some statistical considerations for design of cancer prevention trials[J]. Prev Med，1989，18(5)：688-699.

[24] Geller N L. Advances in Clinical Trial Biostatistics[M]. New York：Marcel Dekker，2003.

[25] Piantadosi S. Clinical Trials：A Methodologic Perspective[M]. 2nd ed. New York：John Wiley and Sons，2005.

[26] Machin D，Day S，Green S. Textbook of Clinical Trials[M]. 2nd ed. West Sussex：John Wiley and Sons，2006.

[27] Green S，Benedetti J，Crowley J. Clinical Trials in Oncology[M]. 3rd ed. Boca Raton：CRC Press，2012.

[28] Hulley S B，Cummings S R，Browner W S，et al. Designing Clinical Research[M]. 4th ed. New York：Wolters Kluwer/Lippincott Williams & Wilkins，2013.

[29] Meinert C L. Clinical Trials：Design，Conduct，and Analysis[M]. 2nd ed. New York：Oxford University Press，2012.

[30] Cook T D，DeMets D L. Introduction to Statistical Methods for Clinical Trials[M]. Boca Raton：Chapman & Hall/CRC，Taylor & Francis Group，LLC，2008.

[31] Chow S-C，Shao J. Statistics in Drug Research：Methodologies and Recent Developments[M]. New York：Marcel Dekker，2002.

[32] Green S B，Byar D P. Using observational data from registries to compare treatments：the fallacy of omnimetrics[J]. Stat Med，1984，3(4)：361-373.

[33] Gehan E A，Freireich E J. Non-randomized controls in cancer clinical trials[J]. N Engl J Med，1974，290(4)：198-203.

[34] Weinstein M C. Allocation of subjects in medical experiments[J]. N Engl J Med，1974，291(24)：1278-1285.

[35] Byar D P，Simon R M，Friedewald W T，et al. Randomized clinical trials. Perspectives on some recent ideas[J]. N Engl J Med，1976，295(2)：74-80.

[36] Sapirstein W，Alpert S，Callahan T J. The role of clinical trials in the Food and Drug Administration approval process for cardiovascular devices[J]. Circulation，1994，89(4)：1900-1902.

[37] Hlatky M A. Evidence-based use of cardiac procedures and devices[J]. N Engl J Med，2004，350(21)：2126-2128.

[38] AMPLATZER® Septal Occluder[EB/OL]. http://www.fda.gov/MedicalDevices/ProductsandMedical Procedures/DeviceApprovalsandClearances/Recently-ApprovedDevices/ucm083978.htm

[39] St. Jude Amplatzer Atrial Septal Occluder (ASO)：Safety communication— reports of tissue erosion[EB/OL]. http://www.fda.gov/safety/medwatch/safetyinformation/ safetyalertsforhumanmedical products/ucm371202.htm

[40] Chalmers T C，Matta R J，Smith H Jr，et al. Evidence favoring the use of anticoagulants in the hospital phase of acute myocardial infarction[J]. N Engl J Med，1977，297(20)：1091-1096.

[41] Peto R. Clinical trial methodology[J]. Biomedicine，1978，28 Spec No：24-36.

[42] Goldman L，Feinstein A R. Anticoagulants and myocardial infarction. The problems of pooling，drowning，and floating[J]. Ann Intern Med，1979，90(1)：92-94.

[43] Grace N D，Muench H，Chalmers T C. The present status of shunts for portal hypertension in cirrhosis[J]. Gastroenterology，1966，50(5)：684-691.

[44] Sacks H，Chalmers T C，Smith H Jr. Randomized versus historical controls for clinical trials[J]. Am J Med，1982，72(2)：233-240.

[45] Sacks H S，Chalmers T C，Smith H Jr. Sensitivity and specificity of clinical trials. Randomized v historical controls[J]. Arch Intern Med，1983，143(4)：753-755.

[46] Chalmers T C，Celano P，Sacks H S，et al. Bias in treatment assignment in controlled clinical trials[J]. N Engl J Med，1983，309(22)：1358-1361.

[47] Ingelfinger F J. The randomized clinical trial[J]. N Engl J Med，1972，287(2)：100-101.

[48] Zelen M. A new design for randomized clinical trials[J]. N Engl J Med，1979，300(22)：1242-1245.

[49] Anbar D. The relative efficiency of Zelen’s prerandomization design for clinical trials[J]. Biometrics，1983，39(3)：711-718.

[50] Ellenberg S S. Randomization designs in comparative clinical trials[J]. N Engl J Med，1984，310(21)：1404-1408.

[51] Zelen M. Randomized consent designs for clinical trials：an update[J]. Stat Med，1990，9(6)：645-656.

[52] Gehan E A. The evaluation of therapies：historical control studies[J]. Stat Med，1984，3(4)：315-324.

[53] Lasagna L. Sounding Boards. Historical controls：the practitioner’s clinical trials[J]. N Engl J Med，1982，307(21)：1339-1340.

[54] Moertel C G. Improving the efficiency of clinical trials：a medical perspective[J]. Stat Med，1984，3(4)：455-468.

[55] Pocock S J. Letter to the editor[J]. Br Med J，1977，1：1661.

[56] Treatment and survival of patients with cancer of the prostate. The Veterans Administration Co-operative Urological Research Group[J]. Surg Gynecol Obstet，1967，124(5)：1011-1017.

[57] Packer M，O’Connor C M，Ghali J K，et al. Effect of amlodipine on morbidity and mortality in severe chronic heart failure. Prospective Randomized Amlodipine Survival Evaluation Study Group[J]. N Engl J Med，1996，335(15)：1107-1114.

[58] Packer M，Carson P，Elkayam U，et al. Effect of amlodipine on the survival of patients with severe chronic heart failure due to a nonischemic cardiomyopathy：results of the PRAISE-2 study (prospective randomized amlodipine survival evaluation 2)[J]. JACC Heart Fail，2013，1(4)：308-314.

[59] Havlik R J，Feinleib M. Proceedings of the Conference on the Decline in Coronary Heart Disease Mortality[M]. Washington，D.C.：NIH Publication No. 79-1610，1979.

[60] Health，United States，2011，With Special Feature on Socioeconomic Status and Health. U.S. Department of Health and Human Services，Centers for Disease Control and Prevention，National Center for Health Statistics[EB/OL]. http://www.cdc.gov/nchs/data/hus/hus11.pdf，page 32，figure 3.

[61] Health，United States，2008，With Special Feature on the Health of Young Adults. U.S. Department of Health and Human Services，Centers for Disease Control and Prevention， National Center for Health Statistics[EB/OL]. http://www.cdc.gov/nchs/data/hus/hus08.pdf，page 37，figure 9.

[62] Clofibrate and niacin in coronary heart disease[J]. JAMA，1975，231(4)：360-381.

[63] 1993 revised classification system for HIV infection and expanded surveillance case definition for AIDS among adolescents and adults[J]. MMWR Recomm Rep，1992，41(RR-17)：1-19.

[64] Centers for Disease Control and Prevention (CDC). Update：trends in AIDS diagnosis and reporting under the expanded surveillance definition for adolescents and adults--United States，1993[J]. MMWR Morb Mortal Wkly Rep，1994，43(45)：826-831.

[65] Rosenberg H M，Klebba A J. Trends in cardiovascular mortality with a focus on ischemic heart disease：United States，1950-1976. In Havlik R，Feinleib M (eds). Proceedings of the Conference on the Decline in Coronary Heart Disease Mortality[M]. Washington，D.C.：NIH Publication No. 79-1610，1979.

[66] National Heart，Lung and Blood Institute. Morbidity and Mortality Chartbook on Cardiovascular，Lung and Blood Diseases[M]. Rockville：National Institutes of Health，1994.

[67] Centers for Disease Control and Prevention. International Classification of Diseases，(ICD-10-CM/PCS) Transition[EB/OL]. [2015-11-6]. http://www.cdc.gov/nchs/icd/icd10cm_pcs_impact.htm.

[68] Bailar J C 3rd，Louis T A，Lavori P W，et al. Studies without internal controls[J]. N Engl J Med，1984，311(3)：156-162.

[69] DUSTAN H P，SCHNECKLOTH R E，CORCORAN A C，et al. The effectiveness of long-term treatment of malignant hypertension[J]. Circulation，1958，18(4 Part 1)：644-651.

[70] BJORK S，SANNERSTEDT R，ANGERVALL G，et al. Treatment and prognosis in malignant hypertension：clinical follow-up study of 93 patients on modern medical treatment[J]. Acta Med Scand，1960，166：175-187.

[71] Bjork S，Sannerstedt R，Falkheden T，et al. The eﬀect of active drug treatment in severe hypertensive disease：an analysis of survival rates in 381 cases on combined treatment with various hypotensive agents[J]. Acta Med Scand，1961，169：673-689.

[72] Starmer C F，Lee K L，Harrell F E，et al. On the complexity of investigating chronic illness[J]. Biometrics，1980，36(2)：333-335.

[73] Hlatky M A，Lee K L，Harrell F E Jr，et al. Tying clinical research to patient care by use of an observational database[J]. Stat Med，1984，3(4)：375-387.

[74] Hlatky M A，Califf R M，Harrell F E Jr，et al. Clinical judgment and therapeutic decision making[J]. J Am Coll Cardiol，1990，15(1)：1-14.

[75] Moon T E，Jones S E，Bonadonna G，et al. Using a database of protocol studies to evaluate therapy：a breast cancer example[J]. Stat Med，1984，3(4)：333-339.

[76] Anderson C. Measuring what works in health care[J]. Science，1994，263(5150)：1080，1082.

[77] Klungel O H，Heckbert S R，Longstreth W T Jr，et al. Antihypertensive drug therapies and the risk of ischemic stroke[J]. Arch Intern Med，2001，161(1)：37-43.

[78] Graham D J，Campen D，Hui R，et al. Risk of acute myocardial infarction and sudden cardiac death in patients treated with cyclo-oxygenase 2 selective and non-selective non-steroidal anti-inflammatory drugs：nested case-control study[J]. Lancet，2005，365(9458)：475-481.

[79] Byar D P. Why data bases should not replace randomized clinical trials[J]. Biometrics，1980，36(2)：337-342.

[80] Dambrosia J M，Ellenberg J H. Statistical considerations for a medical data base[J]. Biometrics，1980，36(2)：323-332.

[81] Sheldon T A. Please bypass the PORT[J]. BMJ，1994，309(6948)：142-143.

[82] Mantel N. Cautions on the use of medical databases[J]. Stat Med，1983，2(3)：355-362.

[83] Lauer M S，D’Agostino R B Sr. [J]. N Engl J Med，2013，369(17)：1579-1581.

[84] Fröbert O，Lagerqvist B，Olivecrona G K，et al. Thrombus aspiration during ST-segment elevation myocardial infarction[J]. N Engl J Med，2013，369(17)：1587-1597.

翻译：李冠华，中山大学孙逸仙纪念医院

审校：陈凌霄，山东大学齐鲁医院

资讯

AME旗下18本期刊最新影响因子｜2023年6月

责任编辑：高晨 AME Publishing Company

排版编辑：王翩AME Publishing Company

b.01.2023.11.28.01

点击

阅读原文

购买图书返回搜狐，查看更多

手机狂魔小小爱

如何进行研究设计？|《临床试验基本原理（第五版）》新书抢先看