如果想了解生物统计在临床试验中的应用,那么我们最好有一个gulideline的东西来指导我们。ICH E9 临床试验的统计学指导原则便是这么一个guideline,它是我们临床试验生物统计的依据和基础。
ICHE9 Statistical principles for clinical trials (临床试验的统计学指导原则)可谓生物统计师的bible,目的在于协调欧洲、日本和美国在进行药品上市申请的临床试验时所应用的统计学方法的指导原则。虽说中国是协调三方之外的国家,SFDA还为此另外制定了自己的《化学药物和生物制品临床试验的生物统计学技术指导原则》,但其内容基本还是翻译节选了ICH E9的内容。
通过阅读ICH E9,你可以对临床试验生物统计有一个初步的轮廓上的了解,这一点很重要,临床试验生物统计和我们在学校里学的卫生统计或者数理统计还是有所不同的,ICH E9可以使你初步认识到这两者的一些不同,可以使你在思维上实现向临床试验生物统计的一些初步转变,当然这个转变不是简单地阅读ICH E9就能实现的,更重要的是通过一些临床试验生物统计的实践,以及你本身对整个临床试验的流程的进一步理解来实现的。ICH E9是你的第一步。。。
小胖说统计(004-如何从统计角度来review研究方案)2014-05-06 泰格医药闻增玉 + I: E+ C3 C5 ]7 \
8 x, D3 T& Y5 ?: {5 {( {
- U* k/ |. r, D$ Y一个临床试验研究方案的撰写,离不开统计,那么对于一个完整的研究方案,从统计角度它应该包括什么内容,或者一个统计师应从那些方面来review呢,小胖在此小谈一下,个人愚见,仅供参考。 1. 必须有具体明确的研究目的。这点勿容置疑,如果你连研究目的和用来证实研究目的的终点指标都没搞清楚,你就别做了,准备洗洗睡吧。。。研究目的是啥?研究目的就是你做这个试验想要回答的问题。设立正确的研究目的是临床试验最关键的一部分。研究目的一旦确定,它就直接决定着你的临床试验设计、数据的收集、数据的分析乃至最后的结论的确立和解释,因此研究目的可谓整个临床试验的基石。当我们review我们临床试验的研究目的时,首先要问自己两个问题:- 这个研究目的是否合理和切合实际?很简单咱不能做不切实际的幻想。- 这个研究目的可否可以被证实,就是说根据我们的研究方案能否回答我们的研究目的。研究目的应该尽量具体化,而不是仅仅说确立某某药的疗效和安全性。研究目的不宜过多,如果研究目的不止一个,那么应对研究目的进行排序。2. 统计学假设(Hypothesis)。就是你统计检验要检验的东西,这个必须与你的研究目的相对应。3. 必须有清楚的终点(endpoints)。一般会有主要终点和次要终点。主要终点是临床试验最重要的指标,能最确切地反应药物的疗效或安全性。通常情况下,主要终点只有一个,这也是最理想的状态,当然在一些疾病的临床试验中,需要同时从两个方面对疗效进行评估,这时会出现co-primary endpoints。如果存在多个主要终点时,就要考虑控制I类错误。所以小胖建议大家在设计临床试验时,尽量选择单一的主要终点,比较易于设计、分析和解释。主要终点也是样本量计算的依据,这一点很重要哦。还有一点小胖要提醒大家的是,在选择主要终点时,尽量选择客观性指标。如果选择一些生活质量评分诸如此类的主观性指标,很容易在研究者评分或受试者评分时产生较大的偏倚,小胖就曾看到过双盲安慰剂对照的临床试验因为把所谓的受试者评分作为主要终点,结果因为产生较大的偏倚而导致失败的例子,因此说实话,特别是在国内,这种主观性的评分还是不要作为主要终点为好,来自研究者、受试者以及各方面的偏倚会很多。。。关于次要终点,就强调两点,一是必须与试验目的相关,二是数目不要太多。4. 合适的临床试验设计。在review研究设计时,可首先问自己一个问题,就是这个试验设计能不能回答你的研究目的?这是最重要的。啥临床试验设计类型那,有平行设计、交叉设计、析因设计以及现在hot的成组序贯设计等。当然大家接触的最多的是平行设计。当然在比较类型上还有优效、等效和非劣效。这里的临床试验设计包括很多方面,review啥呢,其实把研究方案中的study flow chart看好了,就基本差不多了。。。5. 终点指标的定义和测量方法。在研究方案中必须加以详细描述,特别注意一些关键的时间点的定义,比如基线和终点时间等。这对以后的统计分析至关重要。这里需要强调的是在一些肿瘤临床试验中,终点指标的定义比如应答的定义等。测量方法比如MMR等的描述必须详细准确。6. 符合入选/排除标准的研究人群。小胖在这里简单说两句。你可以简单问自己两个问题,一是你选择的人群的疾病是不是太轻度以至于无法检测出差异,二是你选择的人群的疾病是不是太严重以至于无法检测出差异。另外,小胖需要说的是,一些标准可以在入选标准中出现,也可以在排除标准中出现,而不用在入选/排除标准中同时出现。现在很多方案,明明在入选标准中已经说明了,非要在排除标准中再不厌其烦地反着说一遍。比如你在入选标准里规定了18-75岁的受试者,结果你还要在排除标准里写上年龄<18或>75。不是说不对,但小胖认为这样不大专业。。。7. 入组和随机化分配方法。方案中应详细说明受试者入组和随机化分配方法。随机化方法主要有简单随机化、区组随机化和分层随机化。现在我们的多中心试验大部分采取的是以中心为分层因素的中心区组随机化。至于具体的随机化方法,小胖将在以后的文中设立专题介绍,这里不再赘述。8. 根据研究目的确定样本量。样本量的计算也许是统计师遇到的最常见的问题之一,关于样本量的确定,小胖会在以后单独讨论。在这里小胖先给大家讲几点。一样本量的计算通常应根据主要指标;二是你需要提供给统计师最重要的东西是difference,也就是两组之间的差异(非劣效试验为非劣效界值);三是样本量的计算的关键和难处在于effect size 的估计,这是一个广泛阅读文献和临床实践的过程,当然最难的工作不属于统计师,统计师的工作就是计算,这个吗,简单,有公式,有软件。。。9. 数据收集。很简单,这是建立database和进行统计分析的基础,无须多言10. 盲底保存和揭盲的方法。这个进局限于盲态试验,这个我相信每个公司都有自己的SOP,具体小胖以后将做介绍。11. 中期分析及数据监查的办法。中期分析在肿瘤试验中比较常见,但因涉及到一类错误的调整、独立数据核查机构等较为复杂的问题,在国内临床试验中较为少见。小胖以前一直在强调的一点,就是plan,这一点在中期分析上尤为重要。对中期分析的具体操作方法和统计处理方法必须在研究方案中事先规定,而不能在试验开始后,随便进行到一段时间后,就来个分析,还美其名曰中期分析。。。12. 样本量的核查以及变更。这一点较为少见,主要适用于adaptive design,就是根据中期分析的结果进行样本量的调整。。13. 多重性问题。主要包括多个主要变量和多个处理组间的比较,在统计学方法上会涉及到一类错误的调整以及对power的影响。14. 对失访、缺失以及方案违背的处理15. 对各种类型数据的统计分析方法,具体说是连续型数据,分类型数据,时间事件数据等。。。16. 数据管理和统计分析使用的系统和软件,无非是clintrial,OC,SAS等等。
& r* S) r" _. o3 C9 L4 W7 N! y3 s
( d+ V$ H+ r8 `9 R" L2 A
6 d. D7 H" b5 J3 y7 K9 f' j
1 |6 @* _& P: s' u从整个临床试验的角度考虑,我们通常可以把临床试验分为Confirmatory Trial(验证性试验)和Exploratory Trial (探索性试验)两种类型。
什么是验证性试验呢?简单地讲,验证性试验就是检验假设(Hypothesis-testing)的试验,是一种事先提出假设,并对其进行检验的有对照组的试验,它可以提供疗效和安全性方面的确定的证据。我们进行的验证性试验包括所有的III期试验、大多数IV期试验以及一些晚期的II期试验。当然对于验证性试验,我们接触最多的便是III期注册试验。其中验证性试验最核心的部分就是假设(Hypothesis),而对于它必须做到:
- 假设必须直接根据试验的主要目的确定
- 假设必须在试验前事先确定
- 假设必须在试验完成后进行检验
在临床试验中,假设通常是建立在药物的疗效、安全性或药物经济学结局等方面的基础上的。这个假设通常是关于临床试验需要解决的问题,即根据试验的主要目的确定的。
举个例子来说,有一个新药A,我们想知道它在降血压方面是不是优于B药。这是我们关心的问题,也是我们研究的主要目的。我们就可以根据这个研究目的确定我们研究的假设,这时的研究假设一般有两个:
- 我们要推翻要质疑的假设,也叫空假设(null hypothesis),标识为H0,在这里为:A药和B药在降血压方面没有差异
- 我们先要或者说希望得到的假设,也叫备择假设(alternative hypothesis),标识为H1,在这里为:A药和B药在降血压方面有差异
与验证性试验对应的探索性试验,对数据作一些探索分析,可能会做一些假设检验,但这些假设不需要是事先确定的,而是根据数据的特点而定的,因此不能作为证实疗效的正式依据。虽然说是探索,但其也应有清晰的明确的目的。其实,一系列的探索性试验正是验证性试验必要性及设计的基础。简单地说,探索性试验是产生假设(hypothesis-generating),验证性试验是检验假设(hypothesis-testing)。探索性试验常见于一些II期试验,现在越来越多被一些研究者申办的上市后研究所采用(post-marketing exploratory study),基本是为了探索新的用法以及新的应用范围等。
最后还要提一点,就是往往每个试验都同时具有探索和验证两方面。比如,在大多数验证性试验中,常对一些资料进行探索分析,而往往这些探索的结果可为后续的研究提出进一步的假设。
/ _) G1 _' ]1 T0 U小胖说统计(006-临床试验研究人群的选择)
_$ Z, p- X5 x$ R# O7 }& K1 y# J" O3 D, ^/ ?
: W) {- [$ O+ V众所周知,临床试验一个主要的目的就是提供某种药物对于患有某种疾病的病人群体的准确可靠的临床评估。而我们的统计和临床推断都是基于这个病人群体中的抽取的样本。什么意思呢?举个例子,我们要做一个降脂药治疗原发性高胆固醇血症的试验,那么研究人群(population)就是原发性高胆固醇血症病人,在具体实践中,我们会根据样本量的大小,从原发性高胆固醇血症病人(总体)抽取一定数量的病人(样本),进行病人入组,接受治疗,然后对这些抽取的病人(样本)的疗效和安全性进行评估,并进行统计和临床推断,然后再推广到整个原发性高胆固醇血症病人(总体),进而得出最后的结论,这就是一个样本描述推断总体的过程。
临床试验中的研究人群是通过入选/排除标准来确定的,因此入选/排除标准的确定对于试验的成功显得十分重要。入选/排除标准的确定主要应基于病人的基本特征、诊断标准以及疾病严重程度等。
在研究方案制定时,对临床试验目标人群的选择十分重要。这时往往存在两种选择偏差情况,一种情况是选择的人群过于宽泛,比如说,你的研究药物可能只对程度严重的某种疾病更为有效,可是你选择了轻、中、重各种程度的病人,结果导致观察不到期望的临床疗效;另一种情况对选择的人群过于限制,比如你只选择了某种疾病中某个基因型或者具有某个基线特征的病人,虽然得到了你期望的临床疗效,但批准的适应症很可能也仅限于这个特征的病人人群,在以后的市场推广方面会受到很大的限制。
一句话,一切都是度,而如何把握这个度,那才是最难的……
4 f7 {* ~2 A, m _0 l9 J: [ j9 p7 @) N* N( d( o( d
6 [" r7 z8 B5 w2 [; ]
: J0 k! e3 {$ C V, V! d关于主要终点(primary endpoints, primary variables)和次要终点(secondary endpoints, secondary variables), ICH E9中有较为详细的描述。小胖在这里简要地给大家作一下概括。
对于主要终点来说:
- 与研究主要目的直接相关
- 最好只选择一个
- 早期研究或在已发表的文献中报道过的可信有效的变量
- 用于样本量的计算
- 预先在方案中规定
) w$ j- i& C- q
对于次要终点来说:
- 与主要目的相关的支持性指标
- 或与次要目的相关的指标
8 ?9 Z4 O q; k$ A* q- k
小胖在这里要提及大家在临床试验中可能会遇到的问题,即如果主要终点未显示出统计学意义,那么是否还需要对次要终点进行分析?在这一点上存在着一些争议,其中O’Neil曾经写了篇题为“Secondary endpoints cannot be validlyanalyzed if the primary endpoint does not demonstrate clear statisticalsignificance”的文章,而Davis CE则对应地写了篇“Secondary endpoints can be validlyanalyzed, even if the primary endpoint does not provide clear statisticalsignificance”。而现在比较普遍的看法是,对临床试验结果的解释不能仅仅集中于主要终点的显著性。在主要终点未显示出统计学意义的情况下,应该对次要终点进行分析,但其分析结果只能被认为是支持性的或探索性的结果。一句话,对临床试验次要终点的解释,其重要性远远大于只是盯住那个所谓的p值。
大家都知道,一般地,我们在临床试验研究方案中会设计几个次要终点,但这些次要终点在整个临床试验中究竟处于什么地位呢?下边小胖简单地介绍一下次要终点的三种情况:
1. 次要终点作为支持性证据
次要终点可以为治疗的效果提供另外的临床特征,但是次要终点本身不足以为药物申请或增加适应症提供可以信服的证据。此时,次要终点主要是为主要目的提供支持性证据,可信区间和统计检验只能作为探索性结果,不能据此下结论。这种情况在临床试验中最为常见,在此小胖无需赘述。
2. 次要终点作为得出另外结论的依据
如果次要终点是假设检验证实性策略的一部分,其显著性结果只有在主要目的达到的情况下才能得出另外的结论。更为重要的是,一旦主要目的被证实,和次要目的相关的次要终点可以成为得出另外结论的依据。处理这种次要终点的一个有效的方法是逐级检验。一旦基于主要目的的无效假设被拒绝,对于次要终点就可以按照顺序逐级进行证实性假设检验。在这种情况下,主要终点和次要终点的不同只是在检验假设中的顺序的不同,当然这种顺序的不同反映了在研究中相应的重要性的不同。
举个例子吧,小胖曾经历过一项某降血脂药临床试验的研究方案,主要终点为LDL-C变化百分率,次要终点为总胆固醇变化百分率、甘油三脂变化百分率、HDL-C变化百分率。其分析策略是对次要终点进行逐级检验,逐级检验顺序如下: 1) 总胆固醇 2) 甘油三酯 3) HDL-C。如果得不出主要终点显著性结果,则不能由此对后面的次要终点(总胆固醇、甘油三酯和HDL-C)进行相应的推断性检验,而仅对这些指标用进行描述性分析。同样的,在次要终点分析中,按顺序如果排在前边的次要终点得不出显著性结果,则不能对后边的次要终点进行推断性检验。而我们的结论呢,根据显著性结果,在得出降低LDL-C结论的基础上,也可得出降胆固醇、甘油三脂或升高HDL-C的结论。
3.次要终点作为临床有效的标志指标
一些潜在的显示临床有效的重要指标或者反映安全性的重要指标都应该归为次要终点。但是,如果观察到的疗效比预期的要大,但是却无法达到其主要目的,此时需要进一步的研究来支持观察到的疗效。
这种情况较为少见,意思是什么呢,就是某个次要终点对显示临床疗效十分重要,而且结果也很显著,但此时主要终点却未显示出显著意义,此时就比较难以下结论,怎么办,那只有需要进一步的研究了。
5 Y% L3 ^2 h- \. ?) S& R
小胖说统计-008 复合终点
^! w3 Q+ }( A$ y8 i( ^
- t4 P; M: w: o
0 i% R2 e3 U5 x9 o- r我们在临床试验时,可能碰到难以确定单一的主要终点时,这时我们可将多个变量组合即构成我们所谓的复合终点。复合终点一般有两种类型。
一种就是我们临床上经常采用的量表,例如我们在抑郁临床试验中常用到的HAMD量表(汉密顿抑郁量表)就是由若干项目组成的复合终点。关于这一种复合终点,小胖在此不做过多解释。
另一种复合终点多见于生存分析中,几种事件被合并定义为一个复合终点。这种情况在心血管临床试验中最为常见,例如,在急性冠脉综合征临床试验中,主要终点可使用一个复合终点,即出现任何原因的死亡、心肌梗死、有证据的需再次住院的不稳定性心绞痛、血管重建术和中风的事件。
为什么要使用复合终点,使用复合终点有什么好处呢?
现在许多疾病都有其标准治疗方法,一种新的治疗方法经常出于伦理的原因不可能与安慰剂作比较,而与标准治疗作比较为了显示显著性差异就必须需要较大的样本量。特别是对于那些事件发生率低的,比如说死亡吧,标准治疗3%,这时如果把主要终点设为死亡率,新治疗再好,想显示出与标准治疗2-3%的差别,其样本量也十分巨大。在这种情况下,引进复合终点不失为一种好的解决方法,这时我们把主要终点设置为死亡、心肌梗塞和中风等的复合终点,这时可能事件发生率就相对较高,就较容易检验出显著差别,自然所需的样本量就会大大减少,临床试验的成本和时间也会大大削减,当然产品也会早点上市。。。
以上就是使用复合终点最直观的好处,那如何选择复合终点呢?选择复合终点应该注意什么呢?
- 复合终点中的每个组成部分必须具有临床意义,而且对病人来说具有相似的重要性
- 治疗对每个组成部分的预期作用是相似的,这也是我们使用复合终点的理论依据。注册方面也要求治疗对每个单个组成部分的影响应该是一致的。
- 组成复合终点的临床上较为重要的单个组成部分至少应保证不会受治疗的负面影响。这时注册方面则要求对于复合终点的每个组成部分必须单独进行分析,以清楚地知道治疗是影响所有的组成部分,还是仅仅影响其中单个结局。
以上是复合终点选择的基本要求,有兴趣的同学可以阅读一下EMEA《Points to consider on multiplicityissue in clinical trail》(
www.emea.europa.eu/pdfs/human/ewp/090899en.pdf)中6. HOW SHOULD COMPOSITE VARIABLES BEHANDLED STATISTICALLY WITH RESPECT TO REGULATORY CLAIMA? 的内容。
( H8 |7 I' u7 Y5 Z# b, c& T3 N% S3 T最后,小胖对复合终点作为主要终点的应用,有如下简单建议供大家参考:
1.构建复合终点:
- 事先确定好复合终点,并清楚地定义复合终点的各个组成部分
- 避免选择那些治疗不可能有效的组成部分
- 避免选择那些临床上意义不大的组成部分
- 避免选择在临床重要性及治疗效果差异较大的组成部分
S& Q1 b/ N y5 m6 t" A2.对涉及复合终点作为主要终点的临床研究的结果的报告:
- 对构成复合终点的所有组成部分也应该单独进行报告,以确定是否
其中有某个组成部分在复合终点中起着主导作用,以及确定对各个组成部分治疗的效果是否一致。
- 复合终点的各个组成部分通常定义为次要终点,并和主要终点的分
析一起进行报告,最好放在一个表格里
- 对复合终点的解释,必须把各个组成部分放在一起作为一个整体复合终点来解释,而不是分开各个组成部分进行解释
- 对复合终点的结果的报告必须清晰,明确到底有没有意义,避免诸如单个组成部分显示有效这样的suggestion
5 ~+ a- u3 j. Z. w; j7 S( I# D4 `, ]
复合终点的应用是一个复杂的问题,小胖只是略作一最基本的介绍,想要了解更多关于复合终点,可阅读以下这篇文献:
' R% o6 V. y7 w8 j" m7 hFerreira-González I, etal. Methodologic discussions for using and interpreting composite endpoints arelimited, but still identify major concerns. J Clin Epidemiol. 2007Jul;60(7):651-7
* ?9 P( I% z7 ]+ V3 Q2 [
小胖说统计-009 盲法
' {1 @ `0 X3 m2 _2 i+ J$ n1 X T* A7 }& }: \
1 z- ]% K* _7 Z) _% z& t6 h0 m" X
在临床试验中,避免偏倚的两个重要设计技巧是盲法和随机化,这些都是注册试验所要求的临床对照试验的一般特点。在这个章节中,小胖简单地给大家介绍一下盲法的一些基本知识。
盲法是为了控制在临床试验过程中以及对结果解释时产生有意或无意的偏倚。这些偏倚来自于哪里呢?这个很好理解,首先,如果俺知道了某个受试者分在了研究治疗组,在治疗过程中,俺可能就对他就比较照顾啊,对他治疗的态度比较好啊,在对他的终点进行评价时也会产生有意或无意的偏倚,甚至如果他失访了,对他的处理也会产生偏差,甚至在分析时剔出一些数据方面,也会产生偏倚,等等。一句话,只要你知道了,在一系列的处理中,都有可能产生偏倚,而盲法要做到的就是让你不知道受试者接受何种治疗。
根据盲法实施的不同,可以分为以下四种临床试验类型:
- 开放性试验(open-label):不实施盲法,受试者、研究者等都知道受试者的分组情况,这时我们需要强调的是,一旦你采取了开放性试验,你的endpoints必须是十分客观的指标,比如说生存率等
- 单盲试验(single-blinded):对分组情况,受试者不知道而研究者知道。这种试验较为少见,其实据Spilker等人的研究单盲试验的效果在控制偏倚方面与开放性试验相差不大。
- 双盲试验(double-blinded):对分组情况,受试者和研究者都不知道。这种试验也是大部分临床试验的金标准,也最为常见。
- 三盲试验(triple-blinded):对分组情况,受试者、研究者以及sponsor、统计师等都不知道。这种试验类型常见于药厂申办的临床试验。在这里小胖需要说的一点是,在实际操作中,现在双盲试验和三盲试验很多时候都被大家混在一起,而被统称为双盲试验了。其实大家现在做的大部分双盲试验,sponsor也是不知道分组情况,另外有时统计师在分析时,也会采取盲法,即不知道具体的分组情况,只是用A组,B组来代替组别情况,等分析结果出来后,再揭盲,从而知道A组是什么组,B组又是什么组。
另外,小胖在这里提一下另外一个试验类型Third-party blind。对这个类型的试验,大家也许会在一些文献里遇到,对它的中文翻译,小胖也暂时没找到合适的词。实际上它并不属于盲法的类型,它是由和试验结果无利益关系的第三方来负责管理治疗分组情况。英文是这样说的,A resource not invested inthe outcome of the trial is utilized to prepare and/ or administer thetreatment 。
我们在临床试验中常碰到的一般是双盲试验和开放试验两种类型,当然如果双盲临床试验可行,那么双盲试验无疑是我们试验的金标准,但在一些情况下,我们却无法进行双盲试验。对双盲试验的进行,要从伦理道德和可行性等方面加以仔细考虑:
- 伦理方面:首先我们要摒弃那种认为双盲试验不符合伦理道德的错误观念。双盲法是一种科学的方法,是对人体健康负责的道德行为、是完全符合伦理学要求的。双盲临床试验在试验开始前,研究方案必须获得伦理委员会的批准,受试者入组前需要获得知情同意书。双盲试验要考虑到不应对病人造成任何损害或不应有的危险。如果实行双盲试验,当双盲试验中受试者的状况恶化、发生严重副作用等紧急情况,需要医疗干预时,应制定破盲的机制,比如应急信件,供紧急情况使用,以便积极开展治疗,有力保障受试者的权益。当然有些临床试验由于伦理道德的问题不大可能实现双盲,比如两种注射剂型的药物,剂量不同,一种是50mg,一种是80mg,如果你采取双盲双模拟,那每个病人每次都要注射两次,其中有一次是安慰剂,如果疗程比较长的话,就需要频繁地注射安慰剂,这种频繁注射也是不符合医德的,因此也不宜采用双盲。
- 可行性:有些处理不可能做到双盲,比如,肿瘤的化疗等由于严重的不良反应以及需要经常调整剂量等时,要求医生了解具体使用何种药物,就不能进行双盲试验;当然还有一些治疗模式,如外科手术、针灸啊,都是不可能设计成双盲试验来进行的,很明显,受试者不可能不知道所采用的治疗方法。
当双盲试验无法进行时,为了尽可能减少偏性,在临床实践中,我们可以采取盲法评定,即病人和治疗医生知道病人所接受的处理,而评定疗效结果的医生不知道病人的分组情况。
总之,盲法是避免偏倚的一个重要方法。是否采取盲法,如何采取盲法,研究者必须从各个方面加以平衡考虑,但我们的脑子里必须谨记着伦理和减少偏倚两个key points。
9 |5 M( u: H9 \9 `4 ]) [. l; ~; j4 x- s6 U9 {. h6 |' y+ f/ x
小胖说统计-010 随机化' n/ s% F- t) |; l, N
, W S" u5 @" l
1 v* A# s: Z! X: R: F和前面所提到的盲法一样,随机化也是在临床试验中避免偏倚的重要设计技巧之一。啥是随机化呢,很简单,通俗地说,受试者到底分在那个组,必须是随机的,服从概率论的原理,不受研究者和受试者主观意愿的影响。随机化可以消除由于治疗分配带来的偏倚,可以使治疗组和对照组具有较好的可比性,更为重要的是随机化是合理的统计检验的基础,也就是说只有在随机化的试验中应用统计检验才是合理的。
随机化有哪些方法呢?通常有以下几种随机化方法:简单随机化、区组随机化、分层随机化和动态随机化。下边小胖将对这几种方法一一做简单介绍。
& X: r) A6 b% ~& }; Y1. 简单随机化
7 o5 W! _7 @! v1 Q( {0 T/ G3 o4 V我们可以简单地理解为扔硬币,来了一个受试者,扔一次硬币,正面进一组,反面进另一组,简单易行,但大家可以想到,比如你扔了10次可能正好有5正5反,也可能有4正6反,等等,当然你扔的次数越多,正反出现的概率就会越接近。这就出现了一个问题,我们临床试验一般例数有限,有时就会出现各组例数相差较大的情况。曾经有人做过计算,你扔100次,正好50正50反的概率只有8%。
( X: v" h+ O; p7 |* z+ U( u9 x$ `
2. 区组随机化
4 g( ^8 B: E6 ]8 B) x. D- T0 i0 L; H顾名思义,就是按照区组进行随机化,从而保证某一相等区间内各组病人完全相等。举个简单的例子吧,两个处理组A组和B组,我们设计4个病人为一个区组,比如一共A组和B组每组要入选100例病人共200例吧,那一共有50个区组,4个病人为一组,在这一组中保证有两个A和两个B,这样随机1-4号里两个A两个B,5-8号两个A两个B,这样依次类推。。。这样我们就可以较好地做到两组的病人基本相等。为什么呢,很简单,如果我们能完成200例入组的话,可能会出现下边几种情况:
- 入组例数正好是4的倍数,比如说200例,204例等,这时入组例数正好是整倍的区间数(50,51个区间),由于每个区间都是两个A两个B,那么最后每组的病人数肯定是相等的(100,102例)
- 入组例数除以4的余数是1,比如说201例,那么有一个组会多出1例来
- 入组例数除以4的余数是2,比如说202例,这时会有两种情况,一种是多出来的2例都是一个组的,那么有一个组会多出2例来,另一种是那多出来的2例各分在两个组,那么最后两组的例数还是相等的
- 入组例数除以4的余数是3,比如说203例,那么多出来的3例肯定有2例分在一个组,另1例分在另一个组,最后有一个组会多出1例来。
如上所述,最不理想的情况,最多一个组比另一个组会多出2例来,这样我们就可以做到两组病例数的基本相同。
区组随机化一个重要的问题就是区组大小的问题,上边这个例子我们取的区组大小就是4,那么怎么确定区组大小呢?
随机化方法是让医生无法预测下一个病人划分到哪个组,因此我们在确定区组大小时也要谨记这个原则。如果两个组别而你的区组大小为2,那第一个病人是A组,那第二个病人肯定就是B组了,那这种随机性就相当差了。很好理解,区组越小,我们就越容易猜到下一个病人是哪个组的,因而我们应避免前边提及的只有两例病人的区组。但区组大小也不能太大,否则会可能产生由于中断一个区组而使两组例数有较大的差异。怎么理解呢,举个例子,两个组别,如果你的区间长度为16,比如说你最后入选了168例病人吧,这时一共有10个完整的区组,另外最后还有一个区组被中断了,只有8例病人,这时这多余的8例病人的分配就有如下可能:
- 情况1 A:0 B: 8 两组相差8例
- 情况2 A:1 B: 7 两组相差6例
- 情况3 A:2 B: 6 两组相差4例
- 情况4 A:3 B: 5 两组相差2例
- 情况5 A:4 B: 4 两组相差0例
- 情况6 A:5 B: 3 两组相差2例
- 情况7 A:6 B: 2 两组相差4例
- 情况8 A:7 B: 1 两组相差6例
- 情况9 A:8 B: 0 两组相差8例
如上所述,这时就会出现两组例数相差较多的情况,最大可能相差8例。正如小胖在上篇博文中举的例子,如果区间长度为4的话,最大可能相差则为2例。
因此,区间长度的选择不宜太小,也不宜太大。通常情况下,如果只有两个治疗组别,区间长度一般可取4-10,就小胖的以前的做法,一般我会取4或6。小胖还要罗唆一句,区间长度必须是组别个数的倍数哦,不然你咋分配病人呢,呵呵。
# l; Y; `9 N4 L& W' a( e3. 分层随机化
6 x* W1 g" ~/ E! V3 C
啥意思?就是每个重要因素或重要因素组合为一单独层(也就是单独的随机表格),而在每一单独层内,各组病人例数保持均衡,从而最后达到这个重要因素在各个治疗组分布均衡的结果。举个简单的例子,两个治疗组试验组(T)和对照组(C),按照基因型B或C分层,可能会产生以下两个随机表格:
; E# K- T8 J, l' C- Z |第一个表格:
2 G9 _( C, U X- c0 c基因型 分组
B T
B C
B C
B T
……
第二个表格:
: g+ Z y- U% ^; f9 K( L
基因型 分组
C C
C T
C C
C T
……
/ ^ ^6 N! P6 V7 ]$ y0 B& g
在入组病人时,先看以下这个病人是什么基因型的,如果是基因B型的,则根据第一个表格的随机顺序入组;如果是基因C型的,则根据第二个表格的随机顺序入组,最后我们能基本保证试验组和对照组的基因B型和C型的病人大致相等。这就是最简单的分层随机化的过程。
其实大家应该很熟悉分层随机化,我们现在进行的临床试验大部分都是多中心临床试验,而我们在随机的过程中一般都会采取分中心随机化。这时的分中心随机化其实就是以研究中心为层的分层随机化。在中心随机化中,每个中心都有自己单独的一个随机表格,病人随机时,各个中心入选的病人按照各个中心的随机表格的顺序进行入组,最后保证的也是试验组和对照组在各个中心的病人数大致相等,也可以理解为,每个中心试验组和对照组的病人数大致相等。
为什么我们要进行分层随机化呢?很简单的道理,我们在作临床试验时总希望某些对疗效结果有较大影响的因素在各个治疗组内尽可能分布均衡。举个例子吧,在乙肝临床试验中,大家都知道基因型对最后的应答有很大的影响,通常情况下,基因C型的比基因B型的更难治,即疗效差;如果试验组基因C型(难治的)的过多则试验组的总体应答情况就会被拉下来,试验组与对照组疗效的差异就会比实际的变小;试验组基因C型(难治的)的过少则试验组的总体疗效就会被提上去了,试验组与对照组疗效的差异就会比实际的变大;总之,试验组和对照组基因型分布差异很大,就会影响到对疗效的评价。因此,我们需要把基因型作为分层因素进行分层随机化,使基因型在两组分布保持均衡。
分层随机化中如何选择分层因素呢?这个更多地根据不同的疾病而定,选择那些对疗效有重要影响的因素。这些更多地取决于临床实践,而非统计学。小胖在这里要说的是,多个分层因素的选择。有的临床试验选择的分层因素不止一个,最常见的是你首先把研究中心当一个分层因素,然后在此之外又选择了别的分层因素,如年龄、疾病亚型啊等等,这时就会出现分层因素组合的情况。下边是分层因素组合的一个简单例子:
i7 G5 z5 A# [+ Z1 j1 _% b6 t* ~两组:A组和B组
分层因素:研究中心(10个中心)、疾病亚型(两个亚型I型和II型)
这时我们一共有10×2=20层,即需20个随机安排表:
. T7 [7 T5 g Y5 V) X随机表格1:
* J$ ~/ ?/ |/ Z4 y8 r0 O3 m研究中心 基因型 分组
01 I A
01 I B
01 I A
01 I B
……
- b* X. ]) N2 p
9 I0 h: `7 j3 g" ~
随机表格2:
* _' Y9 X5 T, W* O% C
研究中心 基因型 分组
01 II A
01 II A
01 II B
01 II B
……
7 V. S& A# g* V2 O7 H! ~
& T [+ C0 ]& g- m: O4 v
随机表格3:
- I9 o9 m: U4 X% X0 t研究中心 基因型 分组
02 I B
02 I B
02 I A
02 I A
……
7 P! ?/ I8 S- g3 W
9 x8 o" G# c& A p随机表格4:
1 e0 h) t5 U2 U- D3 i8 l
研究中心 基因型 分组
02 II A
02 II B
02 II B
02 II A
……
9 [; P& n0 M" e: c+ W9 a$ C% V, _* d# A1 F/ ]# @ n
…………………..
0 Y7 W& s! V7 v0 h: U2 q H* ~
随机表格19:
" T2 t \ W! l. Z0 x$ P t% g
研究中心 基因型 分组
10 I B
10 I A
10 I A
10 I B
……
随机表格20:
2 K$ e* S. g* ~5 s- X# W
研究中心 基因型 分组
10 II A
10 II B
10 II A
10 II B
……
1 O3 u/ I" M; \* [
当然,小胖要强调的一点是,分层的因素不能过多,因为因素一多则组合数就多,层数也就多,层数一多,就会使有些层次的人数不足。例如多中心临床试验中心为分层因素(10个中心),另外还有2个分层因素,每个因素各分成2层,则共有10×2×2=40层,一共需要安排40个随机表格。如果一共入选200例病人的话,每层平均5个人,甚至有的层人数会很少,难以实施统计处理。因此分层因素不宜过多,要进行精选。通常来说两个以上的分层因素就会使分层难以实施。
在实际临床试验中我们最常见的其实是中心区组随机化,即把区组随机化和分层随机化(以中心分层)结合起来。
/ i9 }4 U# m- U1 X4. 动态随机化
. ]8 O2 Q) V+ m5 S5 _
动态随机化是指在临床试验过程中,病人随机入组的概率根据一定的条件而变化,能有效地保证各组间病例数和重要预后因素保持基本均衡。
那为什么要引入动态随机化呢?如前所述,我们可以采取分层随机化来保证一些重要的预后因素在各组分布基本均衡,但我们也要考虑到分层随机中的分层因素不能很多,如果分层因素很多,便会出现有的层的例数很少甚至没有的情况,而动态随机化就很好地解决这些问题。
在一些样本量不是很大,但又必须考虑预后因素对疗效影响的临床试验中,动态随机化显得尤为必要。
我们先从最简单的动态随机化方法来了解一下动态随机化的思路:
一个袋子里有黑色和白色两个球,你摸到黑球就入A组,摸到白球就入B组,开始时你摸到黑球和白球的概率为0.5/0.5。假设你第一次摸了个黑球,入A组,然后你要把黑球放回袋子里,同时在往袋子里加一个白球,这时袋子里有1黑2白,你第二次摸到黑球和白球的概率就变成0.33/0.67,如果你第二次还是摸到黑球,那你要再加一个白球,这时袋子里有1黑3白,此时你第三次摸到黑球和白球的概率就变成0.25/0.75,依次类推,每次随机摸一个球,根据球的颜色确定入组,然后将该球放回袋子里并加入1个另一颜色的球,继续摸球。。。。这样通过概率的不断调整,最后达到两组间病例数大致相等。
以上就是最简单的动态随机化,可以实现各组例数大致相等,至于如何实现重要预后因素在两组间分布均衡,则需要更为复杂的方法,现在最常见的方法是最小化法。
最小化法主要解决的就是预后因素在组间分布均衡的问题,我们从下边这个例子来看一下最小化法的基本思路:
在一项临床试验中,年龄和性别是重要的预后因素,我们希望各治疗组在这两个方面保持均衡。已入组10例病人情况如下:
9 p' R# i! @- s4 h- U年龄 A组 B组
( t4 t9 }) N* n1 \) F( z<30 2 1
30~50 1 1
>50 2 3
% S; q+ @) q0 `* V. k
性别
7 s- N$ s" S: f' S3 ^
男 3 2
女 2 3
2 e5 |* b! I* N4 r- k
( `& L/ v" y0 d7 x1 b( x6 M/ K
现在来了第11例病人,他是35岁的男性病人,那他要入哪一组呢?
- 在A组中,和他年龄水平(30~50)相同的病例为1例;和他性别水平(男)相同的病例为3例;两者相加1+3等于4
- 在B组中,和他年龄水平(30~50)相同的病例为1例;和他性别水平(男)相同的病例为2例;两者相加1+2等于3
- 3<4, 那么这例病人就入B组,以使两组在年龄和性别方面的差别减少
以上就是最小化的最基本思路,简单一句话概括,就是根据前边入组的病人的情况,来确定病人的入组,原则上使组间预后因素的差别变小。
说到这里,可能大家觉得很复杂,其实我们需要了解的就是最小化法的简单思路,知道是怎么回事。到底这例病人该入那个组,就要求助于计算机了,咋说呢,现在啥都可以通过computer来解决,呵呵。
现在基本通常的做法就是,当合格病人要入组时,收集其预后因素的基本信息,然后传真到随机中心,随机中心按照传真上的信息输入计算机,计算机程序就会计算出分到哪一组,然后再传真通知研究者。
& n. Z# h, Q5 B上边我们介绍了随机化的四种方法,在我们开展的临床试验随机化入组中,常碰到的情况是1:1随机,即各组要求病人入组的比例是相等的。当然在一些临床试验中,也会碰到一些随机比率不是1:1的情况。
首先,我们比较一下1:1随机和非1:1随机。1:1随机在统计上是最有效率的随机比率,在总样本量一定的情况下,其统计把握度是最大的;而非1:1随机,如果要达到和1:1随机相同的把握度,则需要更大的样本量。我们从下边这个例子看一下吧:
假设一临床试验,主要疗效指标为应答率,假设试验组和对照组的应答率分别为33.3%和20%;显著性水平为双侧0.05,把握度为90%;
- 如果设计为试验组和对照组随机比率为1:1,则总样本量为460 (230例每组)
- 如果设计为试验组和对照组随机比率为3:1,则总样本量为600 (450/150)
从上面的例子可以看出,3:1随机的总样本量要大于1:1随机,随机比率越大时,需要的总样本量越大。当随机比率大于3:1时,样本量会变得很大,因此一般不会采用。
这时大家会问一个问题了,既然非1:1随机需要更多的样本量,那为什么还要采用呢?
其实我们在以下情况下,会常用到非1:1随机:
- 治疗组间存在着比较大的成本差异,即一个组治疗的相关费用大大高于另一个组。这时我们就希望更多的病人入到便宜的那组中,这时我们就可以采用非1:1随机化了;
- 对某些比较严重的疾病,一组疗效较好甚至可以救命,而另一组比如说安慰剂或者常规医疗对疾病没有大的疗效,这时我们需要把较少的病人入到安慰剂组,因此也有必要采用非1:1随机化了。
总之,究竟要不要采用非1:1随机,要根据实际情况综合考虑,这里又涉及到小胖自认为的临床试验的三个核心即科学、伦理和成本;这三个东西始终贯穿着临床试验的各个阶段。
- G0 D* ~& `; s/ f0 e9 ~4 |: _# `" N1 {. O0 t; O( e* i0 R( N' c
小胖说统计-011 研究设计1 J3 L4 }1 b7 |% w2 E
- F g8 U$ ]- P) N# B8 O# i) G& q
+ P) ?% a, Z- k+ R2 x% s) k
在我们开展的临床试验中,最常见的有三种研究设计类型即平行设计(parallel group design)、交叉设计(cross-over design)和析因设计(factorial design)。
; K% e3 P' H. e1. 平行设计
4 X0 g3 h9 R/ g
这也是我们绝大部分临床试验的设计类型。即将病人随机分配到两个或多个治疗组中的一组,每组分别给予不同的治疗。当然我们最常遇到的两组临床试验,一组试验药物,一组对照药物或安慰剂,就是最典型的平行设计。平行设计是最常见也是最简单最传统的设计,可以直接比较两组间的差异,也比较容易进行统计分析。
5 \0 V+ ]/ h$ S7 t6 V; d7 `
2. 交叉设计
/ F' u) n/ ~& e& R$ A1 Z
按照预先设计好的顺序,病人在各个时期依次接受各种治疗,以比较各治疗间的差异。这是自身比较和组间比较综合应用的伟大发明哦。下边是一个最简单的2X2交叉设计的例子:
$ W8 v; Z' y; S# o
A药物 ---- 洗脱期 ---- B药物
- ?7 W& C6 d. u# C! n
受试者 随机化
1 r3 x* \' Z2 v: f
B药物 ---- 洗脱期 ---- A药物
9 v, g3 i2 U3 g# D8 e# O
交叉设计最大的好处是由于做到自身比较,因此需要较少的样本量。而它存在的问题也是显而易见的,其中最大的问题就是延滞效应(carryover effect),啥意思呢,就是一个病人现服了A药物后经过一段洗脱期后再服用B药物,就存在一种情况,即这个病人服用A药物的效果可能在后期服用B药时还有残余,从而难以真正判断药物的疗效,特别是B药的疗效。因此,交叉设计应尽量避免延滞效应,一方面洗脱期必须足够长,以使药物的作用完全消退,更重要的一方面是你在应用交叉设计时必须要充分了解疾病的特征,要求疾病是慢性病,且病情相对稳定。总之一句话,要精心进行研究,在试验前就要确定是否满足交叉设计的要求。在这里,小胖还要说明的一点是,交叉设计对病人的失访要求比较严格,当有病人失访时,分析和解释会变得很复杂,因此,交叉设计一般仅限于预期失访较少的试验。
当然小胖最后强调的一点是,交叉设计特别是2x2交叉设计也有它天生适应的土壤,那就是生物等效性试验,这也是我们交叉设计最常用的情况。
$ M& l. W3 t2 T& x
3. 析因设计:
- j7 P. L0 H3 {2 Z5 E首先小胖给大家讲一个故事,20世纪中叶,心血管疾病和肿瘤已成为疾病死亡的主要原因。大量观察研究显示,β-胡萝卜素可能会降低肿瘤的发生率;而另一方面,很多医生通过观察猜想阿司匹林可能会预防心脏病的发生。为此60年代和70年代开展了很多临床试验,但结果却不尽相同。1980年由主要研究者Charles H. Hennekens领导开始进行了历史上最著名的临床试验之一Physicians' Health Study,此试验选择了医生作为受试者,原因在于医生比普通人群能更准确地报告他们的医疗史和健康状况,同时也更有可能确定研究药物的可能的副作用。而此试验的主要目的在于评价阿司匹林能否预防心肌梗塞和其他心血管事件,同时还想知道β-胡萝卜素能否预防肿瘤的发生。在这项试验中,使用了当时还是创新的临床研究设计,也就是所谓的2x2析因设计。受试者将被分配到下列四组中:(1)阿司匹林加β-胡萝卜素;(2)阿司匹林加β-胡萝卜素安慰剂(3)阿司匹林安慰剂加β-胡萝卜素(2)阿司匹林安慰剂加β-胡萝卜素安慰剂。共有22071名受试者随机入组。最后试验结果表明,阿司匹林可以使心肌梗塞的风险降低44%(P<0.00001);而补充β-胡萝卜素12年未带来益处也未带来害处。
以上这个故事,就是历史上最著名的一个析因设计即通过治疗的不同组合,对两个或多个治疗同时进行评价的例子,从以上这个例子我们简单地可以看出析因设计有以下优点:
- 可以在一个试验中,同时检验两种假设
- 成本大大降低
- 受试者可接受性提高,即只有1/4的机会分到完全安慰剂组中
上边Physicians'Health Study这个例子,可以简单地让大家对析因设计有了一个初步的了解,下边小胖将继续深入介绍一下析因设计的应用。
首先小胖提出一个问题,为什么要使用析因设计?
小胖简单总结为两点,一是出于成本的考虑;二是出于探索药物之间交互作用的考虑。
首先我们看一下第一点成本。大家都知道开展一项临床试验是十分昂贵的。一项临床试验的主要花费包括:
- 治疗费用,也就是研究药物对照药物的费用
- 受试者筛选、随机入组和随访费用
- 临床试验的设计以及前期准备
- 统计分析和报告
析因设计的出现,即我们可以在一个试验中同时研究两种或两种以上药物的疗效,比起我们开展两个或两个试验分别研究两种或两种以上药物的疗效,在临床试验费用方面,特别是在一些非治疗费用方面会大大节省。这种情况下采用析因设计,我们通常假设药物之间是独立的,不会相互影响,即无论有B还是没B,A的效应本身都是一样的。显然,对于那些治疗性试验,这种假设很少是合理的,因为各种治疗都是针对同一种疾病的,难免会产生一些相互的影响。因此,用析因设计来达到在一个试验中同时研究两种或两种以上药物的疗效来代替开展两个或两个试验分别研究两种或两种以上药物的疗效的目的,这种情况大部分出现于一些预防性试验中,比如前文中提到的Physicians' Health Study,以及后来的Physicians' Health Study II,还有WHI研究。在这些试验中,每个药物经常分开进行分析和报告。实际上,有时一种药物治疗可能已经结束并进行分析报告了,而另一种药物治疗还在继续。例如,在Physicians' Health Study中,阿司匹林早早就显示出了降低心肌梗塞风险而终止治疗了,而β-胡萝卜素却仍在继续。在这种情况下,应用析因设计,其药物治疗评价的比较应该是:
5 J+ }# H8 w( B1 {
以A药和B药,2x2析因设计为例
A药 (2)B药 (3)A+B(4) PLACEBO
- A药的评价比较:接受A药治疗的对比未接受A药治疗的即 (1)+(3)vs (2)+(4)
- B药的评价比较:接受B药治疗的对比未接受B药治疗的即 (2)+(3)vs (1)+(4)
; o. e, b/ R0 Y- Y. o7 k
而样本量的计算也是基于上述两个比较,分别计算出上述两个比较所需的样本量,然后选择较大的那一个样本量即为这个试验所需的样本量。而在具体的统计分析中,通常我们也不会对多重性进行调整。
小胖要强调的一点是,上边这些统计方面的考虑是基于药物之间无交互作用这一假设的。至于交互作用的问题,也就是析因设计应用的另一方面即出于探索药物之间交互作用的考虑。
析因设计另一大应用便是出于探索药物之间交互作用的考虑。如果您对药物之间的交互作用感兴趣或想比较所有可能的药物治疗组合的疗效,那么析因设计将是你的最合适的选择。在这里小胖需要说明的一点是,如果你只对所有治疗组合中的某几个组合感兴趣,比如现在有三个药物,8种药物治疗组合,你只是想比较其中的三四个治疗组合,那么你还是选择一个只包含你所感兴趣的治疗组合的试验,这时析因设计不是你最好的选择。
其实,上述情况下的析因设计应用最广泛的便是我们经常碰到的联合治疗的临床试验,比如我们常见到的在心血管临床试验,特别是高血脂临床试验中,通常会使用联合治疗。联合治疗作为一种治疗方法有时是十分必需的。比如说我们常碰到以下几种情况(以两种药物联合治疗为例):
- 两种药物有不同的互补的疗效机制
- 一种药物由于毒性反应只能限定在某个剂量以下,而这时可以联合另一种药物达到更高的疗效,而毒性也不会过大;比如说在高血脂治疗中,他汀类药物的剂量一般超过80mg后,其毒性就会很大,因此可以联合其他药物使用比如ezetimibe,出现ezetimibe+他汀类10mg/20m/40mg,同样可以达到80mg他汀类的疗效甚至更高,毒性也相应地减少了
2 M T: X6 B2 x. @. ~* w另外一点,如果你主要关心的是药物之间的交互作用,那么在样本量方面会大大增加,才能检验出这种交互作用。因此,我们结合前文所述,如果你计算样本量时是基于药物主效应,那么这时的样本量在估计交互作用时,其检验效能会大大降低。
现在关于析因设计,特别是对于交互作用,还有很多争议,小胖就不在此赘述了,小胖只是希望通过以上这些简单的介绍能让大家初步了解析因设计是什么样子的就可以了。
k6 y8 h2 {+ D5 ]' ?: T! B
小胖说统计-012 多中心临床试验5 U( H( J6 b) B& W' r8 l. C
2 V' H# w5 b5 y7 a' a* m5 n, Q, V! j6 B* N1 D n; P. z
何谓多中心临床试验?很简单,就是由一个研究中心的主要研究者总负责,然后多个研究中心的研究者合作,按照同一个研究方案在不同的研究中心同时进行的临床试验。现在大家所接触到的临床试验几乎都是多中心临床试验,为啥?最重要的便是多个中心同时入组,可以在较短的时间内入选到所需的病例数,这也是大家普遍的出发点,其实小胖觉得另一个重要的方面,便是多个中心入选的病例无论在病种病情分布等方面范围比较广,特别是对于我们这个幅员辽阔的大中国来说,和实际人群总体能保持较好的一致性,试验结果和结论也更具代表性。这就涉及到统计上所谓的研究结果的推广与应用。这一点我们可以举一个简单的例子,大家都知道乙肝在中国主要有两个基因型即B型和C型,而B型主要分布于南方,C型主要分布于北方;而在治疗难易程度方面,C型比B型难治,因此进行乙肝临床试验时,需要进行多中心试验,而中心的选择也应兼顾南方北方,如果我们只在南方的某个中心进行试验,则可能会使得入选病人大多为B型(易治)的,而最终对治疗疗效的评价也很可能会高估,试验的结论也无法推广到整个乙肝人群。
在这里小胖需要说的一点是,我们现在开展的国内多中心临床试验基本上都是在国内的各个研究中心进行。其实,更典型的多中心临床试验应该是那些global试验,这些试验的研究中心分布在不同的国家,入选病例也分布在不同的种族,所有这些都使最后的研究结论具有很好的代表性,也为研究结果的推广与应用提供了良好的依据,使得新药的应用更具广义性。
小胖还不得不提的一点是,多中心临床试验的开展,使得更多的研究者能有机会参与到临床试验过程中,他们可以集思广益、精心合作来共同保证试验的高质量。但在这一点上,也是一把双刃剑,如果各中心研究者能够相互配合,博采众长,那么可以大大提高临床试验的质量,而由于研究者之间不统一,各自为政引成临床试验很大问题也不乏其例。
下面小胖将以问和答的形式,对多中心试验中的一些常见问题,作一简单介绍。
3 K, h! ?) M# E. u$ b问题1:多中心临床试验中对每个中心的病人有最低数量的要求吗?
* {* R. r6 q# ?7 X+ J4 X+ k回答:首先ICH E9中指出“应避免各中心样本数量相差悬殊以及个别中心的样本数太少”。当然我们应尽可能做到各中心病例数相当,但也会出现个别中心病例数较少的情况,此时比较普遍的意见也是不希望设置每个中心入组的最低病人数,因为如果一旦限定,则会使得那些入组比较慢的中心完成试验的时间大大延长。在实际的统计分析过程中,如果出现病例数很少的中心,可能会造成一些统计分析方面的问题,这时我们可以把几个中心进行合并(pooling)起来进行统计分析。这里需要提的一点是,在进行中心合并时,很多情况下要根据中心病人的人口学特征,人口学特征相似的合并在一起,而不是随随便便想当然合并。
3 g& M, ?: `2 ~+ A- \# t问题2:在统计分析中怎样进行中心的合并(pooling)?
4 P- e9 y! M, c- g
回答:统计分析中的中心合并已被统计界所广泛接受。在具体操作方面,最理想的情况是把你怎么进行中心合并明确写在你的研究方案里。但这一点很难做到,因为有时在研究方案撰写时我们无法准确预期中心入选病人的情况,这种情况下,我们最实际的方法是把你所采取的中心合并的策略写在你的统计分析计划书(SAP)里,而且必须在数据锁定或揭盲前最终确定下来。这种计划的思路,小胖已在前边的博文中提到很多次,小胖一直认为统计分析最大的原则就是计划,就是你在采取一些统计分析方法前,必须事先在研究方案或统计分析计划书中明确说明。
至于中心合并的策略,大家需要谨记的一点就是,我们的目的是不要让一个或两个中心影响到整个的治疗效果。因此,我们在进行中心合并时,要遵循相似性特别是在人口学特征方面的原则,比如在跨国多中心临床试验中,欧洲国家的中心可以合在一起。简单地把那些病人较少的两个或多个中心合在一起的方法是不恰当的。
, n% m7 C' P: q1 A. @
问题3:治疗-中心交互作用(treatment-by-center interaction)是怎么产生的?
6 ]! X& J' d- J* o, h( b
回答:我们在开展多中心临床试验时,各个研究中心在病人的人口学特征、医疗条件、医疗史等方面差别较大,这种研究中心之间的差别可能会导致各中心研究结果的不同,这时就会产生我们所谓的治疗-中心交互作用。当然治疗-中心交互作用还来源于各中心执行研究方案的不同以及不同的疗效评价标准等,最常见的例子比如对应答的评价标准,还有实验室标准不同。
" h2 M) u% d/ i' s6 ^1 ~, p( j* @问题4:治疗-中心交互作用(treatment-by-center interaction)对研究结果的影响?
, y5 ^$ a O9 j& P, l) u) k回答:通常把治疗-中心交互作用(treatment-by-centerinteraction)分为两种:定量(quantitative)和定性(qualitative)。定量治疗-中心交互作用是指各中心的研究结果的方向是一致的,比如都是A药的疗效大于B药,这时只是各中心在数值上相差较大,这时其实就是个数量上不同的问题,按哲学上来说,这时候是个量变,在这种情况下,有的统计学家就认为通过中心之间合并数据(pooling data),这种交互作用不会严重影响到统计分析结果。定性治疗-中心交互作用则是指各中心的研究结果的方向是不一致的,比如有的中心A药的疗效大于B药,有的中心A药的疗效小于B药,这时可就是原则性比较严重的问题,这时其实就是本质不同的问题,按哲学上来说这时候是个质变,此时这种交互作用会严重影响到统计分析结果。如果你还是对所有中心治疗效果只做一个总体统计分析就可能会得到错误的结果,而且也是不够的。在这种情况下,最好的办法就是对治疗-中心交互作用进行具体的描述,并说明具体那个中心对交互作用的影响,这是一个复杂的过程。小胖还要说明的一点就是,在这种情况下,很多统计师是不会再谈论什么治疗差异了,关键是这时不是一句话两句话就能说清的。
0 J6 T% `. o. {, S0 p
问题5:多中心临床试验中怎么考虑中心的影响?
|5 ]+ W: r$ I* N通常情况下,多中心临床试验的统计分析都应把中心纳入到统计模型中,特别是按中心进行随机化时。当然在某些研究中,每个中心只有少数几个病人时,此时中心对主要及次要变量的影响不会太大,在这种情况下,模型中包含中心是不合适的,否则可能会影响到比较的精确度,而且如果我们预期到每个中心只有有限的病人时,也没有必要按中心进行随机化。
& R, j3 U* a- T: H3 O
问题6:怎么样处理治疗-中心交互作用?
/ [- g4 Y n; l) z
如果把交互作用不必要地纳入到模型中,会降低主效应检验的效能。正如ICH E9中所述,对多中心试验中的治疗组差异进行统计检验时,应该把中心效应纳入到统计分析模型中,而治疗-中心交互作用则不应纳入模型中。其实在具体的统计分析中,我们现在通常的做法如下:
建立一个由治疗、中心以及治疗-中心交互作用在内的统计模型,首先我们先计算交互作用的p值,然后
- 如果p>0.1,那么则说明治疗和中心间无交互作用,这时把治疗-中心交互作用从模型中剔除,然后再进行模型的统计分析;
- 如果p<0.1,那么则说明治疗和中心间存在着交互作用,这时就无法进一步评估治疗效应了。接下来就要根据不同的情况,对不同中心的结果进行描述和讨论了,这便是一个比较麻烦的过程了。。。
" E- E9 I" ^# ^5 R( ]
. D4 E; Y% I8 ~ T/ {7 h小胖说统计-013优效性试验
% g0 |0 v0 F( `! h5 T2 Q8 H0 p5 R% Z2 {* a2 i# G
( Q5 Y& b0 S' E顾名思义,优效性试验的目的是显示试验药物的疗效优于对照药。优效性检验的第一步往往是对两组进行统计学检验,看看有没有显著性差异。当两组有显著性差异后,下一步就得判断两组之间的差异是否有临床意义。这里小胖需要强调的是,统计学显著性差异并不意味着差异有临床意义。举个极端的例子,只要样本量足够大,10000甚至100000,哪怕是0.01的差异都能有统计学意义,但这个0.01的差异当然在临床上是不会被认可的。考虑到这一点,当计算优效性试验的样本量时,你假设的两组差异必须在临床上是有意义的。
关于优效性试验还有一个大家常碰到的问题是,究竟是单侧检验还是双侧检验呢?其实这个问题统计学界本身存在着争议,至于具体争议,小胖就不在此赘述了,小胖想让大家知道的是,现在通常优效性试验取的都是双侧0.05显著水平。
至于具体的统计检验,可通过双侧0.05显著水平或双侧95%可信区间两种方法来实现,当然了优效性试验要求p<0.05,或两组疗效(治疗-对照)之差的95%可信区间的下限大于0。
让我们看一个简单的优效性试验例子:
J Am AcadDermatol 2003;48:535-41
为了证实地氯雷他定对慢性荨麻疹的疗效和安全性,研究者设计了一项地氯雷他定对比安慰剂治疗慢性荨麻疹的随机对照双盲试验。本试验选择的主要终点是与基线相比搔痒评分的变化。假设标准差为1.0分,每组需要100例病人在0.05的显著性水平上有90%的把握能检验出两组0.5分或更多的差别。最后结果地氯雷他定与基线相比搔痒评分的变化为1.05,安慰剂组为0.52,p<0.001. 结论地氯雷他定可以有效治疗慢性荨麻疹。
以上这个例子就是一个最经典的优效性试验的例子,即通过安慰剂对照试验显示试验药物优于安慰剂,从而证实试验药物的疗效。这种安慰对照的优效性试验在临床试验的发展进程中起到了鼻祖的作用,以前对于某种疾病还没有治疗药物的时候,一种新药物的出现,往往会选择安慰剂对照来证实疗效,当然随着越来越多标准药物的出现,以及出于伦理等方面的考虑,现在安慰剂对照的试验也开始变少,但它在药物研发中的地位是决不能抹杀的。
随着医学的发展,现在各个疾病基本上都有自己有效的治疗药物,这时我们推出一种新药,往往在选择对照时,不得不选择那些已有的有效治疗药物,所以相比较安慰剂对照试验,阳性对照试验越来越多,而阳性对照试验最理想的情况是,你的药物优于阳性对照药物,这和上文中提及的安慰剂对照试验一样,是证实你的药物的疗效的最好的也是最有力的方法。这种阳性对照的优效性试验在现在我们的临床试验中发挥了很重要的作用,怎么说呢,一种新药的出现,如果它有突破性的进展,最大的证明就是你的疗效优于现在这种疾病的标准治疗药物,而此时阳性对照的优效性试验就是你证明你疗效的最理想的选择。
小胖给大家介绍一个药物研发历史上一个很著名的阳性对照优效性试验的例子-EVIDENCE研究。
2003年3月8日,美国FDA正式批准瑞士雪兰诺公司的Rebif(干扰素beta-1a)治疗复发性多发性硬化。此次FDA批准Rebif上市,打破了另外一种干扰素类药物Avonex的市场专有状态,Avonex在1996年被批准用于多发性硬化的治疗。那么FDA为什么批准呢,其中最重要的依据就是一项Rebif与Avonex直接比较的研究-EVIDENCE研究,而Rebif的批准则说明了如果有另外一种药物比原有药物更有效或者更安全的话,那么就可以打破原有药物的市场专有状态。
那么现在我们来看一下EVIDENCE的研究设计和结果吧。
EVIDENCE研究是一项比较Rebif与Avonex两种药物治疗复发性多发性硬化效果的大规模的研究,在美国、加拿大以及欧洲的多个中心进行。677名复发性多发性硬化病人被随机分配到Rebif和Avonex组,其中Rebif组339例,Avonex组338例。主要疗效终点为治疗24周后的无复发率。研究者把本试验设计为优效性试验,即证明Rebif优于Avonex,而在进行样本量计算时,则假定Rebif组和Avonex组治疗24周后的无复发率分别为65%和50%。研究结果显示,治疗24周后,Rebif组和Avonex组无复发率分别为74.9%和63.3%,p= 0.0005,而在其他的次要终点方面,Rebif组也显著优于Avonex组。最后研究结果证明,Rebif在治疗复发性多发性硬化方面比Avonex更有效。
关于阳性对照的试验,能作出优效来当然是最理想的结果,但研究者在设计这种试验时,往往会遇到一个难题,一是对照药物的选择,另一个就是你有没有把握作出优效来,如果你设计成优效试验,结果作出来确实优势,当然是皆大欢喜,但如果作不出来,两种药物没有统计学差异呢,这时对结果的解释和结论的得出往往就会变得比较复杂,最重要的一点是你不能因为两者没有统计学差异而得出两种药物疗效相当或者非劣效之类的结论,而造成结果无统计学差异的原因则有很多,并不是一句两种药物疗效相等所能解释的。
让我们来看下边这两个例子:
# @( K* M. a1 E G1 @+ {研究1:随机、双盲、对照试验
- 比较两种溶栓药:SK和rt-PA
- 主要终点:30天死亡率(两分类变量)
- SK: 10370 例病人 rt-PA: 10348例病人
- SK: 7.4% rt-PA: 6.3%
- 卡方检验: p=0.0028
8 {; R- g7 [# Z( ?! X8 ~& F. t
研究2:随机、双盲、对照试验
- 比较两种溶栓药:A和B
- 主要终点:30天死亡率(两分类变量)
- A: 1000 例病人 B: 1000例病人
- A: 7.4% B: 6.3%
- 卡方检验: p=0.37
& d* L+ E4 j; ?- d5 B) M从研究1和研究2,我们能得出什么结论?
/ y8 Q, ]4 I; o- o. [3 r
研究1:差异有统计学意义,SK的疗效优于rt-PA
研究2:差异无统计学意义,能否得出A和B的疗效相同?
$ i7 W& b6 }. z0 D0 l从上边的例子,我们可以看出,同样的30天死亡率,结果却大不相同。这里就涉及到一个对p值的正确认识的问题,这种问题在设计为优效性的试验中尤为常见。当p>0.05时,统计上说是无统计学意义,它的含义是根据当前数据,尚不足以认为两组间疗效差异具有统计学意义。
换句话说,p>0.05是一个不是结论的结论,从统计学上说它是结论,表示无统计学意义;从临床上说,它不是结论,既不能说两药有差别,也不能说两药无差别,可能例数过少或误差过大,增大例数或减少误差就可能达到p<0.05。就如上面的例子,当每组样本量从1000增加到10000时,同样的30天死亡率的比较就能达到p<0.05。因此,我们必须在这里强调的一点就是,不能仅仅从p>0.05就得出两药疗效相等的结论。
在优效性试验中,还会涉及到一个统计学差异与临床差异的问题。统计学差异很好理解,就是两组的差别有统计学意义,这个一般是由我们的p值或95%可信区间来判断的,而临床差异呢,就是从临床角度考虑两组的差别是具有临床意义的,举个例子来说,两种降压药降压差别在3mmHg以上才具有临床意义。
在考察差异的临床试验中,两组差异无外乎会出现下列4种结果:
- 统计学和临床都有意义
- 统计学和临床都无意义
- 统计学有意义,临床无意义
- 统计学无意义,临床有意义
上边的四种情况中,出现第一种和第二种,那么结论比较明确。然而,当统计学和临床不一致时,即出现上边的第三和第四种情况时,则需要进行具体分析:
当出现第三种情况时,即统计学有意义,临床无意义;这时我们不能以统计学上的意义来取代临床上的意义,为什么呢?很简单,不管真实差异多么小,当样本量足够大时,总会检验出两组具有统计学差异。例如,上边提及的降压药,如果两组实际差别也就是1mmHg,只要你的样本量足够大,上万,上十万,总能检验出统计学意义来,但这种差异无临床意义,如果是一种新药,那么这种药物本身也就失去了批准上市的意义。因此,这里小胖要特别提到的就是,考虑到这一点,当计算优效性试验的样本量时,你假设的两组差异必须在临床上是有意义的。
当出现第四种情况时,即统计学无意义,临床有意义;为什么会出现这种情况呢?很好理解,如果两组真实差异确实很大,但样本量太小,也会出现差异无统计学意义的结果。比如我们在上篇博文中提及的那个例子的研究2中,A组和B组30天死亡率分别为7.4%和6.3%,两者的差异是具有临床意义的,但由于样本量不够,差异无统计学意义;而当样本量增大时,同样的情况到了研究1中两组的差异就具有统计学意义了。
( n9 l" N$ O8 q) u8 i
; _$ |* s/ ]9 U" R/ o. r6 C4 }小胖说统计-014 非劣效试验
( F( i! r5 ?- S% B5 i% I
( N2 x+ b. y0 X. F( N, j; r5 [- C+ I2 P1 ?% e
2008年1月24日,Middlebrook制药有限公司宣布FDA已批准其开发的阿莫西林(amoxacillin)775mg缓释片Moxatag,用于每日一次口服治疗12岁及以上青少年和成人的继发于酿脓链球菌感染的咽炎和(或)扁桃体炎,而Moxatag则成为在美获得批准的第一个每日一次用阿莫西林缓释制剂。
而这次FDA批准的主要依据则正是一项随机双盲平行对照的非劣效试验。在这项试验中,对Moxatag每日一次和penicillin每日四次进行了比较,主要终点为细菌清除率。本试验设计为非劣效试验,即Moxatag在细菌清除率方面不劣于penicillin,非劣效界值为10%,即Moxatag在细菌清除率方面与penicillin相差不会超过10%。研究结果显示, Moxatag和penicillin的细菌清除率分别为85%和83.4%。两者相差的95%可信区间为(-5.1,8.2)。其95%可信区间的下限-5.1是大于非劣效界值-10的,因此可以证实非劣效性。另外本研究在其他次要终点方面也显示出了非劣效性。
在本试验证实了Moxatag和penicillin在疗效和安全性相当的基础上,与penicillin每日四次相比,Moxatag每日一次便成为了它的主要优势,医生们有了第一种可以每日一次使用治疗青少年和成人咽炎和(或)扁桃体炎的阿莫西林药物,这也就大大增加了服用的方便性,从而也提高了病人的依从性,这种每日一次的优势也最终促使FDA批准了此药物。
以上这个例子就是一个经典的非劣效试验,在证实疗效相当的基础上,通过自己药物的其他优势比如服用的方便性等来获得批准。
非劣效试验的目的在于证明试验组的疗效是否在在某个界值上不劣于对照组。当你设计非劣效试验时,既然你在疗效上没有什么特别的优势,那么你在别的方面就应该有自己的优势,比如说更便宜、更少的侵害、副作用更少、服用更方便等,这一点很重要,你必须找到一个你自己的优势,这个优势足以说服临床医生和药监部门,就小胖个人体会而言,这是你设计非劣效试验的理论基础和前提。让我们结合几个实例,来看一下非劣效试验设计时这方面的考虑:
D3 M0 C6 E* l0 _1 z9 V. Q1.更便宜:
RighiniM, Le Gal G, Aujesky D, et al. Diagnosis of pulmonary embolism by multidetectorCT alone or combined with venous ultrasonography of the leg: a randomisednon-inferiority trial. Lancet 2008; 371: 1343-1352
这是一项比较多层CT或多层CT联合静脉超声诊断肺动脉栓塞的研究。在研究设计时,研究者参考了以往的一些相关研究发现多层CT作为一种单独诊断的方法是安全有效的,而在多层CT的基础上联合静脉超声的附加价值不大。如果能证明单独的多层CT不差于多层CT联合静脉超声,那么病人就会因为省略掉静脉超声而大大节省成本以及时间。因此,研究者设计了此项非劣效研究。
" q" j4 f0 T8 t# P, O2.更少的侵害:
ClinicalOutcomes of Surgical Therapy Study Group. A comparison of laparoscopicallyassisted and open colectomy for colon cancer. N Engl J Med. 2004 May13;350(20):2050-9
这是一项比较腹腔镜辅助和开放性结肠切除术的研究。众所周知,相比于开放性手术,腹腔镜辅助手术对人体的侵入性更小,作为一种新的治疗方法,如果疗效上相当,这种侵入性更小的优势足以使得腹腔镜辅助手术可以作为开放性手术的一种替代选择。正是基于此考虑,研究者把此项研究设计为非劣效研究。
. b1 H9 J& A& j* S6 k m% C3.更少的副作用:
BinghamCO III, Sebba AI, Rubin BR, et al.Efficacy and safety of etoricoxib 30 mg andcelecoxib 200 mg in the treatment of osteoarthritis in two identicallydesigned, randomized, placebo-controlled, non-inferiority studies. Rheumatology(Oxford). 2007 Mar;46(3):496-507.
这是一项比较艾托考昔和塞来考昔治疗骨关节炎的研究。塞来考昔是一种非甾体抗炎药,可以作为一种止痛和抗炎药物,但可能会导致严重的胃肠道副作用。由于骨关节炎病人一些潜在相关的因素以及长期大剂量使用非甾体抗炎药,其发生与非甾体抗炎药相关的胃病的风险大大增加。而在一些研究中,作为COX-2抑制剂的艾托考昔显示出与非甾体抗炎药相似的疗效,但有较少的胃肠道副作用。这种情况下,如果能证明艾托考昔的疗效不差于塞来考昔,其较少的胃肠道副作用则可以成为其优势,基于以上情况,研究者设计了这项非劣效研究。
6 a$ T# y, E' a# C* t$ b( B4.使用更方便
Assessmentof the Safety and Efficacy of a New Thrombolytic (ASSENT-2) Investigators.Single-bolus tenecteplase compared with front-loaded alteplase in acutemyocardial infarction: the ASSENT-2 double-blind randomised trial. Lancet. 1999Aug 28;354(9180):716-22.
这是一项比较替奈普酶和阿替普酶治疗急性心肌梗塞的研究。就两种药物的使用方法而言,替奈普酶为快速灌注,而阿替普酶则需要注射90分钟,显然替奈普酶更为简便。如果能证明替奈普酶不差于阿替普酶,其使用方法的方便性使得治疗时间更短,从而使其可以成为急性心肌梗塞治疗的新选择。因此研究者把本试验设计为非劣效性试验。
另外,文中开始部分中提到的Moxatag非劣效试验,也是基于使用更方便的考虑,这种使用的方便性有很多方面,比如上边提到的使用时间、使用方法、剂量疗程等。
当然小胖提及的上边四种情况,往往会同时存在,比如说你原来需要住院注射治疗的,现在可以口服治疗了,不仅使用方法简便了,其实因为无需住院也可以节省一部分费用,而本身注射也可能带来注射反应等。总之,在保证与标准治疗疗效相当的基础上,你必须有自己令人信服的别的方面的优势,而这一优势正是你的决胜之道。
一项好的非劣效试验应该从试验设计、试验实施以及结果的分析和报告三个方面做到科学合理,下边我们就依次从这三个方面,和大家一起探讨一下非劣效试验应该着重注意些什么。
1. 试验设计
9 f' T# S- W2 Y! z+ ^(1) 研究的理由(rational)
这一部分对应的是我们研究方案中的introduction部分,在这部分中我们必须了解和陈述一些background,然后最重要的是陈述你设计成非劣效试验的科学依据。这些依据应该至少包括以下两个方面:
- 说明你选择的阳性对照药是有效的。如果以前的试验或综述中有表明阳性对照药疗效优于安慰剂的,应该加以详细描述;如果没有这方面的试验,那么你应该提供阳性对照药疗效的依据。一般来说,你选择的对照药一般是广泛应用的,已被证实疗效的标准用药。这点不难理解,你选择了一个没大有效甚至说和安慰剂差不多的药做对照,还说自己的药非劣于它,这不找死吗。
- 说明你的试验药物与阳性对照药相比如果疗效相当的话有什么别的优势,不然的话你怎么让人家批你啊。。。
( [2 l1 s5 t" d" v. l/ l(2) 受试者的选择
在受试者的选择方面,我们要注意在非劣效试验中,你选择受试者的标准需要和以前证实阳性对照药疗效的试验的受试者标准尽可能保持一致。如果有一些不一致,需要进行描述和解释,并评估其对疗效的影响
8 j1 |$ _ |/ B. A) n3 \/ ](3) 研究目的和研究假设
这一部分要具体说明那一个指标非劣效。通常来说,非劣效的检验假设都是对应主要终点。
% ^5 [; Q: [$ z$ m(4) 非劣效界值的选择
非劣效界值的选择在非劣效试验中至关重要,可以说是非劣效试验设计成功与否的关键所在,而本身非劣效界值的选择是一个复杂的过程。
小胖在这里需要强调的一点是对非劣效界值的确定没有一个可以广泛接受的所谓的金标准。对于非劣效界值的选择,必须事先确定;而且必须建立在临床判断和统计合理的基础上。那种把非劣效界值确定一股脑全部抛给统计师的做法是相当错误的,也是极端不负责任的,从这个角度,什么具体规定的非劣效界值必须在15%还有什么20%或者其他数字之内的说法都是不科学的。
在临床判断方面,非劣效界值必须小于最小的有临床意义的差值(minimum clinicallyimportant difference,MCID)。啥意思呢,举个例子,比如临床上认为治疗某种疾病,在应答率方面如果有超过10%的差异就算有临床意义了,那么我们确定的非劣效界值就不能高于10%。这也很好理解,你确定的非劣效界值如果大于这个值,比如15%了,意思是数我只要不比你差15%就行,结果呢,如果你做出来的结果是差14%,按照15%的非劣效界值,虽说满足了非劣效界值的要求,但在临床上你差个14%,从临床上判断这个差别就是有临床意义的差别,就很难被临床接受了。非劣效界值一般取这个最小的有临床意义的差值的一半。当然界值的确定还需要结合临床结局、风险收益、成本收益等各个方面进行判断。比如说,对于某些严重的致命疾病比如心肌梗塞等,任何差异都可能被人们觉得是有临床意义的,这时需要选择一个比较窄的非劣效界值。相反地,对于那些结局较好的疾病,如果新的治疗能够在使用方法、不良反应或成本方面有十分显著的改善,那么稍微较宽的界值也是可以接受的。
在统计方面,非劣效界值应该小于阳性对照药疗效的95%可信区间下限,以保证新治疗的疗效大于最低疗效。50% rule 就是FDA推荐的一种确定非劣效界值的方法。就是说把阳性对照药疗效的95%可信区间下限的一半作为非劣效界值。这种做法得到的界值相对较为保守,而且这种做法会导致较高的假阴性率(II类错误)即降低显示非劣效的把握度。
总之,非劣效界值的确定是个很复杂的工作,没有一个统一具体的定量的规定,都是case by case的,不能搞一刀切。作为提高国内临床试验质量的主体,研究者包括临床医生必须明确自己在其中的主导作用,而不是一味地推诿给sponsor,推诿给统计师。
关于非劣效界值的确定,EMEA有一个专门的guideline,可从以下连接下载:
www.emea.europa.eu/pdfs/human/ewp/215899en.pdf
( s# r# Z' z" W S8 Z' j/ p1 w& b(5)样本量的计算
一旦非劣效界值确定后,样本量的计算就相对简单多了。这里需要注意的是,在power方面最好提高一点,一般取90%,以减少由于机会原因造成的本来非劣效但没显示出来。
6 v9 a: Z) n6 }7 k/ p# O" W3 a. w9 {
2.试验实施
* t2 _+ t/ r" W& I* u(1)与阳性对照药(标准治疗药物)先前做的安慰剂对照试验保持一致
为了保证在非劣效试验中不出现新药物对阳性对照药不公平的优势,试验实施必须与阳性对照药先前做的安慰剂对照试验保持一致。这些保持一致的因素包括病人的基本特征,阳性对照药的剂量、用法,观察指标的测量等。
这一点怎么理解呢,举个极端的例子,比如人家证实阳性对照药疗效所做的安慰剂对照试验中选择的剂量是400mg,结果你在非劣效试验中拿人家200mg做对照,这就是不公平的,更重要的是即使你非劣于人家的200mg,但人家以前证实的是400mg的疗效(优于安慰剂),那你怎么来说明你的药优于安慰剂呢。
1 }4 R0 h3 c$ z* q& [# m
(2)提高试验的敏感度(assay sensitivity)
啥叫提高试验的敏感度(assay sensitivity)呢?通俗点讲,就是提高你把有效的药物从无效的药物中区别出来的能力。为了更好地区别劣效和非劣效,研究者应该努力更多地入组那些对试验药物和阳性对照药物都可能有较好应答的病人,以及更容易遵循研究方案的病人,尽量减少病人的脱落等。为什么呢?如果较多的病人能对两个治疗都不应答或病人的脱落较多,会使得两组的疗效间的差异缩写,而产生趋于显示非劣效的偏倚。
- l9 J0 G- D/ c' F8 U! [4 a& o6 j
3.非劣效试验的分析和结果的解释
4 t- h1 ~/ f' b S6 P3 x2 n
(1) ITT vs. PP:
“Subjectswho withdraw or dropout of the treatment group or the comparator group willtend to have a lack of response, and hence the results of using the fullanalysis set may be biased toward demonstrating equivalence”
“无论是试验组还是对照组,受试者退出倾向于反应的缺失,因此,对于全分析集的结果可能产生趋于等效性的偏倚”
“However,in an equivalence or non-inferiority trial use of the full analysis set isgenerally not conservative and its role should be considered very carefully.”
“然而,在一个等效或非劣效试验中,全分析集一般并不保守,其作用应该非常仔细地考虑。”
E9 {. Y; n0 H( f6 L以上是ICH E9中对于非劣效试验分析集的有关描述,而关于ITT和PP数据集的问题,D’Agostino等在Non-inferiority trials: designconcepts and issues—the encounters of academicconsultants in statistics一文中指出,ITT分析容易使治疗组和对照组更相似,而去掉那些未完成治疗的病人的PP分析则更能反应出治疗的差异。他们进一步指出,ITT和PP分析结果都十分重要。而EMEA在Points to Consider onswitching between superiority and non-inferiority中则指出,对于优效性试验,ITT分析应该是主要分析,PP分析则是支持性分析,而对于非劣试验,ITT分析和PP分析同等重要。
签于此,现在大家普遍的共识是对非劣效试验同时进行ITT和PP分析,并要求两个分析的结果都必须支持非劣效的假设。
小胖在此还要提的一点就是对于非劣效试验中ITT和PP分析比较的讨论有很多,也各不相同。
EricaBrittain等人比较了11项哮喘临床试验中ITT和PP分析的结果。这些试验的主要终点是最大呼气流速,是一个连续性变量。在这11项试验中,有5项试验中ITT分析的绝对组间差异小于PP分析,2项试验ITT分析的绝对组间差异大于PP分析,其他4项试验基本无差别。由于病人数量的差别,PP分析中组间差异的可信区间的范围总是大于ITT分析。由此,作者得出了这样的结论“these trials provide noevidence that there is consistent bias in either direction”。
而FDA曾对1999年11月到2003年1月期间的20项抗感染药物的临床试验中ITT和PP的结果进行了比较,结果发现20项试验中有13项试验的ITT分析的组间差异大于PP分析。有人可能认为由于ITT分析的病人数更多会使得ITT分析的组间差异的可信区间会更窄,但结果却发现,20项试验中有12项试验的ITT分析的组间差异的可信区间却比PP分析更宽,这可能是因为ITT分析中反应率较低,更容易有更大的变异。
说了这么多,再重复总结一点,大家比较认同的做法是,对于非劣效试验同时进行ITT和PP分析,并要求两个分析的结果都支持非劣效的假设。
4 B+ V) u- D8 ]0 x }! g9 ^8 J
(2)统计分析
对于非劣效试验的统计分析方法,必须在方案中事先规定,到底是选择治疗组间差异的单侧还是双侧区间。如果使用双侧,一般采用双侧95%可信区间;如果使用单侧,一般采用单侧97.5%可信区间。以双侧95%可信区间为例,具体的做法就是先计算治疗组与对照组疗效的差值,然后求其95%可信区间,看其可信区间的下限是否大于-Δ(Δ为非劣效界值),如果大于,则可以显示非劣效。举个例子:
- 治疗组:85%
- 对照组:83.4%
- 非劣效界值:10%
首先计算两组之间的差值为1.7%,差值的95%可信区间为(-5.1,8.2),其95%可信区间的下限-5.1是大于-10%的,因此可显示非劣效。
/ i! S) A2 L% k8 J4 {9 E(3)结果的解释
结论应与研究结果保持一致,在文字表达上要紧扣你最初的试验的目的。最好我们研究报告的标题能明确写上我们应用的是非劣效设计,比如Diagnosis of pulmonaryembolism by multidetector CT alone or combined with venous ultrasonography ofthe leg: a randomised non-inferiority trial。另外讨论试验中一些潜在的偏倚也是必要的。
- M" D" \8 z8 |. ?
小胖说统计-015 非劣效试验和优效试验的转换
( l7 M w+ T8 d, D5 a$ b# V; o; R
: @* L1 Z* y+ I' R0 B# K0 }% [2 I* [, |# K7 v$ r% l
前边讲了优效和非劣效试验了,有人会问小胖了,有没有可能本来你设计成非劣效试验,结果作出来是优效的了。当然有这种情况,咱们可以在证实了非劣效的基础上再寻求优效啊,呵呵,没办法,人总得往高处走啊,要真能证实了优效,那不是意外之馅饼,何乐而不为呢。
其实我们在临床试验设计中会可能遇到这样的问题,你要上市一种新药,和标准治疗药物作对照,你不敢肯定你的药物的确比对照药好,你没有把握直接设计成优效性试验,这时你可以采取一种以退为进的方案,即先设计成非劣效试验,然后如果结果显示出优效,则可以得出优效的结论。
我们来看下边一个例子AMBITION研究:
AMBITION研究是一项tocilizumab对比 Methotrexate治疗风湿性关节炎的双盲随机临床试验,在这项试验中,研究者就把它设计成先评估非劣效进而评估优效的临床试验,具体怎么做的呢?我们看一下原文中的叙述吧:
The primary efficacy analysis was a non-inferioritycomparison of tocilizumab with methotrexate using the PP population. Thenull hypothesis was that the proportion of patients with an ACR20 response inthe tocilizumab treatment arm would be more than 12 percentage points lowerthan the proportion of patients in the methotrexate arm at Week 24. Ifnon-inferiority was met, superiority of tocilizumab was to be tested using theprimary analysis ITT population. A sample size of 275 patients per arm wouldprovide at least 90% power to test the null hypothesis.
在叙述中,研究者首先说明先对tocilizumab非劣于methotrexate进行证实,其中选择的非劣效界值是12%。而一旦证实了非劣效,则对tocilizumab是否优于methotrexate进行检验。在这里需要注意的一点是,样本量的计算是基于非劣效检验。
具体怎么做呢?
- 证实非劣效:tocilizumab和 methotrexate差值的95%可信区间的下限是否大于-12%
- 如果(1)得到证实,则看tocilizumab和 methotrexate差值的95%可信区间的下限是否大于0,如果大于0,则证实优效
; f% I8 Z& j* l) ] P2 F( F6 k
文中结果的叙述:
Afterestablishing non-inferiority in the PP population (ACR20 at Week 24, 70.6% fortocilizumab vs. 52.1% for methotrexate; weighted difference 0.21, [95% CI=0.13-0.29]),tocilizumab was confirmed as superior to methotrexate (ITT), with a weighteddifference for ACR20 response at Week 24 of 0.19 (95 % CI=0.11-0.27)
在叙述中,证实了非劣效(差值的95%可信区间的下限为0.13大于-0.12)后,也证实了其优效(差值的95%可信区间的下限为0.11大于0)。
1 |" W, [& x( G# Q. ?9 a9 `: t u上面说了由非劣效转化为优效的,那么如果本来设计成优效,但没做出来优效,能不能再转化为非劣效呢?
关于优效到非劣效的转化,如果没有事先在方案中规定非劣效检验及非劣效界值,一般认为设计成优效的试验如果其结果没有统计学意义,不能重新进行分析即事后分析进行非劣效检验。
小胖看到过比较多的从非劣效到优效的转换,但从优效到非劣效的转换很少,关于优效和非劣效之间的转换,EMEA也有个专门的类似于guideline的文件,可从点击阅读原文下载。
* B h6 Z0 V4 ~
* D( u3 U# c3 L- N/ u+ }# M+ D+ f: Q1 a8 f' J" d
小胖说统计-016 从临床试验实例来看样本量的计算6 Z( A2 H+ I6 e' Z \" o2 V
* B: l4 C& b/ S1 L" U
' X- F/ @1 f& q$ i" M) r例1:贝伐单抗联合多西紫杉醇和卡培他滨术后新辅助治疗乳腺癌
- 研究目的:观察贝伐单抗联合多西紫杉醇和卡培他滨术后新辅助治疗乳腺癌的疗效
- 主要疗效指标:病理应答率
例2:高剂量普萘洛尔治疗心绞痛
- 研究目的:观察高剂量普萘洛尔治疗心绞痛的疗效
- 主要疗效指标:心率的下降值
. P3 Q! l* R; q: l2 @
碰到以上两种情况,你会怎么计算样本量?
我们先看一下解决方案吧。
) z- z* f; [8 m
例1:
With an expectedpathological response rate of 20%, the sample size of 62 patients allowed forthe calculation of a 95% confidence interval with a precision of +/- 10%.
翻译:假设预计病理学应答率为20%,以95%可信区间估计,大约需要62例受试者可使病理学应答率在真值的+/- 10%内。
! F- P8 `0 y! p `% p
计算公式:
n = z21-α/2*P*(1-P)/d2
2 c5 ?% M9 y0 O( u
- α=0.05则z1-α/2=1.96
- p=0.2
- d=0.1
- C) c1 `& a- c8 D% h* H6 `
则n=1.96*1.96*0.2*(1-0.2)/(0.1*0.1)=62
$ f) L! F! e1 Q- |; K例2:
With an expected standarddeviation of 15, the sample size of 35 patients allowed for the calculation ofa 95% confidence interval with a precision of +/- 5.
翻译:假设心率下降的标准差为15,以95%可信区间估计,大约需要35例受试者可使心率下降值在真值的+/- 5内。
, \- L/ M" n0 o8 [6 p8 X; z
计算方法:
n = z21-α/2*s2/d2
8 Y# ?/ k, L. o- α=0.05则z1-α/2=1.96
- s=15
- d=5
' H8 d Z6 N& \1 \# K$ P则n=1.96*1.96*15*15/(5*5)=35
" C* h. j* B! g& n+ b& q例1和例2的评论:
( O% Z. H; O3 r2 i( `
上边这两个临床试验例1和例2本身有什么特点呢,小胖简单总结了以下几点:
- 研究设计都是单组非对照
- 研究目的都是观察估计治疗的疗效值(病理学应答率和心率下降值),而不是检验某个检验假设
* `1 n; \4 t3 P1 u$ ^那么在两个试验例1和例2计算样本量时,又有什么特点呢?
其实我们在这两个试验中用到的样本量计算方法使用统计中一个很简单也是很基本的思路就是降低不确定度(reduce uncertainty)。怎么理解呢?
上述两个试验目的都是想确定治疗组的疗效(病理学应答率和心率下降值)。此时所有的病人就是一个总体,而你选择的一定数量的病人就是一个样本,我们要做的就是用这个样本的疗效来估计总体的疗效,当然用样本来估计总体就会有一个准确不准确的问题,这时我们就需要适当地降低这种不准确度也就是我们常说的不确定度(reduce uncertainty),对于这个不确定度你自己得有个允许值,也就是说你最多能接受多大的不确定度,这个值就是我们常用到的精确度(precision),而这个又通过95%可信区间来实现,比如说咱要求咱估计出来的率的95%可信区间在总体值的+-5%范围内,你也可以这样简单地理解,就是你临床试验作出来的率和整个病人人群的率的差异不会超过+-5%。此时5%就是这个precision。很显然precision越小,你估计的越精确,当然需要的样本量越多。你也可以反过来想想,当你抽取的样本量越大,即做的受试者越多时,你估计出来的结果就越接近总体值啊。。。所以这种样本量的计算方法也叫precision-based samplesize calculation。
u- W ?' \: Q那对于precision-based samplesize calculation,我们需要什么要素呢?
- 研究的目的必须是估计某种疗效结局,可以是率,也可以是均数
- 对于主要疗效指标是率的试验,需要粗略估计一个平率值即p值(比如例1中,我们估计病理学应答率为20%);对于主要疗效指标是均数的试验,需要粗略估计一个标准差(比如例2中,我们估计标准差为15)。
- 精度水平也就是最大能接受的不确定度,例1中为10%,例2中为5;
- 可信区间水平,一般取95%可信区间
! P6 x8 m/ Z& `( c, S# i7 [- |
而对于率和标准差估计,小胖给出以下tips供大家参考:
- 如果没有一个好的对p的估计值,最直接简单的方法就是p取0.5,此时最保守,样本量也最大
- 对于标准差的估计,则可以参考以前的研究,专家的意见或预试验的结果
7 ?; D p5 F8 ~例3:曲妥单抗加紫杉醇对比单用曲妥单抗一线治疗HER-2/neu高表达的晚期乳腺癌
- 主要研究目的:确定两组一线治疗HER-2/neu高表达的晚期乳腺癌的总体应答率
- 主要疗效指标:总体应答率
4 G; D2 f @% C2 @' F1 [, Q
解决方案:
Theproposed sample size of 80 evaluable patients in each group was calculated todetect a difference in overall response rate between the groups with aprecision (2-sided 95% confidence level) of approximately +/- 16%. Allowing for10% of patients being unevaluable, the total number of patients required forrandomisation was 88 per group.
需要80例可评估病人可使得两组总体应答率的差异的精度(95%双侧可信区间)约为+/- 16%。假设10%的病人无法评估,则共需要随机入组88例病人。
/ \+ s) \/ J: F1 l! s. |( d$ s这里我们同样用到了precision的思路,与单组试验不同的是,这时我们的着眼点是两组治疗差异的precision而不是治疗组的precision,而此时的计算公式为:
n = z21-α/2*【P1*(1-P1)+P2*(1-P2)】/d2
: J. m3 q, Y. a- α=0.05则z1-α/2=1.96
- P1和P2分别为两组的率
- d为精度
* w, b9 Y. s6 n' P: D, Q& @在这个例子中,由于P1和P2不好估计,就采取了最保守的做法,让P1和P2都取0.5,此时样本量最大,而d=0.16;
- r1 |' O. \' [, bN=1.96*1.96*(0.5*0.5+0.5*0.5)/(0.16*0.16)~~80
从例3我们可以看出,两组对照的试验也可以采用precision-based samplesize calculation,但前提必须是研究目的都是观察确定治疗的疗效值,而不是检验某个检验假设。这也是precision-based samplesize calculation应用的基础,也就是描述性统计,在本例中,虽然是两组对照的试验,但研究目的还是确定两组一线治疗HER-2/neu高表达的晚期乳腺癌的总体应答率,而不是检验两组总体应答率是否有差异,这一点至关重要。
从例1,例2和例3中,我们可以看出在一些描述性统计的临床试验中,我们可以采用precision-based samplesize calculation,而这种描述性统计的临床试验常见于一些II期试验以及一些探索性试验,这种试验的研究目的往往只是为了观察估计某些治疗的疗效,并没有相应的检验假设为基础,而试验的结果和结论也都是一些描述性的和探索性的,这一点也与以后我们讨论的以检验假设为基础的临床试验区别开来。
. B5 l+ T9 Y4 ~' G( u; p例4:Br J Cancer. 2000 Sep;83(5):588-93
替莫唑胺对比丙卡巴肼治疗初次复发的多形性恶性胶质瘤的II期研究
- 主要研究目的:评价替莫唑胺和丙卡巴肼在6个月时的未进展生存率
6 j2 u0 U3 E% M% L' \7 K文中样本量计算的描述:
# F0 a2 O+ B U; U, n
With100 patients per group, assuming that the true 6-month PFS rate for TMZ was20%, the 95% confidence interval (CI) would range from 12.2–27.8%. This assuredwith confidence that the lower boundary of the 95% CI for the 6-month PFS ratefor TMZ would remain higher than 10%, which was assumed to be the threshold ofeffectiveness.
翻译:在每组100例病人情况下,假设替莫唑胺6个月未进展生存率为20%,则其6个月未进展生存率的95%可信区间范围为12.2–27.8%。这就使得其95%可信区间的下限高于10%,而10%则被认为是治疗有效性的界值。
8 G/ Z0 m) i: W" o) u* [+ V7 R& H从上边例4,我们可以看出:
- 研究目的仍然是描述性的,即只是评价两组治疗的疗效,而不是比较两组的差异;
- 在样本量计算时,巧妙地利用了threshold这个概念,即先假设一个疗效值,通过计算其95%可信区间,然后使得其下限大于治疗有效性的界值即threshold。
# j# f3 `% a5 [- c6 \而95%可信区间的计算方法如下:
- 可信区间的下限:PL=P-1.96*SQRT(P*(1-P)/N)=0.2-1.96*SQRT(0.2*0.8/100)=0.122
- 可信区间的上限:PU=P+1.96*SQRT(P*(1-P)/N)=0.2+1.96*SQRT(0.2*0.8/100)=0.278
注:SQRT为平方根
. j; R m1 V2 ^' ^其实从上边的公式可以反推出n值的计算,即:
N=1.96*1.96*P(1-P)/(P-T)**2
" ]9 ]) D, _$ ]- ^其中P为估计率,T为有效性界值
# s4 F g1 I9 t o0 ~, t这个公式是不是有点眼熟,是的,把P-T换成d就是我们前边提到的单组precision-based sample size calculation的公式,这样看来,其实这种样本量计算的方法和precision-based sample sizecalculation的方法是一致的,我们可以理解为把精度d设置为P-T即估计值减去有效性界值。
! ~4 M6 Q1 B# b
上面的例1-例4,我们详细介绍了描述性统计分析试验的样本量计算方法-precision based sample size calculation,但众所周知,我们接触到的绝大部分试验都是验证性试验(confirmatory trial),都是建立在假设检验基础上的研究设计,因此对其样本量的计算应基于检验假设、显著性水平及把握度等,这就是我们通常所称的power based sample size calculation。我们先看一下下边的例子吧:
例5:Clin Ther. 2008Aug;30(8):1492-504.
沙美特罗氟替卡松对比孟鲁司特治疗儿童哮喘的双盲双模拟随机对照研究
- 研究目的:比较沙美特罗氟替卡松和孟鲁司特治疗儿童哮喘的疗效和安全性
- 主要疗效指标:晨间最大呼气流量与基线相比的变化值
( |- N8 h% G" W1 T" j, }样本量计算描述:
With a SD of 60 L/min in bothtreatmentgroups, a minimum of 526 evaluable patients (263 perarm) would berequired to detect a difference betweentreatment groupsof 17 L/min at P = 0.05 (2-tailed),with a power of 90%.
解释:假设标准差为60 L/min,至少需要526例病人(每组263例)有90%的把握度在显著性水平为0.05(双侧)上检验出两组17 L/min的差异。
* v$ Z a9 z! n" a$ y' z例6:Lancet 2001; 358: 958–65
聚乙二醇干扰素alpha-2b联合利巴韦林对比普通干扰素alpha-2b联合利巴韦林初始治疗慢性丙型肝炎的随机对照研究
- 研究目的:比较聚乙二醇干扰素alpha-2b联合利巴韦林对比普通干扰素alpha-2b联合利巴韦林初始治疗慢性丙型肝炎的疗效和安全性
- 主要疗效指标:持续应答率(SVR)
1 ?8 x& B9 ?; j3 r3 x* v样本量计算描述:
This study was designed to have525 patients per group so as to achieve 90% power to detect a 10% difference inSVR rates (40% vs 50%), at the 5% level of significance.
解释:假设普通干扰素alpha-2b和聚乙二醇干扰素alpha-2b两组的持续应答率分别为40%和50%,则每组需要525例病人有90%的把握度在显著性水平为0.05的基础上检验出两组持续应答率10%的差异。
以上例5和例6就是临床试验中最常见的两种样本量计算的情况,例5的为连续性变量的样本量计算,例6为分类性变量的计算,那么这两个临床试验本身有什么特点呢?
- 研究设计都是随机对照研究
- 研究目的都是对治疗组之间的疗效进行比较
- 研究设计都是基于检验假设,而统计分析则是为了验证检验假设
& b0 d P0 Y" G2 G" X; [
基于此,我们在计算样本量时用到的也是与前边所提及的precision based samplesize calculation所截然不同的power based sample size calculation。
& {& f7 v( m" i* \" h
下边我们先看一下这两个例子中具体的计算方法吧:
6 B3 {7 G" B/ i t( H
(1)根据连续性变量的样本量计算:
/ ]" P( Y' X2 n; T c- V例5中的样本量计算是根据主要疗效指标晨间最大呼气流量与基线相比的变化值这个连续性变量来计算的,具体计算方法:
0 q9 y1 Z+ l3 C0 c
预先制定的参数:
- Δ:希望检测出的差异值,这里Δ=17;
- σ:标注差,这里σ=60;
- α:I类错误概率,也叫显著性水平,这里α=0.05
- β:把握度(power),这里为90%,1-β=0.9,β=0.1
- 单侧还是双侧检验:这里为双侧
; i( R- e& T5 q8 Q7 N计算公式:
5 {) r+ g; k: X+ v* y, }1 ^" j. [N=【2×σ×σ/(Δ×Δ)】×f(α,β)
f(α,β)是根据α和β计算所得,由于我们α一般都取0.05,在α=0.05时,对应不同的power ,f(α,β)大概值有个简单方便的表格,如下:
" w Z6 n+ U% D1 \1 mPower | | | & `$ N5 \; I: c2 `' w
|
单侧 | |
70% | | | |
75% | | | |
80% | | | |
85% | | | |
90% | | | |
95% | | | |
" z2 U6 j6 g$ Q
例5中,power为90%,α=0.05 双侧,那么f(α,β)查表应该为10.5。
7 q# m. P: M9 z0 h X因此n=【2×σ×σ/(Δ×Δ)】×f(α,β)=【2×60×60/(17×17)】×10.5=262
7 r5 ?+ b# R7 \8 F$ T每组262例和文中所述大体一致
; U8 O4 K0 `& j7 A4 I$ ^* A(2)根据分类变量的样本量计算:
( `, A$ S8 ^' R7 `, `
例6中的样本量计算是根据主要疗效持续应答率这个分类变量来计算的,具体计算方法:
: G( p }- }* M8 Z
预先制定的参数:
- P1:试验组的率,这里为50%
- P2:对照组的率,这里为40%
- α:I类错误概率,也叫显著性水平,这里α=0.05
- β:把握度(power),这里为90%,1-β=0.9,β=0.1
- 单侧还是双侧检验:这里为双侧
. S( X+ X! }9 t; L& J
计算公式:
( S4 i( |7 j- F* y3 z0 |
N={【P1×(1-P1)+P2×(1-P2)】/【(P1-P2)×(P1-P2)】}×f(α,β)= {【0.5×(1-0.5)+0.4×(1-0.4)】/【(0.5-0.4)×(0.5-0.4)】}×10.5=515
; X# R! F/ t# y( P每组515例和文中所述大体一致。
9 v% J+ q# o$ s8 G5 o
另外有人还会采取另一种计算公式,即:
' ?/ [1 _4 b- e g9 B9 N& Q
N={【2×P×(1-P)】/【(P1-P2)×(P1-P2)】}×f(α,β)
K4 c* N7 m3 r$ _/ G6 z
这里P=(P1+P2)/2=(0.5+0.4)/2=0.45
4 s m6 | ^! U. t* @ @
这时N={【2×0.45×(1-0.45)】/【(0.5-0.4)×(0.5-0.4)】}×10.5=520
3 l* X' o% q9 Z1 c4 d两个计算结果类似。
# }: I6 Y. n% O, i
从上边两个实例例5和例6,我们可以看出,基于假设检验的样本量的估计往往会涉及到以下六个重要因素:
0 s' _! U8 Y6 y# S9 H(1)Primaryendpoint:Summary measure of interest(proportions or means)
$ K7 t; e2 ~ e
样本量大小通常以临床试验的主要指标来确定,而我们在看这个主要指标时,需要确定它是什么类型的变量,连续性变量还是分类性变量,通俗点讲,就是这个变量的总结描述是用均数,还是用率,这两种不同的情况有不同的样本量计算公式。
# l7 X9 d; c% n* w
(2)EffectSize: Smallest difference worth detecting (clinically)
5 k, ^# F& m- u! Q* N1 @
Minimumexpected difference是指研究者希望研究能检测出的治疗组间的主要指标的最少差异值。这个最少差异值越小,自然需要更多的样本量来检测出来。这个值的确定带有主观性,一般根据临床判断和经验。比如说要进行一项比较新药物和标准治疗药物的试验,主要疗效指标是客观反应率,已知标准治疗药物的客观反应率是80%,对于新药物,我们只知道它可能更有效,但具体不知道新药的疗效是多少。这时假设新药的反应率只有81%,研究者肯定觉得在临床上没有什么意义,他们可能认为如果新药的反应率能达到90%才具有临床意义。因此,我们就会选择10%作为Minimum expected difference。当然,在选择这个Minimum expected difference时,我们最好可以参考一些以前的试验或预试验的结果,还有一些文献综述之类的东西,以便更有科学依据。
; C4 V w! i) l# ^1 P! F
(3)Variabilityexpected in the population:
* x( v. D/ {4 ~; @8 O% ^2 }
这个值对于连续性变量(均数)来说是标准差。标准差越大,需要的样本量就越多。当然标准差需要根据先前的研究数据来确定。对于分类性变量(率)来说,这个值就相当于治疗组的率值,P1和P2。P1和P2越接近0.5,样本量越大。
; D8 v2 F$ c4 {1 B) d: D! s# m* Y; Z
(4)statisticalpower:
# p. l, r, [2 R* F5 c
这就是我们通常所说的检验把握度1-β,通俗点讲,就是我们把自己的药作出来优于别的药物的概率。当然把握度越高,你需要付出的样本量也越大。通常情况下,这个值一般都大于等于80%,现在越来越多的人开始提倡使用90%。
$ c! k4 E3 B$ O m, a/ B(5)SignificanceLevel:
+ P& O9 K4 W9 M" b' v" V, u$ a这就是我们通常所说的显著性水平α。显著性水平越低,样本量越大。通常情况下,这个值一般都取0.05。
! k N& z3 v( r( J: U1 ]
(6)One-or Two-tailed Statistical Analysis:
, U$ n6 _8 K% h7 X9 M/ Q单侧还是双侧,在业界也存在争议,有不同的做法。对于一般的随机化临床试验,我们一般采取双侧,因为试验药物也有可能差于对照药物。当然我们这里所说采取双侧,是基于优效性检验的,并不包括非劣效试验。
5 r& e/ K, x& n7 k
众所周知,样本量的大小直接决定着临床试验budget的大小,现在很多情况下,大家的budget都是有限的,那么当统计师给你算出一个样本量来,结果你的budget不够,那该怎么办呢?小胖有以下建议:
- 降低你的statistical power
- 增大minimum detectable effect size,就是我们最通俗说的difference
- 我们不推荐改变你的方差、显著性水平等
- 如果这些改变还没有达到你的budget的要求,那么你只有两种选择了:
n 等到你的钱够了再做
n 按现有的钱做,可试验结果可能是inconclusive, 那你这个试验就只能当作pilot study或exploratory study来用了
% [3 o0 O/ j0 @( ?- `/ u% G; z. ~, g
其实上边所说的,都是不是办法的办法,样本量的计算在很大程度上确实是一门艺术,而不是简单的加减乘除,需要更多的权衡和智慧…
0 Y! ~3 U0 r6 V3 L
以上所提到的例5和例6样本量的计算的临床试验的研究设计都是优效性试验,那么对于非劣效试验,样本量的计算又有什么不同呢?
在介绍这个问题前,小胖需要让大家明确一点,在FDA的一般原则中,α=0.025(单侧)与α=0.05(双侧)是等同的,因此在非劣效试验的统计分析中一般有两种构建可信区间的方法:97.5%单侧可信区间和95%双侧可信区间,两者也是等同的。
明确了这一点,我们再看下边的例子:
# Z5 m; C2 I, l; |
例7:Lancet. 2008 Mar29;371(9618):1073-84.
Once-dailybasal insulin glargine versus thrice-daily prandial insulin lispro in peoplewith type 2 diabetes on oral hypoglycaemic agents (APOLLO): an open randomisedcontrolled trial
; b3 m& K' e" ?, X* D0 c% O, H. x3 ]Withthe assumption of an equivalence region of 0·4% and standard deviation of 1·3%for the differences of haemoglobin A1c reduction between the twogroups, one-sided therapeutic non-inferiority can be shown with an error of α=0·025(one-sided) and β=0·2 with 167 participants per group (total of 334participants).
8 i1 R8 L1 t% |- F! k# X+ _非劣效试验样本量计算与我们前边提及的优效性样本量的计算公式基本一致,只是用非劣效界值来取代了Δ(希望检测出的差异值),另外最大的区别在于α以及单双侧检验的选择。
以上边的临床试验为例,非劣效试验一般选择单侧,而α值一般选择0.025,即α=0.025(单侧),这时你会发现β为0.2,f(α,β)值其实是与α=0.05(双侧)相同的,都约为7.85。在这个意义上,非劣效试验样本量的计算其实与前边所提及的样本量的计算是一致的,只不过在叙述上有所不同罢了。
另外,特别提出的一点就是现在非劣效试验开始不接受α=0.05(单侧),因此我们以前所经常用到的α=0.05(单侧)其值用α=0.1(双侧)来代替,β为0.2,f(α,β)=6.2的做法应尽量避免。
' K. E# H# Q7 v+ _
前边的内容小胖介绍的都是基于连续性变量和分类变量的样本量计算方法,其实在我们的临床试验中特别是在肿瘤临床试验中还有一种十分重要的变量类型,即time to event(时间事件)变量,也就是我们通常所说的生存数据,比较常见的如OS(总体生存)、PFS(未进展生存)等。这类试验的样本量的计算与传统的样本量计算有所不同,从本篇博文开始,小胖将就这种类型试验的样本量的计算作一简单介绍。
" v$ F6 v9 y0 L/ ~3 Y# D% K7 B! F- y
例8:N Engl J Med. 2009 Feb5;360(6):563-72
Chemotherapy,bevacizumab, and cetuximab in metastatic colorectal cancer.
- 基本的研究设计情况:随机、开放的III期研究,受试者按照1:1的比例被随机分配到capecitabine–bevacizumab (CB)组和capecitabine–bevacizumab–cetuximab(CBC)组。
- 主要终点:未进展生存(PFS)
. O- a1 I9 o- R2 b4 n
样本量确定的描述:
It was estimated that with 540 events(progression or death), a two-sided log-rank test at a significancelevel of 5% would have a power of 80% to detect a difference inmedian progression-free survival of 11 to 14 months (hazard ratio,0.79). On the assumption of an accrual and follow-up period of36 months, we planned to include approximately 750 patients in thestudy.
: i7 h/ B2 H4 K9 [
例9:N Engl J Med. 2003 Nov 6;349(19):1793-802
A randomized trial of letrozole in postmenopausalwomen after five years of tamoxifen therapy for early-stage breast cancer
- 基本的研究设计情况:随机、双盲、安慰剂的III期研究,受试者按照1:1的比例被随机分配到letrozole (2.5 mg)组和安慰剂组。
- 主要终点:无病生存(disease-free survival, DFS)
+ b& [/ t) [0 }* d8 q$ D0 C; O Y样本量确定的描述:
The sample size was calculated under the assumptionsof a four-year disease-free survival rate of 88 percent in the placebo groupand the detection of a difference of 2.5 percent in the four-year disease-freesurvival rate (hazard ratio for local or metastatic recurrence of thedisease or the diagnosis of contralateral breast cancer, 0.78), with 80percent power at a two-sided alpha level of 0.05. These assumptionsnecessitated the enrollment of 4800 women over a four-year period with twoyears of follow-up, accounting for 515 events.
$ z9 I$ m5 @! K以上所提到的例8和例9子是生存分析试验中计算样本量最简单也是最常见的方法,这个方法由Freedman LS提出,其发表的文章为Tables of the number of patientsrequired in clinical trials using the logrank test,Stat Med.1982 Apr-Jun;1(2):121-9.
大家可以从上边的例8和例9中发现,与先前提到的基于连续性变量和分类变量额样本量估算方法有所不同,基于time to event变量的样本量计算方法首先估算的是events的数量。这一点其实是与time to event变量的性质相关的,在主要终点是time to event变量的临床试验中,power是由临床试验中观察到的events的数量决定的,而不是直接由受试者的数量决定的。说白了,就是必须由足够数量的病人进入试验,然后随访足够的时间,以便能观察到所需数量的events。因此,这种临床试验样本量的确定一般要分两步:(1)先确定所需的events 的数量;(2)确定所需受试者的数量。
上文中列举了time to event变量样本量确定的例子,如前面所说这时样本量的确定的第一步就是计算events数量,那下边我们具体看一下events的计算方法吧:
9 d$ _0 t7 z3 m6 {9 g4 f假设两组1:1随机分配:
7 `0 z3 M z% Z) }4 a8 Xe=f(α,β)×【(HR+1)×(HR+1)】/【(HR-1)×(HR-1)】
; u* S; m) \* R7 {上述计算出来的e值就是总共需要的events数量。
其中f(α,β)和前边所提的一样,是根据α和β计算出来的,具体数值可以参见前文所提的表格
HR为hazard ratio
4 I. l q. w4 c
从上边的计算公式来看,确定events数量的关键是确定HR,而HR的简单估计有两种方法:
: n5 H# F1 k9 N) I& O(1)根据median survival time来确定,比较简单的估计方法是:
HR= 第一组的mediansurvival time/第二组的median survival time;
7 K& U! I, |2 f9 m例8中,HR就是根据medianprogression-free survival time来估计的,两组的中位未进展生存时间分别为11个月和14个月,则HR=11MONTHS/14MONTHS=0.79;
! Y4 F. I) P. R
(2)根据Survivalproportion at a given time来确定,假设两组分别为P1和P2即:
HR=log(P1)/ log(P2);
% j. x/ V5 i6 o4 [7 P1 _0 U" |9 Y
例9中,HR就是根据安慰剂组和letrozole (2.5 mg)组4年无病生存率(four-year disease-free survival rate)来估计的,两组4年无病生存率分别为88%和90.5%,则HR=log(0.88)/log(0.905)=0.78;
6 u! g! E8 ^" e ?) a在这里小胖需要提一点就是,上述提到的只是用来对HR进行估计,并不代表平时我们就可以这样来计算HR。
% e9 b# z: \9 x* l lEvents确定后,最终还是要确定入组的受试者数,那具体怎么确定呢?
) L4 i" d2 n$ d/ j: w6 f% d g总的受试者数N=2e/(2-P1-P2)
+ C# K9 [ f# a/ ]; k8 ~
其中:
e为events数量
P1和P2为两组Survival proportion at a given time。
9 r1 a: r5 n3 _+ I+ p: X |3 {: l具体到例9中就是:
/ w# F7 }& k5 P) Q2 aN=515×2/(2-0.88-0.905)≈4800
! `8 [! j* H) z) h* x在生存分析的试验中,我们常用log-rank检验来比较两组生存情况的不同。它对治疗组生存分布情况不作任何假设。而我们以上提到的样本量计算方法便是基于log-rank检验,而且是建立在以下假设的基础上的:
- 病人接受固定时间的随访
- Hazard ratio保持不变
8 v( _: l+ q5 B; M) I1 P2 r
以上我们所提到的样本量计算方法广泛应用于各种生存数据的临床试验中,当然还有别的样本量计算方法,比如基于exponential survival andaccrual的方法,这种方法是假设生存分布是exponential的,计算方法相对比较复杂,小胖在此不再赘述了,如有兴趣的同学,可向小胖索要相关资料。
- j8 D* ~: q3 V: s$ @" q& Z5 u前边小胖花了9个实例来介绍了常见的样本量计算方法,大家会发现除了单组试验之外,其他的两组比较的试验设计都是平行对照的临床试验,那么其他类型的研究设计的样本量有什么不同呢?我们来看一下交叉设计(cross over)试验的样本量的计算。
: ], l9 Q( b0 O ^( W$ }
例10. Pain. 2008 Oct15;139(2):275-83
Escitalopramin painful polyneuropathy: a randomized, placebo-controlled, cross-over trial
- 基本的研究设计情况:随机、双盲、安慰剂对照、交叉设计的临床试验。受试者被随机分配到Escitalopram 6周+placebo 6周和placebo 6周+Escitalopram 6周两个不同顺序的治疗,中间有2周的清洗期。
- 主要终点:pain relief评分
" x8 K9 w# m# S, J9 H/ ~样本量确定的描述:
9 p. y$ n" g' `( ^6 G S# eTheestimation of sample size was based on the results of a former study, where themean difference in pain relief between the active drug and placebo showed astandard deviation of 1.84. Thus, it was estimated that a sample size of 36patients would provide 90% power to detect a difference of atleast one on the pain relief scale at the 0.05 two-sided significance level.
7 z/ |+ C5 V& k: t1 {$ a让我们先看一下这个试验样本量的计算方法吧:
: F& }+ X5 t$ w& N- C
总的受试者:
: w1 _! w; a( Y" K$ I! u
N=【σ×σ/(Δ×Δ)】×f(α,β)=【1.84×1.84/(1×1)】×10.5=36
: m. U4 N5 R' L" X/ G6 T& ~
大家可能发现这个公式与平行对照的连续性变量计算的公式有点相似。是的,它们基本的要素都是相同的,不同的在于:
- 平行对照的在公式中要比交叉设计的多乘以一个2
- 平行对照算出的N是每组的受试者数,而交叉设计算出的N是总的受试者数
0 Z* a3 K2 D; v
考虑到以上两方面的不同,我们可以做一个假设,如果σ和Δ都一样,交叉设计的样本量是平行设计样本量的1/4。
为什么会交叉设计的样本量比平行设计要少得多呢?
从交叉设计临床试验的研究设计特点来看,交叉设计试验中每一个受试者都是他/她自己的对照,对每个受试者都要进行两组治疗的评价。这就意味着治疗组间疗效的差异是基于within-subject比较,而不是between-subject的比较。在通常情况下,受试者自己比不同受试者间的变异程度要小得多,这样观察评价的精度就会相应地提高。因此,更少的受试者便可以检测出治疗的差异。
; ?+ i9 |4 a) X ^# @6 ~8 E6 L
前文中,小胖主要从如何计算样本量的角度结合实例向大家介绍了样本量的确定。正如小胖在先前提到的,样本量的确定本身更像是一门艺术,相比样本量计算公式和计算过程,其前边所作的功课特别是计算所需参数的确定远远比计算本身更为重要和复杂。下边我们以effect size这个参数的确定为例,大家一起探讨一下怎么有效地和研究者一起确定临床试验的样本量。
Effectsize的确定需要从研究者那里获取信息,需要研究者的大力参与。作为统计师,你的职责虽然不是直接确定这个值,但你在这个过程中可以发挥很大的作用,其中你最重要的职责便是通过你对研究设计以及样本量计算的专业知识来从研究者那里引导出effect size的信息。这怎么理解呢?
在我们的临床试验实施过程中,常会碰到这样的情况,当我们问研究者effect size多少时,
研究者根本不知道怎么回答,或者不知道你问的什么,甚至觉得这个问题不是他们应该回答的。特别是当我们问的问题比较专业难懂时,比如如果你问一个研究者“有90%的把握度在显著性水平为0.05(双侧)上检验出两组多大的差异才有意义?”诸如此类的很专业的问题时,研究者可能有三个反应?
- “什么?你说的什么?”
- “你是统计师,你觉得呢?”
- “两组不管多少差异都有意义啊!”
' d0 n1 K/ c- r0 i, H2 v
结果呢?我们是什么信息也没得到。。。
# t: Y' k2 N5 y, v/ ~( N那我们该怎么做才可能得到我们所需的信息呢?
2 v0 A( f L" A2 M$ h
第一步,试着这样问:
5 N1 d. Q. B7 E5 V“您觉得或希望我们的药疗效能比XX药(对照药)高多少?”
/ r7 s& X7 F/ r' E9 T, b/ U4 L
这时研究者可能报出一个他期望的数值来,比如说,“我觉得你们的药应该比XX药(对照药)在收缩压上多降个10mmHg。”
" _5 _1 @) Q5 f! O! {3 N
这时你得到的这个数值只是研究者的期望值,往往比较高,而根据这个值计算出来的样本量往往比较少,这时你心里可能有个底了,就是基本上这个计算出来的样本量差不多就是你最少需要的样本量了。然而,事实上这个期望值往往会比最终你确定的effect size高,因为毕竟是期望值,会估得比较高。这时你可以根据这个期望值进一步问一个比期望值低的值,一般从期望值的1/2问起:
1 T/ x$ `8 ?4 h: c) }" T“您觉得我们的药能多降个5mmHg在临床上有意义吗?”
& I2 I4 r5 a, ~% x' K( G如果回答是没意义,那么你可以适当地提高这个值,比如说“那6mmHg呢?”依次类推。。。
3 U3 ~0 g, z8 s# D
当然这时你也可以根据不同的effect size列出不同的样本量,然后再与研究者综合判断,从而确定effect size。。。
# @) e( R9 v+ W/ C+ F/ P
这就是所谓的两步问法,这样问的好处就是循序渐进。。。
4 Z# t# ?3 s4 m+ ^另外,有时问绝对值(比如上例中的5mmHg)比较难以理解,有时你还可以这样问相对值,比如:
9 t& B1 a) P7 E2 d“您觉得我们的药能比XX药在收缩压上能多降20%在临床上有意义吗?”
% N' `" `1 V6 [8 _4 K
还有你还可以反过来问,多少值没意义,如:
0 R( k! L8 Z" @" g/ `“您觉得收缩压多降个多少在临床上没啥意义?”
, X* I5 b# {* ^
还有你也可以让医生现身病人说法,如:
9 w: K, f+ ~+ _
“如果您是病人的话,有一种新药收缩压能多降个5mmHg,但费用会高一点(或者还有什么别的劣势),您会用吗?”
5 M3 i7 Y r/ X" j: P& t以上小胖给大家提供了一些effect size确定过程中与研究者沟通交流的方式,当然每个人的询问和回答方式都不一样,仅供大家参考。。
0 ~/ P/ S; i# K2 H
/ B0 o! C2 Y3 ?) T( E1 R小胖说统计-018 分析集
& {- D# e, d3 ^& ~; j6 U; x& S4 O; n( _. q3 ]! v' ~0 ^* q
; p) n1 M! N! n: r6 |在临床试验中,就算你的研究方案写得再完美,在实际进行过程中总会出现一些方案偏离。比如说,有些病人被随机分配到治疗组,但有可能由于某些原因发现其并不符合入选和排除标准;有些病人按照随机应该接受A药治疗,但它却错误地接受了B药治疗;有些病人可能开始接受指定随机的治疗,但后来由于疾病恶化或其他原因而接受了其他的治疗。此外,最为常见的是很多病人在试验结束前就因为各种原因而提前退出试验。还有就是有的病人依从性好能按照药物治疗方案接受治疗,而有的病人则可能依从性较差,经常漏服。以上的各种情况都可能在临床试验中出现,随之便产生了一个问题,就是在以上这些情况下,什么样的病人应该纳入药物疗效和安全性的分析?
在回答这个问题前,我们先来回顾复习一下随机化。随机化可以提供组间的无偏比较。随机化不仅能避免较容易确定、测量以及事先控制的偏倚;另外还能避免那些不容易测量或者也许我们根本不知道的潜在的偏倚。总之一句话,随机化是正确统计推断的基础。但我们必须意识到单单只是依靠随机化不足以提供科学的无偏倚的统计推断。除了随机化之外,还应包括以下两个方面:
(1)所有病人试验结果的评估必须以一致而且无偏倚的方式进行
(2)随机化病人的缺失数据不能损害治疗组间无偏倚的比较
' G# ]/ C$ E0 K: a- J3 s
第1种情况其实可以通过盲法加以很好地解决,在此小胖就不做赘述了,具体可参加前文中关于盲法的介绍。
而第2种情况呢?我们先来看下边这个例子:
3 e4 ~% b& d) y在一项比较手术治疗和药物治疗双侧颈动脉狭窄的随机对照临床试验中,共入组了167例病人,其中94例为手术治疗,73例为药物治疗。16例病人在开始住院时中风或死亡,而未纳入分析。而这16例被排除在分析之外的病人中,15例为手术治疗组。结果发现手术治疗组和药物治疗组短暂性缺血发作、中风和死亡的发生率分别为54.4%和73.6%,p=0.018,这说明手术治疗能降低短暂性缺血发作、中风和死亡的发生率。而当我们把所有随机化的病人都纳入分析后,结果两组的率分别为61.7%和74.8%,p=0.10,两组没有统计学差别。
在上述这个例子中,显然第一个分析产生了巨大的偏倚,为什么呢?其实这就是我们上边提到的第2点,随机化病人的缺失数据损害了治疗组间无偏倚的比较。在第一个分析中,未纳入的16例病人的缺失数据最后损害了治疗组间无偏倚的比较。而第二个分析中,把所有随机化的病人都纳入分析,这其实就是我们所说的意向治疗(Intention to treat, ITT),这也是解决这个问题的方法。
什么是ITT呢?我们先来看一下ICH E9中的描述吧:
“The principle thatasserts that the effect of a treatment policy can be best assessed by evaluatingon the basis of the intention to treat a subject (i.e. the planned treatmentregimen) rather than the actual treatment given. It has the consequence thatsubjects allocated to a treatment group should be followed up, assessed andanalyzed as members of that group irrespective of their compliance to theplanned course of treatment.”
“这种原则主张根据想要治疗受试者(即计划好的治疗)为基础,而不是以实际给予的治疗为基础来对治疗效果做最好的评估。其结果就是分配到某个治疗组的受试者就应该作为该治疗组的成员被随访、评估和分析,而不管他们是否遵从计划的治疗。”
翻译过来比较拗口,其实简单一句“一旦随机,就要分析”,也就是说ITT包括所有随机化的病人,而且按照他们的随机分组情况进行分析,不管他们是否实际上满足入选标准,是否接受的是随机分配的治疗,是否随后提前退出或者违背方案等等。
那为什么要使用ITT或者说ITT有什么优势呢?
(1)首先我们从随机化的角度来看,ITT把随机化看得至高无上,而随机化的目的在于保证受试者一些可能影响结局的因素在分配的治疗组间保持均衡。然而如果不是按照随机化程序产生的分组及病人情况,比如说未按照随机分组情况分析或者把一些随机病人排除在外,这都损失了随机化的特征,就可能会潜在地破坏组间均衡并可能对治疗组间的比较产生偏倚。就如上篇博文中,我们提到的那个例子就是一个典型的例子。16例病人由于在开始住院时中风或死亡,而未纳入分析。而这16例被排除在分析之外的病人中,15例为手术治疗组。这就人为地降低了手术治疗组短暂性缺血发作、中风和死亡的发生率,从而导致了两组比较的巨大偏倚。
(2)其次我们从日常临床实践的角度来看,在这里我们先来认识两个概念Pragmatic和Explanatory。我们一般对某个药的疗效从两个角度来衡量,一个是从Pragmatic的角度,也就是确定药物在日常临床实践中的疗效;另一个是从Explanatory的角度,就是侧重于确定药物的生物学效应。在Pragmatic中,也就是日常的临床实践中,病人不依从和违反方案都有可能发生,而这些病人在评估疗效时都应该被纳入。而ITT允许不依从以及违反方案,因此是最适合确定日常临床实践中药物疗效的。而在Explanatory中,为了确定药物的生物学效应,往往会把不依从或违背方案的病人排除在外。因此ITT对治疗效果做出的估计是较为保守的,而这种估计更能反映以后临床实践中的情况,避免了由于把一些不依从者排除在外而造成的对治疗效果的过高的估计。
上文中,小胖简单介绍了ITT的概念及优点,并提及ITT应该包括所有随机化的病人,那么ITT在临床试验实践中的实际应用情况是不是这样呢?
) q5 l4 S- `- b( q# C* k5 _
我们来通过下边这篇研究来看一下:
. P1 |5 {8 l1 f5 T5 t/ ^6 D$ _
Kruse RL,Alper BS, Reust C,Stevermer JJ,Shannon S,Williams RH.Intention-to-treat analysis: who is in? Who is out? J Fam Pract.2002 Nov;51(11):969-71
) ^4 q5 }9 M( _& l3 H在这篇研究中,作者在MEDLINE中随机选择了100篇提及ITT分析的文献。在这100篇文献中,有42篇ITT分析包括了所有随机化的受试者,而其他58篇则或多或少地在ITT分析中排除了一些随机化受试者。其中最常见的原因为随机化后没有进行任何访视(16篇)或没有服用任何药物(14篇)。还有13篇文献中,我们无法确定什么样的受试者被排除在ITT分析之外。详细情况见下表:
3 S. g& i' r H2 E1 r' l) y: u- u7 g
' Y0 l! t/ g( @# N3 p
t6 p8 t$ w3 z0 O& {2 J4 t表:排除在ITT分析之外的随机化病人的分类
分类 | |
分析包括所有随机化受试者(真正的ITT) | |
一些随机化受试者被排除 | |
受试者不满足入选标准 | |
受试者未接受任何分配的治疗药物 | |
受试者接受一些但不是全部的分配治疗药物 | |
受试者随机化后未接受任何访视 | |
受试者随机化后未接受全部访视 | |
受试者由于某些特定原因提前退出 | |
受试者出现某些特定的方案违背 | |
受试者出现方案违背,但没有提供具体的情况 | |
其他 | |
无法确定什么样的受试者被排除 | |
( L0 \) N$ N+ ]9 E( o5 Q) y& zITT的标志应该是所有随机化的受试者都应该进行分析。但我们从上面的调查发现,超过一半的研究并不是这样。他们所谓的ITT分析其实只是严格意义上的ITT的一个子集,其中排除了一部分随机化的受试者。这种情况在临床试验的报告中并不少见,比如说我们常看到这样对ITT数据集的描述:
1. ITT population includesall randomized patients who take at least one dose of study drug
2. ITT population includesall randomized patients who take at least one dose of study drug and have atleast one post-baseline efficacy measurement
3. ITT population includesall randomized patients who complete three treatment cycles
。。。。。。。
8 z3 k" w/ O1 s {. M虽然ITT应该包括所有随机化病人,但在实际临床试验中有很多情况下对ITT的定义却不尽然,为什么呢?正如ICH E9中叙述的“The intention-to-treat principle implies that theprimary analysis should include all randomised subjects. Compliance with thisprinciple would necessitate complete follow-up of all randomised subjects forstudy outcomes. In practice this ideal may be difficult to achieve, for reasonsto be described.”,ITT应该更多地看作一项理想的原则而不是单单看作一个实际的分析方法。因此现在很多临床试验中所谓的ITT很多都不是标准的ITT(即包括所有随机化病人),而只是以ITT为原则,但会从所有随机化病人排除掉一些病人,这就是所谓的practical ITT分析。而这种practical ITT并没有单一的标准和定义,因此就会才发现在很多临床试验中出现不同的ITT的定义,有的说至少服用一次药,有的说必须有基线后疗效数据等等。这就解释了为什么很多临床试验中都说采用ITT分析,但ITT分析并不是所有随机化病人,而是有不同的标准来排除一些不同的随机化病人。
而对于practical ITT的定义,Gillings and Koch (1990) 在The application of the principle ofintention-to-treat to the analysis ofclinical trials. 一文中曾经有过下面的总结:
Includesall patients:
- who were randomized
- who were known to take atleast one dose of treatment
- who provided any follow-updata for one or more key efficacy variables
。。。。
+ t5 n+ G8 t& i2 q. X: w* k' {3 O从以上的描述我们发现,Practical ITT其实也是尽可能按照ITT原则,从所有随机化的病人中以合理的方法尽可能少地排除病人,这一点也是我们在确定主要分析集时必须谨记的。
虽然有所谓的Practical ITT的说法,但我们看到大部分临床试验对ITT分析的定义还是所有随机化的病人,这一点也是小胖极力认可的。在小胖看来,如果你把主要分析集定义为ITT,那么ITT的定义就应该是所有随机化的病人,如果你还有什么别的标准需要排除掉一些随机化病人,那就不能叫ITT,你完全可以用别的名字来命名,比如小胖下边将要提到的Full Analysis Set(FAS,全数据集),或者现在很多临床试验中使用的Modified Intention to treat(MITT),这样才能名正言顺。。。
ITT为统计检验提供了可靠的基础,它是个很美好的东西,大家都知道,但就美好的东西,往往有时实际实现起来会有些困难,比如在随机化后发现病人不符合主要的入组标准,病人一次药也没用过,A组病人吃了B组的药,随机化后没有任何资料等,显然你会觉得对这些病人进行分析可能是不合理的。因此,ICH E9认为ITT实际上只是一个原则。签于ITT原则在实践中贯彻的困难,ICH E9中引进了一个概念,那就是全分析集(Full Analysis Set,FAS)。全分析集是指尽可能按照ITT原则,所有随机化的病人中以合理的方法尽可能少地排除病人。也就是说,尽可能地按照ITT原则包括所有随机化的病人。
而关于什么样的病人有时不得不从全分析集中加以剔除,ICH E9中有以下的论述:
“There are a limitednumber of circumstances that might lead to excluding randomised subjects fromthe full analysis set including the failure to satisfy major entry criteria(eligibility violations), the failure to take at least one dose of trialmedication and the lack of any data post randomisation. ”
“有少数情况可能导致从全分析集中排除一些随机化受试者,这些受试者包括不满足主要的入组标准(违反合格性),没有服用过至少一次剂量的试验药物,以及在随机化后没有任何数据。”
从以上ICH E9中的论述,我们可以得出主要有以下几种情况可能导致一些随机化的病人被排除在全分析集之外即(1)违反合格性;(2)病人未曾用药;(3)随机化后没有任何数据。
由于一些病人可能会排除掉一些随机化病人,那么在排除这些病人时就可能会导致一些潜在的偏倚。因此,我们建议尽可能地对这些问题加以讨论。比如说:
(1)你说受试者不满足主要的入组标准,那这个入组标准的指标是在随机化之前测定的,还是在随机化后测定的,如果是随机化前,ok,如果随机化后那就有问题了。
(2)你说受试者满足主要的入组标准,那么你做出的判断必须是客观的,而且所有的受试者都应该接受这个标准的检查,而且必须是同一个标准,所有违反这个标准的人都应该剔除。最简单举一个例子,如果年龄是一个很重要的入组标准,要求必须18岁以上,结果有两个病人一个17岁,一个16岁,你就不能因为17岁比较接近18岁,舍不得丢弃,就把这个病人保留,而把另一个病人剔除了。
(3)受试者随机化后但没服药或者没有回来进行任何访视的测定,这时你把他们排除在外,就需要考虑他们为什么没服药或者没任何数据,是不是和治疗有关,比如是不是因为他们知道了治疗药物的情况,这些都需要进行仔细的考虑,否则就有可能产生偏倚。
虽然ICH E9中指出FAS是尽可能按照ITT原则,所有随机化的病人中以合理的方法尽可能少地排除病人,并列出了一些常见的导致随机化病人从FAS排除的情况,但在实际临床试验中,由于试验的不同情况,对FAS的定义也各不一样,小胖从Medline中搜索了一些使用FAS作为主要分析集的临床试验的文章,让我们看一下他们对FAS的叙述吧:
- m* T( v* f7 X
1.Kawamori R. Voglibose for prevention oftype 2 diabetes mellitus: a randomised, double-blind trial in Japanese individualswith impaired glucose tolerance. Lancet. 2009 May 9;373(9675):1607-14
“We did final analyses onthe full analysis set, which consisted of all individuals who were randomisedand took at least one dose of study medication.”
2.Gao Y. Efficacy and safety of exenatide in patients of Asian descent with type2 diabetes inadequately controlled with metformin or metformin and asulphonylurea. Diabetes Res Clin Pract. 2009 Jan;83(1):69-76
“Efficacy and safetyanalyses were conducted on the full analysis set, which by definition includeddata from all randomised patients receiving at least one dose of the studydrug.”
3.Endrikat J. Ovulation inhibition with four variations of a four-phasicestradiol valerate/dienogest combined oral contraceptive: results of twoprospective, randomized, open-label studies. Contraception. 2008Sep;78(3):218-25
“All women who entered the studies and who took at least onetablet of study medication and for whom at least one observation after dosingwas available were included in the full analysis set (FAS).”
4.Després JP. Effects of micronized fenofibrate versus atorvastatin in thetreatment of dyslipidaemic patients with low plasma HDL-cholesterol levels: a12-week randomized trial. J Intern Med. 2002 Jun;251(6):490-9.
“The efficacy parameters were analysed according to theIntent-to-Treat principle using the population of the full analysis set, i.e.all treated patients with a baseline value and at least one value ontreatment.”
5.Ho TW. Efficacy and tolerability of MK-0974 (telcagepant), a new oralantagonist of calcitonin gene-related peptide receptor, compared withzolmitriptan for acute migraine: a randomised, placebo-controlled,parallel-treatment trial. Lancet. 2008 Dec 20;372(9656):2115-23
“The full-analysis-set (FAS) was the primary population forassessing efficacy. For each primary endpoint, the FAS included all treatedpatients who had a baseline headache severity score and at least one postdosemeasurement occurring at or before 2 h after taking the drug.”
4 u# T3 z, F2 i( m4 ]/ e
6.Betts RF.A Multicenter, double-blind trial of a high-dose caspofungin treatment regimenversus a standard caspofungin treatment regimen for adult patients withinvasive candidiasis. Clin Infect Dis. 2009 Jun 15;48(12):1676-84
“Efficacy was evaluated in a full-analysis-set population,which included patients with a documented diagnosis of invasive candidiasis whoreceived 1 dose of caspofungin.” / N8 b% z. ~- |, r" u+ D, M" K# X
从以上这6个例子看来,对于FAS的定义,即导致随机化病人从FAS排除的情况,主要还是无外乎于ICH E9中提到的那三点,只不过有的是要求一点,有的要求两点,还有就是不同的组合而已。
对于大多数随机对照临床试验,包括所有随机化病人的ITT分析集是首选的主要分析集,但有些情况下,如果ITT做不到或不合理时,你就需要做出别的选择,上文中,小胖着重介绍了其中的一个选择FAS,这也是ICH E9中提及的。除了FAS,另外一个选择就是Modified Intention totreat(MITT),而这个MITT现在在一些临床试验中也运用得越来越广泛。
什么叫MITT呢?MITT也叫quasi ITT,它其实是ITT的一个子集,允许以合理的方式排除一些随机化病人。
相比于ITT,MITT从其中排除了一些随机化病人,相对于大多数试验使用ITT即所有随机化病人,MITT也有其市场,在一些抗菌/抗感染临床试验中更为流行和适用。
比如说,在一些细菌、真菌或病毒等引起的疾病的临床试验中,病人往往在实验室确诊前就开始随机化入组,而一旦随后的实验室诊断发现不是这种疾病,那么对这个病人再进行分析就不合理了,这时就需要排除掉这个病人,这时我们再用ITT就不大合理,于是我们就可以采用MITT。例如:
4 j R0 D5 R$ N, C0 m% X
1.Vazquez JA, A phase 2, open-label study of the safety and efficacy ofintravenous anidulafungin as a treatment for azole-refractory mucosalcandidiasis. J AcquirImmune Defic Syndr. 2008 Jul 1;48(3):304-9
“The MITTpopulation included all patients in the intent-to-treat population who had abaseline culture that was positive for Candida species.”
2.Mora-Duarte J.Comparison of caspofungin and amphotericin B for invasive candidiasis. N Engl J Med.2002 Dec 19;347(25):2020-9.
“Themodified intention-to-treat analysis (the primary analysis) included patientswho had a documented diagnosis of invasive candidiasis and who received thestudy treatment for at least one day.”
另外,在一个试验中可以定义多个MITT,比如Clinical mITT, Microbiological mITT,例如:
“Theclinical modified intent-to-treat (MITT) population was the subset oftreated patients who met defined minimum requirements for the diagnosis of CAP.The microbiological MITT population included patients in the clinicalMITT population for whom a baseline pathogen was identified and amicrobiological response assessment was made.”
; G+ r0 A* A7 D5 u- m* n- M6 q从以上小胖对于MITT的介绍,我们可以看出:
(1)它是ITT的一个子集
(2)我们以前提到的很多practical ITT实际上应该就是MITT
(3)比较常用于一些抗菌/抗感染临床试验
(4)在一个试验中可以定义多个MITT
而对于MITT,我们需要注意的是:
(1)随机化病人的排除必须是合理的,而不是随意的
(2)随机化病人的排除不应该与病人的基本特征或临床结局相关
(3)建议ITT分析作为其sensitivity 分析
上文中小胖花了很长的篇幅在介绍ITT及相关的分析,一共提及了多个分析集的名称:ITT分析集、FAS、practical ITT、MITT,有的同学可能感觉有点confused,那么现在小胖将对前边的作一总结和梳理,当然以下对数据集的认识只代表小胖个人的观点,仅供大家参考。这里需要说明的一点是,我们在这里讨论的是意向性治疗作为主要分析基础的临床试验。
$ e3 {" T1 g: }6 Z2 ]
在临床试验方案和报告中,对主要分析集的定义一般有以下几种情况:
8 R! Y/ @) U. |: |/ a) a8 c" N3 H
0 ?. Z A5 C& h5 g. r. p% l
% H3 T" r6 b3 V) ^4 l* @; j' Z$ _4 q$ h' J o
4 x1 K- ]$ ^9 t7 @! Y$ U+ t
c& C7 Q4 C& C( z5 s$ I" o2 `7 \) p& X, F0 x3 V; E
名称 | | |
ITT | | 这是最标准的也是严格的ITT定义,也是大多数临床试验采取的做法,这也是小胖推荐的做法,如果可行,那么你就尽量采取这种做法吧。。。 |
ITT | | 虽然名字叫ITT,但这其实不是真正的ITT,而是我们前边提及的所谓practical ITT,这种情况在临床试验中并不少见,但难免会给人一种挂羊头卖狗肉,名不符实的感觉,个人不推荐,但它确实是存在的,而且很多人对此乐此不疲。。。 |
FAS | | 这是ICH E9中推荐使用的,但不得不说这个名称在临床试验中运用的比较少,一些日本开展的试验比较多的使用这个数据集,而欧美则较少;另外由于国内的guideline是根据ICH E9翻译而来的,加之国内guideline一些制定者的宣传及影响,这个FAS在国内试验中也运用较多,个人感觉这个数据集还是比较合理的,也越来越受到重视,至少我们公司总部研究方案的template里已经开始运用它了,以前的试验方案里可是很少见这个词的。。。 |
Modified ITT | | 这个Modified ITT其实是与真正的ITT相对应的,它是ITT的一个子集,适用于一些ITT不切实际和合理的情况下,小胖见到的最多的是一些抗菌/抗感染试验中,由于这类试验的特殊性,这个MITT似乎成了这类试验的惯例,个人感觉,如果你做不到真正的ITT,那么你就可以用MITT。。。 |
+ O9 B& t3 M; Z* _Anyway,小胖只要让大家明白这些不同说法的来历,其实很多东西都没有一个统一的标准,有时都是case by case的,无论是你分析所有随机化的病人,还是排除一些随机化病人,无论你用什么样的名称,第一你要做到的是,必须事先规定,这一点是小胖不止一次强调的;第二必须是合理的,即你必须对此做出解释,当然最重要的解释便是你这样做的偏倚及对结果的影响,你要对此进行解释和讨论,以证实你排除一些病人的合理性。只要你做到这两点,其实你无论采用什么名称,采用什么定义,理论上都是可以接受的。另外,小胖向大家推荐的一点就是如果你主要分析不是所有随机化病人,其实你可以做一个所以随机化病人的分析作为sensitivity 分析,依次来进一步证实你的研究结论的正确性。
% y! H* w% W5 l7 L: s
除了ITT分析 ,其实我们在临床试验中往往还会有另一个分析集,即符合方案集(per-protocol, PP),有时也叫做evaluable subjects,valid cases,efficacy sample等,它是ITT的一个子集,是其中更加符合方案的一部分病例。在ICH E9中对这部分病例的特征做了以下描述:
“The 'per protocol' setof subjects, sometimes described as the 'valid cases', the 'efficacy' sample orthe 'evaluable subjects' sample, defines a subset of the subjects in the fullanalysis set who are more compliant with the protocol and is characterised bycriteria such as the following:
i) the completion of acertain pre-specified minimal exposure to the treatment regimen;
ii) the availabilityof measurements of the primary variable(s);
iii) the absence ofany major protocol violations including the violation of entry criteria.
0 g: s: i* y/ M4 \+ X! @
如上所述,总结起来一般有以下三个特征:
(1)完成了预先确定的治疗最小量
(2)主要变量可以测定
(3)没有重大违反方案
! G$ o9 m' i5 J, D4 @- v5 X
上边的这三点其实是比较概括的,具体到每一点的细节其实对于不同的试验就会出现不同的定义和解读,另外我们可能会发现在研究方案撰写中很难写得那么详细清楚,比如说重大违反方案吧,什么是重大违反方案,特别是在试验还没开始前,我们无法全部预料到所有的方案违反情况,更无法确定所有的重大违反方案的情况。因此,在小胖看来,一个比较切合实际的做法是,先在研究方案中对PP可以做一个比较概括,你也可以说是比较模糊的定义,但这种模糊并不代表永远模糊下去,你必须在数据库锁定和揭盲之前对受试者排除在PP之外的理由加以详细阐明,并形成文件。其实这一个内容是在我们数据库锁定之前的盲态核查这个程序中完成的,众所周知,盲态核查的一个最重要的内容便是确定最后的分析集到底包括哪些病人。
那么你在研究方案中应该怎么对PP定义呢?下边是小胖常用的一段在研究方案中对PP定义的一段话,供大家参考:
Per Protocol Set: All randomizedsubjects who meet key eligibility and evaluability criteria. The criteria usedto determine the Per Protocol Set will be decided and documented prior to thedatabase lock.
) i7 x4 I4 ?/ f4 Q8 y
上文中,小胖简单介绍了PP的概念,其实PP分析通常是申办者很愿意选择的分析,为啥呢?这是因为在这个分析集的病人一般都是对方案依从性比较好的,换言之,就是按时按量吃药的,排除了那些依从性较差,经常三天打鱼两天筛网,或者根本就没大吃几次药的病人,自然就可能使得新药物能显示出疗效的机会大大增加。但另一方面,PP却更容易产生偏倚,这是因为PP排除病人在某种程度上带有主观色彩,可能会带来一些偏倚,这种PP和ITT结果不一致的情况其实并不少见。
对于PP分析的定位,现在一致认为PP分析是一种有用的confirmatory analysis,在具体的统计分析过程中,需要对主要终点以及一些关键的次要终点进行PP分析,并不需要对每个终点都要进行PP分析。
在证实性临床试验(confirmatory trial)中,通常同时进行ITT分析和PP分析,当两个分析集得出的结论基本相同时,就更加证明试验结果的可靠性。但我们不得不承认,在有些情况下会出现ITT分析和PP分析结果不一致的情况,那么这时应该怎么看待呢?
如果不同分析集中,只是p值有略微的改变,那么就没有什么大的影响;但如果两个分析集结果中,在effect size上差异较大,甚至方向都不对不比如两组疗效差值一个是正的一个是负的,甚至出现统计学意义的差异,比如一个两组比较有统计学差异,一个没有统计学差异,这时我们就需要对这种不同做进一步的讨论和解释,从而得出正确的结论。
另外,小胖要提的一点是,这时如果你递交审批的就这么一个验证试验,那么问题就比较大了,如果你还有别的相同设计的验证试验,那么你也可以通过另外的试验的结果来做解释,当然解释不解释清楚就看实际情况了。在这一点上,我们就不得不佩服人家FDA的要求,FDA要求对新药必须做两个验证性的III期试验,因此如果一个试验出现了这样的问题,另一个试验也可以拿来加以对比和解释,从而得出公正的结论,不致于因为一个试验的问题而决定最终结局。。。
关于优效试验以及非劣效/等效试验分析集的选择问题,小胖在前边介绍非劣效试验的博文中已做过阐述,在此不做赘述,只以EMEA的guideline作为总结如下:
1.优效性试验的主要分析集应为ITT,PP可作为其证实性分析集。
2.非劣效/等效试验中,ITT和PP具有同等重要的作用,并需要两者的结论相似。
ITT和PP主要针对的是疗效分析,其实临床试验另外一个重要的分析,便是安全性分析,自然安全性分析也必须有它自己的分析集。对于这个分析集,有的人叫他Safety Set (SS,安全集),也有的人对它没有统一的名称,有的直接用All Treated Set来代替。
而对安全性分析数据集的定义,现在比较一致的定义是所有至少接受过一次研究药物治疗的随机化病人。因此,就会有小胖刚才提到的用All Treated Set来命名安全性分析数据集的情况。以下是小胖在写研究方案时常用的对安全性分析集定义的用词,仅供参考:
All Treated Set: All subjects whoreceive at least one dose of study medication. All summaries of safety datawill be based on the All Treated Set.
当然,对安全性分析集的定义,也有不同的观点,有的人提出安全性分析集应当只包括那些服用了至少一次药物并至少有一次安全性评价的病人。他们的理由是如果一些病人虽然服了药但其后没有任何检查数据,按照先前的定义属于安全分析集,但他们就觉得这些病人没有检查数据,不能列入不良反应率的分子中,但列入了分母中,这样可能缩写了不良反应率。
当然不可否认这种理解有他的道理,但其实在小胖看来这种理解也有问题:
第一,服用了药物后就有可能发生不良事件,而不是说有了一次安全性评价人家才有记录不良事件;
第二,如果按照他这个逻辑,岂不是只要有人中途退出,但没有发生不良事件,那么他不能列入不良反应率的分子,但列入了分母;但如果他继续治疗就有可能有不良事件,那么岂不是就也缩写了不良反应率。照这个逻辑下来,因为病人服药后随时都有可能发生不良反应,那么只有所有的病人都完成试验,才不会缩写不良反应发生率,这显然是不合理的。
罗唆了这么多,最后重申一点就是虽然有不同意见,但现在比较一致的通用的做法是,安全性分析集定义为至少接受过一次研究药物治疗的随机化病人。
4 Y }( G* a* b
1 A7 d& f1 o( y7 \, F
小胖说统计-019 缺失值(1)
% }4 t2 {% i! m% W }: ]6 l
+ X; N/ D5 z) ^7 Q: { g! \( N$ ?' ?; p! s) v# i: Z
众所周知,绝大多数临床试验中,特别是longitudinal试验中,对入组的每个病人都要进行一段时间的治疗甚至还有治疗结束后的随访期,在这段时间内,我们会在每个访视点进行相应的评估,以评价治疗的疗效和安全性等。因此,很难避免有些病人由于这样或那样的原因不能完成试验而在中途提前退出试验即脱落(dropouts),这时这个病人随后的一些测量和评估值就没有了,这时就不可避免地出现了缺失值(missing data)。事实上,几乎所有试验都会或多或少地不可避免地出现缺失值。
出现缺失值的原因有很多,例如患者拒绝继续参加研究,治疗失败或成功,不良事件,病人失访等等,而这些原因中,有的原因与治疗有关,有的原因则与治疗无关。
数据缺失的程度也可以不一样,比如有的只获得基线测量数据,有的某次或某几次随访的评价数据缺失。即使研究方案十分完整,也可能有部分数据无法搜集到。
关于缺失值,ICH E9中的描述较为简单:
“Missing values represent apotential source of bias in a clinical trial. Hence, every effort should beundertaken to fulfil all the requirements of the protocol concerning thecollection and management of data. In reality, however, there will almostalways be some missing data. A trial may be regarded as valid, nonetheless,provided the methods of dealing with missing values are sensible, andparticularly if those methods are pre-defined in the protocol. Definition ofmethods may be refined by updating this aspect in the statistical analysis planduring the blind review. Unfortunately, no universally applicable methods ofhandling missing values can be recommended. An investigation should be madeconcerning the sensitivity of the results of analysis to the method of handlingmissing values, especially if the number of missing values is substantial.”
而EMEA则针对缺失值,在2009年4月专门制定了GUIDELINE ON MISSING DATAIN CONFIRMATORY CLINICAL TRIALS,里面对缺失值的一些相关问题做了较为详细的介绍。
其实,缺失值的研究一直是统计学界的热点,虽然仍存在一些有争议的内容,但也达成了很多一致的意见,下面小胖将陆续介绍一下缺失值对研究结果和解释的的影响、如何避免缺失值、缺失值的分类以及缺失值的处理和统计分析方法等等。
临床试验几乎不可避免地会产生一些缺失值,那么缺失值对临床试验的结果有什么影响呢?其实总结起来主要有两方面:一是把握度(power)和变异度(variability),二是偏倚(bias)。
* [7 g* t/ a% _1.把握度
大家都知道,在一个临床试验中,样本量越大统计把握度就越高。如果对于缺失值的处理是简单地把存在缺失值的患者排除在统计分析之外,那么就会导致纳入统计分析的有效病例减少,从而会会导致统计把握度的降低,而且很明显缺失值越多把握度就会可能越低。统计把握度的降低意味着什么?说得极端或严重点,就是原来有80%甚至90%的把握能检验出你的药好,结果现在这个把握可能降到了70%,60%甚至更低,意思是说你本来比人家好,可最后做不出来比人家好的可能性大大增加。
另外,那些没有完成试验的病人更有可能出现一些极端值(治疗失败导致脱落,极好的应答导致失访),比如说你做一个降压药,有个病人吃了药没效果血压还增加了5mmHg,它就退出试验了,另一个病人吃了药效果很好,血压降了40mmHg,他觉得不用再吃了,也退出试验了,如果你把这两个病人都排除在外,那么你就低估了血压变化的变异度,本来有很好的-40mmHg,还有很差的+5mmHg,结果你把他们都排除在外了,血压变化的变异值不就变小了吗。变异度降低了,那么治疗效果的可信区间就变窄了,自然这个效果的估计就不够准确。
J% F; J, G$ {3 v1 _: P2.偏倚
其实缺失值最大也是最重要的问题就是它可能造成很多偏倚(bias)。如果由于缺失值,病人被排除在分析之外,那么就会对以下方面产生影响:
; T* w* h+ Y" q) `: R% i9 \(1)治疗组之间的可比性:
这个比较容易理解,由于一些病人排除在分析之外,势必会对治疗组间病人各方面的均衡性产生影响。这种均衡性的影响不仅是病人的基本特征方面的,更严重的是治疗效果方面的。比如说某一组有一些病人因为治疗效果差退出试验,本来人家应该是效果比较差的,那么在统计分析时你把这些差的排除在外,就会高估这一组病人的疗效,这显然会造成两组治疗效果估计的不均衡。
. B/ K! Y& u" Z; M2 O
(2)研究样本对目标疾病人群的代表性
我们作临床试验的目的就是通过选择一部分代表病人进行临床试验证实药物的疗效,从而推广至整个疾病人群。因此你入组时选择的病人其实就是整个疾病人群的代表,如果你由于缺失值把他们排除在外,势必损害了你这个入组群的代表性。
( a0 {: k. \" c. H其实所有以上两点,造成的一致后果便是对治疗效果估计的偏倚,这也是缺失值影响的最实质内容。
上文中小胖提到了,缺失值在临床试验中几乎是不可避免的,而缺失值会对临床试验的结果和解释造成严重的影响,并且缺失值越多,这种影响越大。那么缺失值的多少会受到那些因素的影响呢?以下小胖将主要从四个方面作一简单介绍。
(1)结局变量的性质:比如结局变量是死亡的试验的缺失值的发生就会相对较低,这是因为死亡是最容易评价的,就看他是生是死就行了,不用做过多的复杂的评价;而那些结局变量比较难以评价,需要病人积极配合参与的和/或需要复杂的检测方法的临床试验的缺失就会相对较高,比如小胖就做过的一个鼻息肉的试验,其中一项疗效指标是change from baseline in congestion/obstructionaveraged over the first 4 weeks of the treatment period,这个指标需要对前4周(2-28天)每天的congestion/obstruction求一均值,然后与基线的值相比较看其变化,而基线值也不是简单的基线某天的值,而是-7天到1天,这8天的值求一均值。因此需要病人自己每天都要在Diary card来评估自己的症状得分,这样看下来,一是每天都要记录测量,而是要病人自己评估记录,这些都需要病人的积极配合参与,因此在这种情况下,就比较容易产生缺失值。
(2)试验的持续时间即试验的时间长度:这个很好理解试验持续时间越长,病人越不容易全部完成试验,自然越容易脱落,缺失值也越多。比如一些治疗周期和随访期很长的肿瘤试验,就比较容易产生缺失值。
(3)治疗的疾病:当然对于方案依从性较差的疾病的临床试验中,缺失值会更多。比如说精神疾病,还有一些肿瘤试验等等,这些疾病的病人动不动就退出试验或失访了。
(4)治疗方法:这个也容易理解,那些治疗方法比较复杂的或者有损伤的,比较容易造成缺失值的产生。
* z2 m" R5 j0 w2 j1 b6 O2 g0 T. F
缺失值的多少会受到很多别的因素的影响,比如一些临床试验操作及验质量等方面的因素等等,当然对于到底允许出现多少缺失值,也没有一个规定,但自然缺失值越少越好,那怎么来预防缺失值的产生呢?下篇博文,小胖将作一简单介绍。
缺失值对临床试验结果和解释的影响中最大的影响便是它可能会导致治疗效果估计的偏倚,那么怎么来处理缺失值呢?
当然第一位的便是预防,如果没有缺失值产生不就没有随后的问题了吗。虽然绝对避免产生缺失值是不大可能的,但我们要做的是尽量地减少和避免缺失值的发生,那怎么做呢?
在开始介绍怎么预防缺失值产生之前,我们先来看一下缺失值是怎么产生的?其实小胖总结起来主要有两种情况:
(1)病人没回来参加访视评估,我们姑且叫它访视缺失;
(2)病人回来参加访视评估了,但并没有完成或提供所有评估所需的内容,比如说在这次访视的CRF表上没有填完整,只填了一部分内容,我们姑且叫它访视项目缺失。
下边小胖将按步骤简单介绍一下怎么消除或者尽量减少临床试验中访视缺失和访视项目缺失造成的缺失值。
1.CRF表的设计
' c# `$ r1 F+ b4 E1 B8 K缺失值的预防要从临床试验开始之前做起,而这一阶段最重要的便是documents,而CRF则是其重中之重。一份设计良好的CRF能帮助我们收集到准确完整的数据,可以大大减少以上提及的第二种缺失值即访视项目缺失造成的缺失值。在设计CRF表时要有清楚的填写指导,而且要充分考虑不同的audience。比如与需要研究者填写的内容相比,一些需要受试者自己填写或测量的内容必须有更清楚更容易理解的解释和指导。最好有question-by-question的instruction,这样就会更有利于CRF的填写以及完整。其实大家都知道很多CRF表中填写的缺失,其实不是没有测量或者没有相关信息数据,而是不知道怎么填写而造成的缺失,这些缺失值其实是我们最应该也最有可能避免的缺失值。同样地,还有一些与CRF相关的doucuments如受试者手册或日记等都需要有明确清晰的指导。
% p" H7 S) N( I) b* U2 ]4 M
2.培训
在入组病人前,必须对试验相关的参加人员进行培训。这一点不用小胖过多解释,每个临床试验开始前我们必须进行相应的培训,其中一项主要内容便是培训研究者怎么样填写CRF表以及相关涉及到数据收集的文档。特别是现在EDC在国内也开始陆续使用,EDC的training也显得更为重要。此外,虽然研究者在研究开始前接受了培训,但随着试验开始,研究者可能会慢慢地又出现一些问题,这时我们很有必要对他们进行再培训,当然这种再培训的形式可以多种多样,可以是集中的,也可以是CRA和研究者一对一的等等。此外,我们还要注意的是,试验过程中如果出现研究者更换,我们也要对更换的研究者进行相应的培训。总之,一条原则,让研究者通过培训,在填写CRF,收集数据时尽量避免缺失值的产生。
3.监查
临床试验开始后,在临床试验进行过程中,监查对避免缺失值的产生起着至关重要的作用。我们的监查员在site进行监查时,要特别注意出现的数据缺失,要及时让研究者补充。此外,监查员要特别注意那些缺失率比较高的项目,分析其原因,并与研究者进行相应的沟通,采取相应的措施来减少缺失值的发生。
- ]. \9 }- A0 A4 ?4.病人的联系
对于一个时间较长、访视次数较多的临床试验来说,很重要的一点便是让参加试验的病人及时完整地进行相应的访视,完成全部试验的访视。怎么样才能尽量地留住病人呢?其实有很多比较人性的方法,如可以给病人发一些节日或生日卡片、发一些试验进展情况、可以定期打电话关心一下病人的病情、或者在下一次访视前及时进行电话提醒等等。此外,我们也可以联系病人家属等方式,但涉及到联系的信息,一定要注意保密。
' Q K+ `% `8 e8 f" G# M5.数据管理
当数据收集完毕后,下一个步骤即数据输入和数据管理时也要特别注意缺失值的预防。第一数据管理员会首先检查CRF的完整性,双遍录入后进行data verification,然后进行data validation,产生相应的query,所有这些步骤都可以进一步减少缺失值。
1 w: o) y( t5 J, h9 |1 P4 i' Z对于缺失值的预防,小胖需要强调的一点便是communication,这一点对避免缺失值的发生至关重要,无论上边提到的那一点,都需要communication,无论是申办者和研究者,研究者和病人,还是研究者和数据管理员等等,良好的沟通和交流,才能找出解决方案,才能真正解决问题,也才能更好地避免缺失值的发生。
4 o8 s+ ?6 ]. Q9 l) b
前边小胖简单介绍了缺失值产生的原因、缺失值对研究结果的影响、缺失值的预防等,而小胖也提到了几乎所有试验都会或多或少地不可避免地出现缺失值,那么既然是不可能绝对避免的,那么出现缺失值后该怎么处理呢?
首先我们看一下缺失值的分类吧。
对于缺失值的分类,Little和Rubin在Statistical Analysis with Missing Values一书中把缺失值分为三种不同的类型,这个分类也是现在国际上对缺失值分类比较公认的标准。这三类分别是:
(1)MCAR (missing completely at random):完全随机缺失
如果数据的缺失不依赖于任何测量值(无论是已观察到的还是未观察到的),那么这个缺失值就是完全随机缺失的,也叫做MCAR。一个典型的MCAR的例子是某病人由于非健康原因从这个城市搬到另一个城市,由于远离研究中心而无法继续进行试验而造成了数据缺失,这时这个缺失与任何测量值都无关。
4 }/ D$ Z) [' ? c(2)MAR(missing at random):随机缺失
如果数据的缺失仅仅依赖于观察到的测量值,但不依赖于未观察到的测量值,那么这个缺失值就是随机缺失的,也叫做MAR。例如某病人在治疗过程中的疗效测量值很差,缺乏疗效,因此医生或者病人自己决定退出试验而造成了数据的缺失。在这个缺失中,病人的缺失值是依赖于观察到的测量值的,即这个病人由于观察到的测量值很差而退出试验,这时病人的退出虽然与治疗结局有关,但是已观察到的测量值就已经解释了这个病人退出的原因,因此这个缺失值只与已观察到的测量值有关。
4 o! C: o3 m. J& h2 Q(3)MNAR(missing not at random):
如果数据的缺失既不是MCAR也不是MAR,那么就被归为MNAR,即数据的缺失依赖于未观察到的测量值。例如一个病人前边治疗效果都挺好的,各种观察测量值都挺好的,结果因为他在访视后疾病情况恶化而退出了。当然,这个退出与治疗结局有关,但在这个例子中,我们观察到的测量值不能解释他退出的原因,而未观察到的数据即访视后疾病情况恶化则是他退出的原因,即数据的缺失依赖于未观察到的测量值。
' G6 Z: ^' [* E* j7 W* A如果当缺失是完全随机(MCAR)或随机(MAR)的,那么根据完成试验的受试者做的统计推断仍然是有效的,当然此时的分析肯定不会像没有缺失值的分析那样efficient;如果缺失不是随机的(MNAR),那么根据完成的受试者做的统计推断就有可能产生偏倚。
从上文中提及的MCAR、MAR和MNAR定义,我们可以看出判断缺失值是否产生偏倚的关键是看缺失值是否与未观察到的测量值有关。因此,从这个意义上来说,临床试验实施中应该通过完善临床试验设计,加强数据的收集,在病人脱落后,尽量获得其后的数据。
然而另一方面,我们不得不说的是在大多数情况下,我们很难或者不可能来判断缺失值是否和未观察到的测量值有关,或者说来判断缺失值是否可以完全由观察到的测量值来解释。因此,我们在处理缺失值时,一个很明知的做法应该是采取保守的处理方法,而不是仅仅主要看MCAR还是MAR。
# j/ G0 m" C3 F0 E1 R6 m$ n上边说了这么多,既然缺失值几乎是不可避免的,那么在统计分析过程中应该怎么处理缺失值呢?常见的对缺失值的统计分析方法有:
2 Y4 H' l+ x) E; d- Q8 K2 L
1.Complete Case Analysis
2.Available Case Analysis
3.Imputation
4.Longitudinal Model
- S: b1 }! X9 [; p
下边小胖将逐一简单介绍一下缺失值的统计处理方法。
0 W; X. J+ J$ a8 K
1. Complete Case Analysis
. ?2 _, b! E% ]! @4 x& K
所谓Complete Case Analysis就是指把那些有缺失值的受试者全部排除,只分析有完整数据的受试者。这其实是处理缺失值最简单也是最粗暴的方法。其带来的问题不言而喻,一方面它是对ITT原则的巨大违背,并由此可能造成偏倚;另一方面它可能造成巨大的信息丢失,受试者只是因为很少的缺失值便要排除在分析之外,必然会损失这些受试者中那些可获得数据的信息;此外,这种方法会造成纳入分析的样本量大大减少,从而降低了统计把握度。鉴于以上的问题,Complete Case Analysis不能作为验证性试验中的主要分析,但可用于下边这些场合:
(1)探索性研究中,特别是在药物研发的开始阶段
(2)在验证性试验中作为次要的支持性分析来验证结论的稳健性,比如定义为受试者完成试验的PP分析
+ d/ v6 j7 v! z. |) N9 i: ?
2. Available Case Analysis
7 }3 ^" y: v2 c( G1 a" L所谓Available Case Analysis也叫Observed Case Analysis,就是根据观察到的数据进行分析,啥意思呢?和Complete Case Analysis不同的是,它只是删掉那些需要统计分析的变量缺失的受试者。比如说某临床试验有变量1,变量2,变量3。。。,Complete Case Analysis要求只要其中任何一个变量缺失,那么所有变量的分析都要排除这个病人;而Available Case Analysis中,如果某病人只有变量1缺失,那么只有在对变量1进行分析时才会排除这个病人,而对其他未缺失变量的分析则不会排除这个病人。显然与Complete Case Analysis相比,Available Case Analysis虽然也会在信息和精确性方面有所损失,但它可以更好地利用所有available的信息,从而使得估计更为精确和更少偏倚。其实我们发现统计软件比如SAS中通常默认的就是Available Case Analysis。另外一点就是,Available Case Analysis会随着分析不同的变量而样本量随之变化,这点很容易理解,如果受试者中某个变量缺失的较多,自然这个变量进行分析时,纳入分析的病人就会较少。
+ ~- Z% N' ~/ }/ O# E f3. Imputation
$ [5 P/ h6 q4 u* f
什么叫imputation呢,有人把它翻译成结转或转接,有人直接翻成填充或填补,但小胖觉得还是没有表达出英文的原义,自己也想不出什么好的词,就还是用imputation吧。所谓imputation就是指对缺失值用某个受试者可能出现的特定假设值来填充。Imputation一般分为single imputation和multiple imputation。
& g1 s6 ~2 l. G1 Q
(1)Single imputation
: o# l7 G" E% Y5 D6 h
为了便于大家理解single imputation,我们先逐一看一下一些常见的single imputation方法,最后再总结一下什么是single imputation以及其优点和缺点等。
3 d3 K1 e1 R: ?
LOCF
" e/ d6 u6 I R$ k
LOCF,Last observation carried forward,顾名思义,简单理解就是采用缺失值之前最近一次的观察数据来代替缺失值。我们来看下边这个简单的例子:
& Z9 k1 R% l1 ~# G
9 K$ B# `, E& y8 `+ F0 nLOCF后:
8 i7 K* ^# p7 s" ]
7 M3 L, @# u- y1 g1 }LOCF作为现在应用广泛的一种缺失值处理方法,特别是在一些评价change from baseline的试验中,它用采用缺失值之前最近一次的观察数据来代替缺失值,从而创造了一个完整的数据集用于ITT分析。这种方法简单、容易理解,并为大家所熟悉。但LOCF的应用其实是建立在两个限定的假设基础上的:
- 所有缺失的数据都是MCAR的
- 病人最后一次观察值到试验结束时的终点值是保持不变的
0 K6 c- j$ B$ S5 F; I- m
对于第一点,毫无疑问,现实中是很难做到的,缺失的原因有很多,而大部分不是MCAR的;而对于第二点呢?我们来细细看一下:
从LOCF的定义可以看出如果使用LOCF那么从病人脱落那刻开始后所有访视的值都是固定的都等于最后一次访视值,即LOCF的一个假设就是All unseen measurements = last seenmeasurement。那么事实是这样的吗?当然不是!事实上很多疾病的病情是随着时间而变化的,而并不是一成不变的。而这种病情变化其实也是不同的,结果自然也会不同。
比如说在一些疾病中,患者的病情会随时间的变化而恶化,那么利用LOCF分析则高估了治疗的效果,这一点很好理解,如果某个病人不脱落的话,他后边的访视的疗效会越来越差,而这个病人现在脱落了,你用最后一次的疗效值来代替后边的访视的疗效,这时自然这个疗效值高估了后边访视实际的疗效值。更糟的情况是,如果试验组的病人更多地脱落或更早的脱落,就可能更加高估试验组的疗效,从而得出有利于试验组的错误结果。
而在另一些疾病中,患者的病情会随着时间的变化而好转,那么利用LOCF分析则可能会低估治疗的效果,这一点也很好理解,如果某个病人不脱落的话,他后边的访视的疗效会越来越好,而这个病人现在脱落了,你用最后一次的疗效值来代替后边的访视的疗效,这时自然这个疗效值低估了后边访视实际的疗效值。
从以上的论述,我们可以看出LOCF的两个假设在临床试验实际中是很难达到的,由此而带来的后果便是偏倚,那么LOCF到底会带来什么不良后果呢?我们来看一下LOCF的三宗罪:
- LOCF对治疗效果的估计会产生偏倚,LOCF即All unseen measurements = last seen measurement,当然事实不是这样的,对治疗效果估计的偏差自然无需过多解释;而这种偏倚的方向和大小是依赖于真实的治疗效果的,而这种真实的治疗效果,我们却是未知的。
- LOCF会低估变异度。这一点也很好理解,你把所有缺失的值都用先前最后一次观测的值来代替,本来各个访视之间的值肯定是有所不同的,即有一定的变化或者说是变异,结果你统一地用一个值来代替了,那么缺失的各访视之的值相同,没啥变化,这不就无形之中降低了变异度吗。变异度降低的后果是什么,当然是可信区间的缩小,这就意味着你可信区间所涵盖的范围此时也是不准确的。
- LOCF会增大I类错误。由于LOCF低估了变异度,那么相应地标准误也会降低,由此而带来的后果便是增大I类错误。很多研究都证实了这一点,比较著名的研究如下:
u Mallinckrodt CH, Clark WS,David SR. Type I error rates from mixed effects model repeated measures versusfixed effects ANOVA with missing values imputed via last observation carriedforward. Drug Information Journal 2001; 35:1215–1225.
u Cook RJ, Zeng Ly, Yi GY.Marginal analysis of incomplete longitudinal binary data: a cautionary note onLOCF imputation. Biometrics 2004; 60:820–828.
7 K' R5 k, R8 d8 X既然LOCF有这么多缺点,受到了这么多批评,为什么还是有很多人选择LOCF呢?其中它们最大的defense便是LOCF有时是一种保守性分析方法,他们的理由就正如小胖在前边提及的一些临床试验中,患者的病情会随着时间的变化而好转,那么利用LOCF分析则可能会低估治疗的效果。而此时由于你用的LOCF分析的结果是保守的,因此如果这时还能验证其疗效,那么这个药的疗效就更加有充分的证据了。为此,在EMEA Guideline中提出了一句:
“LOCF onlyproduces unbiased treatment estimates under the MCAR assumption, but thisapproach can still provide a conservative estimate of the treatment effect insome circumstances.”
但这个理由站得住脚吗?此说法一经出现,便又受到了广泛的质疑,到底这些质疑是什么呢?
; x6 e7 {6 D/ d% a. b! a* `从理论上来说:
- 由于LOCF造成的偏倚的方向和大小是依赖于真实的但却是未知的治疗效果,因此我们无法保证哪种情况下LOCF是保守的
- 即使是在一些病情会随着时间好转的试验中,理论上LOCF可能会低估治疗的效果,但由于LOCF降低了变异度和标准误,从另一方面也可能大大弥补甚至超越了这种治疗效果的低估作用
) T d S) R/ t/ d6 e
从研究的实例来看:
- LOCF保守分析说缺乏充分正式的证据和严格的实验研究
- 一些研究显示LOCF夸大了治疗效果,增大了I类错误
3 |4 _0 D2 `& D! m* C$ x& aLOCF现在受到了越来越多严厉的批评,很多学者甚至提出了Time to stop carrying itforward,而且越来越多的替代方法也相继提出,但我们不得不承认的是LOCF仍是很多临床试验中处理缺失值的首选,为什么呢?当然它有它自身的优势,它简单,它容易理解,它使得申办者、研究者以及药监部门之间的沟通更容易,它的使用有大量先例,它在EMEA和一些别的guideline中有叙述等等,但我们不得不承认的一点是每一种新方法的产生都需要一个过程,能代替LOCF的好方法是有,但需要各方面的验证,需要各方面的接受,人们还是习惯于墨守陈规,而LOCF虽然不合理,但它先前有很多人使用,后来人便遵守之,这也是无奈之举。最后还是回到那句话,临床试验生物统计的方法往往都是很常规的方法,因为这是一个保守的行业,他不容你拿一些新的不成熟的方法在这里不断地试来试去。。。
至少小胖觉得LOCF的不合理性大于它的合理性,也许不久的将来,随着新的方法的不断成熟完善,LOCF会退出历史的舞台,who knows?
% q( m" M9 i% P: e
BOCF (Baseline Observation Carried Forward)
- Y* ]! b2 V( d0 r6 W
什么是BOCF呢?顾名思义,就是用基线值来代替缺失值。一个简单的例子如下:
1 n8 K4 d" z) F2 q% H! p9 p9 _1 `: c% L; c! A
BOCF后:
BOCF比较常见于一些慢性疼痛的试验中,如果病人退出试验,那么我们就可以假设他的疼痛会恢复到基线的水平,因此就用基线值来代替缺失值。显而易见,LOCF有它的合理性,但另一方面我们也不难看出它的主要缺点:
- 过于保守
- 忽略了脱落病人除基线外的其他访视的数据,因此会造成信息的丧失(loss of information)
% H0 `$ l+ F6 S% d5 X; C) F3 L; S
至于BOCF方法的详细介绍,有兴趣的同学可参考下边这篇文献:
0 y- e t4 ~: f' p0 K8 dJun Shao, David C. Jordan, Yili L. Pritchett. BaselineObservation Carry Forward: Reasoning, Properties, and Practical Issues. Journalof Biopharmaceutical Statistics, 2009;19(4): 672-684.
7 \3 o1 t0 w# a: O* ?3 cWOCF (Worst Observation Carried Forward)
& p8 ?: h7 x9 j. f
所谓WOCF,就是指用最差的观察值来代替缺失值。
$ y5 D+ L' a+ S& Y
一个简单的例子如下:
$ R. G+ a% Y" z+ U. M5 j
注:一项疼痛试验中,疗效指标为疼痛程度评分,评分越低,疗效越好
' g! k- l" B5 f: X
/ C Q' D$ A, j" T6 bWOCF后:
0 k) r* N! F7 j! r% b
% ?% b6 d: N5 R5 x) I很显然,WOCF相对于BOCF更为保守,它的假设是受试者脱落就意味着poor condition,而受试者脱落的原因也是negative的比如治疗失败。很显然这种做法是比较极端的,对治疗效果的估计一般都会产生偏倚。
5 L: u! h" c3 H7 |当然与WOCF (Worst Observation Carried Forward)相反的是Best Observation Carried Forward,即用最好的观察值来代替缺失值,它的假设则是受试者的脱落是positive的,即治愈之类的原因。
! ~* R% y4 p* d- A
我们不难看出,无论是Worst Observation Carried Forward还是Best Observation Carried Forward,都是比较极端的做法,它一般不会作为主要分析,往往可以作为sensitivity 分析来进一步验证主要分析的结论,而应用的范围也相对比较局限。
5 K' i2 ^& a5 k2 q9 N, pMean imputation
$ S" L+ d$ o3 \Meanimputation通常是指用同一个变量的其他受试者的均值来代替这个变量的缺失值。啥意思呢?比如说一项抗抑郁临床试验中,某受试者2个月时的HAMD-17评分缺失了,那么就用其他受试者2个月时的HAMD-17的均值来代替。尽管采用这种方法,保持了这个时间点所有受试者的总体均数,但它也有一个严重的缺点,即没有考虑到受试者这个变量与这个受试者其他变量之间的关系。比如某受试者2个月时的HAMD-17评分缺失了,它用其他受试者2个月时的HAMD-17的均值来代替,这样就忽略了这个受试者1个月时和3个月时的HAMD-17评分,没有考虑受试者自身不同时间点评分之间的关系。因此从这个意义上来说,Mean imputation稀释了各个时间点测量之间的联系。
, o/ l+ ?6 F" {# v0 p
Regression imputation
3 E! V( i8 j* C/ X: ]Regressionimputation 实际上是Mean imputation的一种拓展,也叫conditional mean imputation。它是使用回归模型的估计值来代替缺失值。与Mean imputation相比,Regression imputation对各变量之间联系的稀释会较少,常用的Regression imputation有simple regression imputation和stepwise regression imputation等。Regression imputation方法比较复杂,小胖就不在此赘述,有兴趣的同学,可参考以下文献:
Schneiderman E D; Kowalski C J; Willis S M. Regressionimputation of missing values in longitudinal data sets. International journalof bio-medical computing 1993;32(2):121-33.
6 f# P2 l. \2 m7 D6 n8 g- n+ L' ~# AHot-deck imputation
2 ^& N% {5 p2 B: a# f: eHot-deckimputation是指用其他相似受试者的值来代替受试者的缺失值。啥意思呢?就是说如果一个受试者某变量缺失了,那么就用其他和这个受试者在一些基本特征和预后因素相似的受试者的值来代替缺失值。这样的替代可能显得比较合理一点。显然与Mean imputation用所有其他受试者的均值来代替缺失值相比,Hot-deck imputation只是用其他与缺失受试者基本特征和预后因素等相似的受试者值来代替缺失值,这样就较大程度地保留了原来的疗效值的分布情况,从而提高了变异度,从而缓解了Mean imputation低估变异度的程度。
, E' h' I* K( R7 }8 J+ D- H$ S& V- M; f+ R" ?* g
未完待续。。。。。。。
/ {; l4 d2 f% o! s5 b3 ?
/ g2 L5 K" r. k1 D3 l小胖说统计-019 缺失值(2)) I7 y& _* F4 x
* W' c4 B5 [6 A: n- ?. n% T" I6 A2 b, M w. G9 z
上文中我们介绍了几种常见的single imputation的方法,LOCF,BOCF,WOCF,Mean imputation, Regression imputation 和Hot-deck imputation等。那么最后我们借用EMEA Guideline中的叙述来总结一下single imputation吧:
1 k) j6 B' \, X! Z& }# ]6 F
: |" m% X5 S, ~/ o( Q& p; o“An attractive approach forimputing missing data may be to employ a different pre-specified imputationtechnique for each different reason for withdrawal, rather than the sametechnique for all patients. While this would represent a relatively novelapproach, there is no objection to this in principle. The strategy has moreflexibility in handling different reasons for and timings of withdrawal andconsequently the possible relationship between missing data and the outcome ofinterest. If used appropriately, it may better address the question of primaryregulatory interest. The method also offers an intuitive framework forconducting a range of sensitivity analyses.
A potential disadvantage of singleimputation methods is that these methods risk biasing the standard errordownwards by estimating a central value and ignoring its uncertainty.Therefore, the confidence intervals for the treatment effect calculated usingsingle imputation methods may be too narrow and give an artificial impressionof precision that doesn’t really exist. This possibility should be addressedwhen results from these analyses are presented.
In conclusion, single imputationmethods, including LOCF and BOCF, can be accepted as a primary analysis inconfirmatory trials provided that the applicant has justified that theestimated treatment effect is not expected to be biased in favour ofexperimental treatment and the associated confidence interval does notunderestimate the variability of this estimate to an important extent. ”
9 N; r q `5 F
主要观点如下:
- 可以根据不同的情况选择不同的single imputation方法,但必须事先规定
- single imputation在处理不同原因或时间的脱落时,有不同的灵活的方法
- single imputation提供了一系列广泛的sensitivity分析方法
- 大多数single imputation方法都面临着由于只是估计集中度而忽略离散度而造成标准误下降的风险,致使可信区间范围变窄,这些问题都要在使用single imputation方法时进行相应的阐述
- 在验证性试验中,如果治疗效果的估计值的偏倚不有利于试验组以及治疗效果估计值的变异度不被过分地低估到一个显著的程度,single imputation分析作为主要分析还是可以接受的
2 E% E& @0 p$ ^, \% V) D; |3 s
(2)Multiple Imputation
9 j6 j4 o* k, {. n. j {0 v( `Imputation是通过假设值来取代缺失值的方法,而single imputation则是每个缺失值都用一个单一的值来取代,由于没有考虑到缺失值造成的不确定性(uncertainty),因此对治疗效果的估计的变异度被过分地低估。考虑到single imputation的这一缺点,Rubin提出了multiple imputation,与singleimputation用单一的值来取代缺失值不同,multiple imputation是指指用复杂方法给每个缺失值都构造m 个估计值( m > 1) ,以形成m 个完全数据集,对每个完全数据集分别使用相同的分析方法进行处理,综合得到的m 个处理结果,以获得对分析变量的估计。分解开来,multiple imputation可以分为三个步骤:
- 缺失值被填充m次,从而产生m个完整的数据集
- 这m个数据集分别使用标准的方法进行分析
- 综合m个数据集分析的结果进行推断估计
4 p0 w/ ?' A, z! M
由此,我们可以看出multiple imputation主要优点就是multiple imputation考虑到了缺失值的不确定性(uncertainty):由于multiple imputation对每个缺失值是采用多个值来填充,由此而造成的不确定性就会被引入到分析中,而缺点也显而意见,第一它需要足够的样本量,第二是比较复杂,需要做大量的数据管理和分析工作,当然这一点随着许多统计软件的出现,通过软件进行multiple imputation,大大减少了其工作量和复杂度,也使得multiple imputation成为缺失值处理的一种常见方法。
9 a8 L/ {8 E+ T) W) X常用的multiple imputation方法有以下三种:
- Regression method 回归法
- Propensity score method 倾向得分法
- MCMC( Markov Chain MonteCarlo ) 马尔科夫链蒙特卡罗法
* L" x6 Y F: N1 p! F# m7 K3 SMultiple imputation的三种方法比较复杂,小胖将简单介绍一下其主要思路。
1 K# i1 O% {5 {1 V3 Z0 _' d$ u
Regression method 回归法
在回归法中,对具有缺失值的每个变量分别拟合模型, 以结果模型为基础, 模拟一个新的回归模型, 用于填补每个变量的缺失值。
Y2 \( e! @. V, HPropensity score method 倾向得分法
在倾向得分法中, 对每个缺失变量都赋予一个倾向得分, 以代表观测值缺失的概率,
并根据倾向得分对观测值进行分组, 然后应用近似贝叶斯自助法( bootstrap) 填补。
3 p- O- z! C: ^) ~0 RMCMC( Markov Chain Monte Carlo ) 马尔科夫链蒙特卡罗法
MCMC 产生于物理过程, 它是用于研究分子间的稳态分布的。在统计中, 用于通过Markov链从多维和其它难以处理的概率分布中产生伪随机( 非随机结果) 。一个Markov链就是一个随机变量序列, 其中每一个元素或变量的分布依赖于前面的变量值。在MCMC 中, 构建了一个对各变量的分布而言都足够长的Markov链, 使一个普通的分布更加稳定, 而这个稳态分布就是所要求的分布。从有关的分布中, 通过马Markov链的反复模拟得到结果。
7 b* l' j; o% f( v
其实这三个方法的理论过程比较复杂,小胖在这里只是让大家知道个大概,其实方法的实现我们就交给软件了,有些时候对于复杂的东西,我们更重要的是懂得如何去实现。而Multiple imputation的实现,有很多相关的软件,如NORM、SAS等。特别是在SAS中,提供了专门用于Multiple imputation的程序过程,PROC MI 和 PROC MIANALYZE,其中PROC MI过程是用于创建填补数据集,而PROC MIANALYZE则用于综合填补数据集分析结果产生变量的统计推断的。详细的Multiple imputation以及SAS中的PROC MI 和 PROC MIANALYZE过程的介绍,有兴趣的同学可参见下边这篇文献:
/ ^: d1 h O6 Y# X
Yang C. Yuan. Multiple Imputation forMissing Data: Concepts and New Development. www2.sas.com/proceedings/sugi25/25/st/25p267.pdf
. }/ g+ c; z, L, T* p
" n9 k2 e7 P4 u0 g5 L1 P4 D4. Longitudinal Model
1 ]/ S- G( z1 u4 ^+ y5 m$ ~除了前边提及的complete case analysis、Available Case Analysis和Imputation这三种缺失值的统计处理方法外,现在越来越多地采用一些Longitudinal Model来处理缺失值,其中比较常见的有MMRM(mixed-effect models for repeated measures)和GEE(generalized estimating equations)等。下边,小胖来简单介绍一下这几种常见的方法。
- o1 b$ {* B2 y; jMMRM(mixed-effect models for repeated measures)
" j: _5 Q7 q, x+ ?( \MMRM是一个基于likelihood的方法,它是利用模型的方法分析Longitudinal试验中所有实际观察到的数据,而不对缺失数据进行imputation,这种方法最早是从GSK公司的临床试验中得出的。每个个体受试者一系列的观察值都被看作来源于一个多变量正态分布,而其分布的协方差矩阵则描述了不同访视观察值之间的联系。具体方法部分,小胖就不在此做赘述了。
如前所述,LOCF一直是临床试验中处理缺失值应用最为广泛的方法,然而MMRM的出现开始改变这种现状,很多研究都对MMRM和LOCF进行了比较,并提出在MAR的假设情况下,MMRM分析是更好的选择。为此很多Longitudinal临床试验也开始把MMRM分析作为主要分析。总结起来,MMRM具有以下主要优势:
- MMRM可以利用所有观察到的数据
- MMRM考虑到了同一个受试者不同观测值之间的联系
- 与LOCF相比,MMRM可以更好地控制I类和II类错误
3 {8 f: V6 E8 @7 H$ X5 [, o对于MMRM的研究很多,下边是小胖阅读过的几篇比较好的参考文献:
# {& ^" P2 [$ X5 R. mPeterLane. Handling drop-out in longitudinal clinical trials: a comparison of the LOCFand MMRM approaches. Pharmaceut. Statist. 2008; 7: 93–106.
# u/ B; b& @9 ]0 l
CraigH. Mallinckrodt, John G. Watkin, Geert Molenberghs , Raymond J. Carroll. Choiceof the primary analysis in longitudinal clinical trials. Pharmaceut. Statist.2004; 3: 161–169.
/ n1 c9 j& I4 F2 N' ]
OhidulSiddiqui, H. M. James Hung,Robert O'Neill. MMRM vs. LOCF: A ComprehensiveComparison Based on Simulation Study and 25 NDA Datasets. Journal ofBiopharmaceutical Statistics,2009; 19(2): 227 – 246
6 m0 f. X! j! I0 I9 s. v T; z) o: x, ?7 Y& V
GEE(generalized estimating equations)是另一种常见的处理有缺失值的Longitudinal data的方法。值得注意的是GEE不仅可用于连续性数据,还可应用于分类型数据, GEE是一个大的topic,小胖将在以后的博文中开辟专题来介绍,故在此不做详述。
( y& g- D+ d: ]1 x- N. g$ O _
前文中,小胖花了大量篇幅介绍了各种缺失值的处理方法,其实每种方法都有它的优缺点,没有一种方法是在所有的情况下都被广泛接受的。而且所有的方法都只是提供一种估计结果,真正的缺失的结果我们还是不知道。因此不同的方法的结果可能会相差较大,特别是对那些缺失值较多的试验,因此我们应该评价不同缺失值处理方法对研究结果的影响,这就是所谓的sensitivity analysis。说白了sensitivity analysis的目的就是看看不同缺失值处理方法的分析结果是不是够稳健,而不是这个分析方法出来和那个方法出来的结果相差很大甚至相反。sensitivity analysis现在越来越多地使用到临床试验中,特别是一些缺失值较多的试验。EMEA guideline中列出了常见的几种sensitivity analysis的方式:
& y" ~; G! v$ K& C2 ~; {' ^- 全数据集分析 vs 完整病例分析
- 以MAR或MCAR为假设的分析 vs 以MNAR为假设的分析:因为我们无法保证所有的缺失都是随机的,因此我们需要建立在MNAR基础上的分析作为sensitivity analysis
- 不同模型的分析
- 把所有的缺失值看作治疗失败 vs 根据不同的缺失原因归为治疗失败或治疗成功
- 最差病例分析:一种是用可能的最好的结果值来代替对照组中所有的缺失值,而用可能的最差的结果值来代替试验组中所有的缺失值
- 。。。
/ G" D0 T" D$ Z) ] I7 b& K( @ e3 m$ q如果sensitivity analysis的结果一致并且对治疗效果的估计相似,那么这也从一定程度上说明由于缺失值造成的信息损失对整个研究结论没有多大的影响。这种情况下,研究结果的稳健性较好,缺失值也不再认为是一个重要的问题。相反,如果灵敏度分析的结果不一致,那么它们对于研究结论的影响必须加以讨论。在某些特定的情况下,缺失值会被认为是一个重要的问题,此时临床试验的合理性也会受到影响。
最后还需要强调的一点是,每种sensitivity analysis都应该被设计为评价不同缺失值处理方法对研究结果的影响。sensitivity analysis应该在研究方案中或者统计分析计划书中事先加以计划和描述,任何改变都应该在研究报告中描述和说明其理由。
% G% K& k( A0 O! a小胖一再提及在缺失值处理的过程中,没有一种可以被广泛接受的方法。因此,缺失值一直是一个比较复杂的问题,也是一个争议的问题,现在对缺失值的研究已经成为统计研究中一个很重要的方向。但值得欣慰的是,对于缺失值我们也形成了一些共识和原则,在小胖结束这个缺失值系列的最后,我们来最后总结一下缺失值处理过程中应该遵循的几项原则:
+ D' u# \2 q, s, |, n# j(1)尽量避免缺失值
所谓预防第一,解决问题最好的办法便是预防问题的发生。
$ q g/ b1 u+ i(2)事先确定统计方法
缺失值的处理没有一个通用的方法,不同的处理方法也可能导致不同的结果。因此在研究方案中的统计方法部分中预先确定缺失值的处理方法是十分重要的。这一部分应该包括缺失值处理方法选择的详细描述以及此种方法是最佳选择的理由。灵敏度分析也应该在研究方案中或者统计分析计划书中加以计划和描述。
由于一些问题的不可预见性,允许在统计分析计划书中或在临床试验结束时的数据盲态审核过程中对研究方案中缺失值的处理方法进行更新。相应的不同或者修正应该以书面的形式明确说明。另外,这些不同或修正的时间点以及数据的盲态应该明确规定。
2 B6 z u8 \$ w8 r+ H(3)缺失值的量化
应该列出治疗组间缺失值出现的比例和时间的不同。对缺失值出现不平衡的相关原因以及有缺失值的和没有缺失值的患者是否有不同的基线特征都应该进行分析。
' l4 U' j6 Y# O(4)Sensitivity analysis
Sensitivityanalysis即不同的缺失值处理方法对研究结果影响的分析,将有助于选择一个实际可行的缺失值处理方法。这些Sensitivity analysis可作为主要分析的一个支持性分析。
+ b6 X* \0 [; P(5)研究报告
事先确定的缺失值的处理方法以及以后对这种方法的任何修正都应该在统计方法部分有一个详细的描述。疗效和安全性评价中的缺失值的数量、缺失时间、类型以及可能造成的后果的讨论都应该包括在研究报告中。报告Sensitivity analysis的结果来证实研究结论的稳健性。
& a( E+ a- a1 {7 f- {' f2 X* Q# ]( i; ^
|- a- }! _# T4 W" ?4 B
小胖说统计-020 离群值
9 ]! F; x$ I; B7 C
/ y# G- F$ l5 N; h, D! z& L4 h; d! n! V( W4 W
我们在临床试验的数据收集中可能会碰到一些诸如此类的数据:
- 某病人的身高5500px
- 某病人的收缩压250mmHg
。。。。
1 r2 A0 V$ r: w! b: B
这时我们的第一感觉就是这些数据不正常,不符合常规,其实这就是所谓的离群值(Outliers),即某个数据值和其他的数据值看上去不一致。从统计学上来说,离群值有很低的概率来源于其他数据相同的统计分布。
/ u H1 j: l2 N4 G, B% S. I那么造成这些离群值的原因有哪些呢?其实想来,无外乎两种可能:
(1)数据错误,这可能是我们的第一反应。当我们再重新核对原始资料后,可能发现这些值可能是数据记录或数据输入等方面的错误。
(2)人家这个值确实就是这样的,那只能说明这些值是一些罕见的情况,比如人家确实身高就5500px,人家血压就高,就是250mmHg,世界之大,无奇不有吗。。。而且虽然人家罕见,但确实也是总体的一部分吗。
# g/ x0 p$ z0 k9 ^
那outliers会带来什么问题呢?最大的影响莫过于所有基于均数和标准差的统计检验都会被损害,由此带来的问题包括:
- 估计发生偏倚
- sums of squares增大
- p值错误
- 结论错误
' z3 t! ~3 F6 t4 o. z% l4 k关于outliers的危害,我们来看下边这个极端的例子:
* C' q* l. ~" |4 B- | l* s. e4 t0 \5个受试者某指标的测量数据实际应该为1,3,5,9,12;但由于数据输入错误变成了1,3,5,9,120,这就形成了两组数据如下:
P4 O( u E/ W) J: x实际组:1,3,5,9,12
错误组:1,3,5,9,120
6 ]( f9 H, v( G0 M/ Z8 ?( f; m- [
现在我们来看一下这两组数据的统计结果:
/ i/ J9 q; u' a* @/ k+ L& e/ Z$ _6 ]% b& V5 C$ G7 i0 U! U
| | | | |
实际组 | | | | |
错误组 | | | | |
' k6 A+ p! x, J9 l r$ l从上边的数据,我们可以看出,两组前四个数值是一样的,但在第二组中第五个值与其他的值相差很大,而这个值(120)就是我们所称的outliers。这时我们看一下统计结果,发现两组的中位数没有变化,这也说明了中位数是比较稳健的统计量,如果outliers比较少,其值也不会变化太大。但我们却看到两组均数、方差、均数的95%可信区间有了巨大变化,这就说明仅仅一个严重的outliers就会导致均数、方差、均数的95%可信区间的巨大扭曲。同样的道理,那些基于均数、方差的统计量如回归系数、p值等都会收到极大的影响。
从以上这个极端的例子,我们就可以看出离群值的发现以及处理对于一个正确的统计分析显得尤为重要,它应该是完整的一个统计分析过程的一个重要组成部分。这一点,ICH E9中也有以下论述:
“A similar approach shouldbe adopted to exploring the influence of outliers, the statistical definitionof which is, to some extent, arbitrary. Clear identification of a particularvalue as an outlier is most convincing when justified medically as well asstatistically, and the medical context will then often define the appropriateaction. Any outlier procedure set out in the protocol or the statisticalanalysis plan should be such as not to favour any treatment group a priori.Once again, this aspect of the analysis can be usefully updated during blindreview. If no procedure for dealing with outliers was foreseen in the trialprotocol, one analysis with the actual values and at least one other analysiseliminating or reducing the outlier effect should be performed and differencesbetween their results discussed.”
?* |0 _+ A }: H( K
既然离群值对统计分析有这么多危害,那么首先我们就应该把它找出来,那具体怎么找呢?下边我们来介绍一下几种常见的方法。
, X( G# T1 p( g' E! Q' `/ e6 K
1. Box Plot(IQR computation)
BoxPlot法也叫IQR computation法,即基于百分位数(percentile)的方法。大家都知道Box Plot是利用中位数、上百分位数、下百分位数来描述数据分布的一种图表。这里所说的上百分位数和下百分位数分别是指第75百分位数(75th percentile)和第25百分位数(25thpercentile),我们通常以Q3和Q1来表示。那么两者之差Q3-Q1,我们也有个名称叫四分位距,英文叫interquartile range简称IQR。我们就是利用Q1,Q3和IQR来识别异常值的。一般来说:
- 如果某个值小于Q1-1.5*IQR或者大于Q3+1.5*IQR,那么这个值我们就视为潜在的outliers
- 如果某个值小于Q1-3*IQR或者大于Q3+3*IQR,那么这个值我们就视为有问题的outliers
+ s" Z# [ C) }3 ~7 y8 M/ }
至于Q1,Q3和IQR的计算,我们可以通过SAS程序中的PROC UNIVARIATE来实现。下边是一段SAS程序,仅供大家参考。
. ?' ?4 k" P: d7 {/ x$ [PROCUNIVARIATE DATA=mydata NOprint;
VARy;
OUTPUTOUT=qdata Q1=q1 Q3=q3 QRANGE=iqr;
RUN;
( n5 W$ y$ A1 T! l8 N ]0 m. sDATA_null_; SET qdata;
CALLSYMPUT("q1",q1); CALLSYMPUT("q3",q3); CALLSYMPUT("iqr",iqr);
RUN;
, F P- P9 S; k, @$ R% ]*save the outliers;
( z, i7 n/ X) P* s) M- j+ e
DATAoutliers;
SETmydata; LENGTH severity $2;
severity="";
IF(y <= (&q1 - 1.5*&iqr)) OR (y >= (&q3 + 1.5*&iqr)) THENseverity="*";
IF(y <= (&q1 - 3*&iqr)) OR (y>= (&q3 + 3*&iqr)) THENseverity="**";
IFseverity IN ("*", "**") THEN OUTPUT outliers;
RUN;
& r9 ]- C V. l6 N
PROCPRINT DATA=outliers;
VAR<id variables> y severity;
TITLE'Data outliers for review';
RUN;
( K; I. V; }- P& h( z) JBoxPlot对数据分布没有什么特别的要求,对outliers的识别是描述性的,样本量越大,就会有更多的outliers检查出来。
除了Box Plot描述法,对于outliers的识别还有建立在假设检验基础上的方法。常见的outliers识别的统计检验有Grubbs tests和Dixon tests。下面让我们来分别看一下这两种方法:
5 s$ S8 u8 i: C+ Z6 F- OGrubbs tests 通常也叫ESD (Extreme StudentizedDeviate)法
1 R/ e, \$ R+ S$ _; Z; p' k# FESD法是以远离均值的标准差的倍数多少为基础的一种方法。通俗地理解,我们可以先选择离均值最远的一个值,然后远离均值的标准差的倍数Z,即这个值与均值的差再除以标准差。然后我们拿Z值与ESD界值进行比较,如果Z值小于ESD界值,那么我们就说这个数据集里没有outliers,如果Z值大于ESD界值,那么这个值就是outliers,然后我们再重复前边的步骤来检验第二远的、第三远的。。。是不是outliers。这种方法也可以扩展到同时检测多个outliers。关于ESD界值Grubbs也给出了专门的一个界值表。而关于outliers 的ESD法有一个专门的小计算程序,即GraphPad's Free online calculator,有兴趣的同学可以可以看一下下边的链接:
, [& ?; M$ R k1 J+ @http://www.graphpad.com/quickcalcs/Grubbs1.cfm
4 F' j: C3 b/ ~; B3 A7 T4 B. B+ K也可以从以下链接,下载一个专门计算的EXCEL文件:
http://www.graphpad.com/articles/grubbs.zip
" d% U8 g" @% J5 M" `2 c
对于ESD小胖还要重复的一点就是,ESD方法是建立在正态分布的基础上的,因此比较适用于大样本量的临床试验。
关于ESD方法的详细方法学介绍,在下边的书籍中有相关的中文翻译的介绍,有兴趣的同学可向小胖索取:
: R; j! X- Q# {+ R, S/ H* m8 l伯纳德. 罗斯纳著。孙尚拱译. 《生物统计学基础》:283-288。科学出版社。
( x* e9 w8 V2 F: p0 \% w8 hDixon tests法
Dixontests法比较灵活,算法比较简单,适用于较少样本量的数据。Dixon tests法具体的思路方法简单如下:
- 把N个数据值按照升序进行排序:x1 < x2 < . . . < xN
- 计算Dixon ratio,r,具体的计算方法如下表:
( P' [0 f/ ~! H$ B
0 s5 D& M% v4 _' l5 q" N
/ ]) @0 u8 e& J8 _" i% |
6 c) r% q. m s. x1 k u! o# ^. e4 r x
7 [( [% \" {" \% G+ |# ^+ J& `
Y" P7 b% s. k' l5 p( O* t+ B7 {
$ n% ~4 h5 T& I* M+ W3 |其中第三列的公式是来判断最大值,第四列的公式是来判断最小值的
' l( `3 X8 k, H2 [& F, e7 O
- 把Dixonratio值与相应的界值进行比较,而这个界值是根据N和显著性水平决定的。如果r值大于界值,则为outliers。
, Z0 J/ W4 F& {/ Q. M
我们来看下边这个例子吧:
2 @3 k; V0 d4 x某组10个数据:7.6, 6.4, 6.7, 5.8, 9.3, 5.4, 5.3, 4.1, 2.1, 16.3
: N" M/ S7 D. Q. S2 _9 v
我们先对其进行排序:
9 D; C2 Q, m' Z, g& t1 O! D; t; \1 S* H/ c2 B/ e2 |, E
如果我们怀疑最大值16.3可能是个outliers,那我们可以对其进行统计学检验:
因为N=10,那么我们选取r11=(xN- xN-1)/(xN- x2)=(16.3-9.3)/(16.3-4.1)=0.574
查界值表N=10, 显著性水平为0.05得界值为0.477,则r11大于界值,因此16.3是个statistical outliers。
7 V' Q0 |4 I& d: ]9 W如果我们怀疑最小值2.1可能是个outliers,那我们也可以对其进行统计学检验:
r11=(x2- x1)/(xN-1-x1)=(4.1-2.1)/(9.3-2.1)=0.278<0.477,因此2.1不是个statistical outliers。
% `. d, T! F- T" H9 ]% n
具体的Dixon tests界值表,可以参见下边的链接:
www.watpon.com/table/dixontest.pdf
5 j0 w. [; I! V9 o而关于Dixon tests的SAS Macros,大家可参加下边链接的全文:
www.lexjansen.com/pharmasug/2001/proceed/stats/sp08_li.pdf
1 ?% @( K* Q% ]) G
前文中,小胖主要介绍了outliers识别的几种常见方法,而对outliers的判断不仅应从统计学方面来判断,更应从医学专业知识方面来判断。正如ICH E9中指出的:
6 B$ ~2 W! G' G“Clear identificationof a particular value as an outlier is most convincing when justified medicallyas well as statistically, and the medical context will then often define theappropriate action.”
% ~; f0 q% `9 h& t8 ]而一旦确定了outliers,下一步该怎么处理呢?对于outliers的处理是一个很困难的问题。随意地忽略或者删除outliers都不是好的方法。那具体有什么方法呢?
3 v4 B& U- h, w6 W1 k* q9 v# r2 J1. Transformations(数据转换)
数据转换往往有两种方式,即平方根或自然对数。它的思路通俗地来理解就是对于比较大的数值,它压缩的程度比小的数值大,从而缩写数值之间的差距,比如说两个值100和25,本来相差很大,通过去平方根后,一个变成了10,另一个变成了5,两个之间的差距就变小了。然而,数据转换往往会导致outliers被过分地压缩。数据转换可能不适合模型理论,影响模型的解释。你对原始数据进行了数据转换,那么就可能改变了原始变量与其他变量之间的关系,对结果的解释也会不同。另外,通常用到的数据转换往往要求数据都是非负值。
' g% W" J- V. [$ f) ^0 b- c V1 U" W2. Deletion(删除)
删除outliers这种做法是最后不得已的做法,只有在这个值发现确实是错误值,而且无法更改的情况下或者这个值大大远离其他数值以致于严重影响统计推断。同时你可以同时报告保留outliers和删除outliers后的结果,看看到底有多大的变化。
3 `6 r) U: H+ Q- T0 f
3. Accommodation (调整)
所谓Accommodation就是通过某种调整方法来减轻outliers的有害影响。Accommodation的一大优点便是对outliers 的Accommodation无需事先对outliers进行确认。这种思路很好理解,既然处理outliers那么困难,那我们就选择即使outliers存在使用起来也比较robust的方法。其中最常见的方法便是非参数检验。例如我们可以用非参检验wilcoxon秩和检验来代替参数检验两样本t检验,这样就可以大大缓解那些outliers如一些极大值或极小值的影响,因为前者wilcoxon秩和检验基于观察值的排序而不是均值会更为robust。而在统计效率方面,模拟研究显示,非参数检验方法检验出统计学差异的能力仅仅略低于相对应的参数检验方法。另外我们也可以采取一些比较robust的回归模型来进行统计检验。
4 L" N# ^- h" E9 Q& [
关于临床试验中outliers的处理,小胖最后还是再重复一下ICH E9中的论述:
“Any outlier procedure set out in the protocol or the statistical analysisplan should be such as not to favour any treatment group a priori. Once again,this aspect of the analysis can be usefully updated during blind review. If noprocedure for dealing with outliers was foreseen in the trial protocol, oneanalysis with the actual values and at least one other analysis eliminating orreducing the outlier effect should be performed and differences between theirresults discussed.”
翻译过来大体意思是:
对于ouliers 的处理可以在研究方案中或统计分析计划中加以事先规定,而且这些处理方法不能对任何治疗组有所偏向。而如果未在试验方案中预先制定处理缺失值的方法,那么实际资料分析所得结果,以及采用去除或消弱outliers影响方法后的结果均需列出来,并加以比较,对结果不一致做出解释。
/ v- x1 G4 j8 N+ y' D j+ x. y k, c0 o6 ~4 Y
小胖说统计-021 参数估计、可信区间和假设检验
% {8 G$ q2 N: E. o+ n; Q/ s1 E; S- x' a8 L$ N% e0 g v" l
3 e! `5 X5 Q H# T
众所周知,参数估计、可信区间和假设检验是对临床试验评价的三大手段。而一谈到统计,很多人想到的的第一个东西便是p值。那怎么获得p值,我们自然会想到假设检验,而各种统计检验的方法,小胖在另一个小胖说统计系列临床试验常见的统计分析方法中将加以详细介绍。因此,在这里对于假设检验的具体方法,小胖不做过多阐述。小胖在这里要说的是,很多人在做临床试验时把p值看作第一位的东西,总觉得p值的大小直接决定着这个试验的成败,是衡量你成功与否的标准。的确,p值是很重要,但有时我们过分高估了p值的作用甚至被某些p值所蒙蔽了眼睛。
& w( v& Y9 w- c/ @' i" z7 U! I! k( x [
下面让我们来先看一个经典的临床试验的例子:
) ]: J4 u# A0 D8 FCohnJN, lohnson G, Ziesche S et al. A comparison of enalapril withhydralazine-isosorbide dinitrate in the treatment of chronic congestive heartfailure. N Engl . Med 1991; 325: 303-310
; _1 V7 U+ B2 V4 M
在这个随机对照临床试验中,对Enalapril治疗和hydralazine 联合nitrates治疗心力衰竭进行了比较。试验共有804例病人参加。所有病人进行了6个月到5.7年的随访,最后结果发现,Enalapril组33%(132/403)的病人死亡,hydralazine 联合nitrates组38%(153/401)的病人死亡。两组死亡率(两分类变量,死亡或生存)差异的卡方检验显示,p=0.11。
% X c7 Z; I( D2 v
看到上边这个结果,也许很多人会认为由于p值为0.11大于0.05,那么两组疗效没啥区别,然后会把这个试验归为negative(阴性)试验。
但可能也有人会提出,从临床试验结果来看,Enalapril组比hydralazine 联合nitrates组的死亡率能降低5%,如果这个5%是实际存在的差异的话,降低5%其实是有临床意义的,如果是这样的话,他们觉得Enalapril组的疗效会更有优势,然而实际的统计检验却没有显示出统计差异,这又怎么来解释呢?
5 E1 p5 h9 P4 b% p% Z5 w9 X6 Z" d
在上边的例子中,虽然死亡率5%的差异在临床上是有意义的,那为什么未能得出两组差异的结论呢?答案是入组病人数太少以致于没有检验出差异来。而本来有差异却没有检验出来,这就是我们常说的II类错误(β),在这里由于样本量过少造成了II类错误(β)较大。当某个试验II类错误(β)较大时,那么它的power(1-β)就会较低。在本例中,小胖可以通过结果来算一下power,,最后的power实际只有约31%。也就是说,如果两组死亡率分别为33%和38%,在样本量为804的情况下,只有31%的把握检验出两组的差异,换言之,本来有差异却没有检验出差异的概率有69%(1-31%)。
在这个试验中,对于两分类变量(死亡或生存)来说,两组之间较小的差异往往需要很大的样本量来检验出来。我们可以算一下,如果两组死亡率还是分别为33%和38%,假设80%的power,那么算下来需要将近3000例病人。
此外,在上文的例子中,研究者对两年后的死亡率的比较发现两组死亡率分别为18%和25%,p=0.016。这也从另一方面说明了Enalapril组与hydralazine 联合nitrates组相比,疗效确实有优势。
从上边这个例子来看,在一个简单的p值背后其实有很多东西需要我们仔细地进行分析,对于一个临床试验结果的解释,不是仅仅看看p值大小就做出结论那么简单,而通常这种仅看重p值大小的做法也是我们在临床试验统计分析和结果解释中的大忌。正如小胖在开篇就提及的那样,不要过高地看重p值的作用,更不要让p值蒙蔽你的眼睛,对临床试验的结果,我们要综合各方面来看待,其中这里不得不提的一个重要的东西便是可信区间,而这一点恰恰是很多临床试验结果报告和解释时所忽略的,下边小胖将着重介绍以下可信区间在临床试验中的应用。
在开始介绍可信区间(confidence interval)在临床试验中的应用之前,小胖首先和大家复习一下可信区间的定义。
95%可信区间的确切定义可以这样理解,如果你重复做同样的临床试验100次,对这100次试验中的每次试验都对两组疗效的差异构建一个区间范围,那我们就得到了100个区间范围,在这100个区间范围内,有95个区间范围包括了真实的两组疗效差异值。而对于任意一个试验所得的95%可信区间来估计真实的两组疗效差异值时,我们就可以说,这个区间范围有95%的可能包含了真实的两组疗效差异值,也就是说真实的两组疗效差异值有95%的可能落在这个区间内。这就是所谓的通俗的理解。
简单通俗地理解了可信区间的定义后,小胖要提的便是可信区间在临床试验中的应用。可信区间现在越来越多地出现在临床试验结果的报告中,小胖觉得一份好的临床试验统计报告和总结报告在给出治疗效应的估计时,应该同时给出可信区间,这一点尤为必要。无论是positive试验还是negative试验,可信区间都能提供给你更多更精确的信息。
我们还是拿上文中提到的那个例子来说,Enalapril组和hydralazine 联合nitrates组的死亡率分别为33%和38%,两组死亡率差异为5%,这5%就是我们通常所说的参数估计也就是治疗效应的估计,这个估计是点估计,而我们同时也对两组死亡率差异的95%可信区间进行了计算,也就是所谓的区间估计,结果为(-1.2%, 12%)。这时我们可以在报告中这么描述:Enalapril组和hydralazine 联合nitrates组的死亡率分别为33%和38%,两组死亡率差异为5%(95%可信区间:-1.2%~ 12%)。
从两组死亡率差异95%可信区间值(-1.2%, 12%)来看,首先我们得到的信息可能是,这个可信区间内包含0,两组没有统计学差异。这也是可信区间的一个作用即用于假设检验,通过差异值可信区间内是否包含0的判断p值是否大于0.05,即是否有统计学意义。但在这个信息之外,这个95%可信区间值(-1.2%, 12%)还能告诉我们什么呢,我们还能从这个可信区间值中读到什么别的重要的信息呢?下篇博文,小胖将对这个可信区间隐含的信息加以简单介绍。
在上文的例子中,Enalapril组和hydralazine 联合nitrates组的死亡率分别为33%和38%,两组死亡率差异为5%(95%可信区间:-1.2%~ 12%)。我们怎么来进一步解释这个结果呢?或者说从这个结果,我们还能得到什么别的重要信息呢?
首先我们可以得出,两组死亡率的差异值最可能是5%,但两组死亡率真实的差异值可能最低到-1.2%,即Enalapril组比hydralazine 联合nitrates组死亡率高1.2%(hydralazine 联合nitrates组疗效占优),或者可能最高至12%,即Enalapril组比hydralazine 联合nitrates组死亡率低12%(Enalapril组疗效占优)。
/ S. X1 C/ a$ @' Z1 l) U2 l
通过上边的可信区间的分析,我们发现Enalapril组比hydralazine 联合nitrates组死亡率有可能低12%,即治疗效应能达到12%,而这12%绝对是有临床意义的,足以让医生毫不犹豫地选择Enalapril。从这个结果,我们不能排除疗效差异有临床意义,因此我们不能急于下结论。
另一方面,大家都知道样本量越大,可信区间的范围越窄,可惜区间范围越窄,对治疗效应的估计越精确。而本试验中治疗效应可信区间从-12%到1.2%,造成这么宽的可信区间范围的一大原因便是样本量较少,这也从另一方面说明了本试验的阴性结果可能是样本量较少造成的。
对于试验结果为阴性的试验,当然这里所谓的阴性试验是根据假设检验的p值来判断显示p>0.05的试验,我们在关注这个p值的同时,更应关注相应的95%可信区间。而根据其95%可信区间,我们可以把这种阴性试验分为两种:
(1)如果治疗效应(如两组死亡率的差异)可信区间的上限的那个值小于最小临床有意义值,那么这个试验的结论就是确定的,这个试验的结论就是阴性的。比如某临床试验中,两组应答率分别为32%和30%,p>0.05。两组应答率差异的95%可信区间为(-1%, 3%)。从这个可信区间可以看出,最高的治疗效应可能为3%,即95%可信区间的上限。而临床上认为应答率至少提高个5%才有意义,那么这个95%可信区间的上限3%小于最小临床有意义值5%,这时我们就可以确定地得出结论两个药是没有差异的,结论确实是阴性的。
(2)如果治疗效应(如两组死亡率的差异)可信区间的上限的那个值大于最小临床有意义值,那么这个试验的结论就是不确定的,需要进一步的研究来证实。上文中提到的例子其实就是这种类型。
* x7 _* p) O- K+ x- V上文中,小胖介绍了怎么通过可信区间来解释假设检验阴性(p>0.05)的试验结果,那么对于那些假设检验呈阳性(p<0.05)的试验,是不是就一定可以得出优效的结论呢?
例如在一项2569例病人参加的临床试验中,病人被随机分配到ACE inhibitor组和placebo组,结果两组分别有48%和57%的病人死亡或由于心脏衰竭住院,p<0.05。两组差异的95%可信区间为(6%-14%)。从这个可信区间可以看出,ACE inhibitor最低的治疗效应可能为6%。如果临床上认为使用ACE inhibitor后,在要忍受其带来的不良反应的同时,病人死亡或由于心脏衰竭住院率能降低个6%是可以接受的,那么ok,这个试验的结论就确实是阳性的,ACE inhibitor就可以被approve了,然而如果临床上认为我用ACE inhibitor,可能会带来一些药物不良反应,你仅仅才降低个6%是不够的,怎么也得降个10%或更多,那么这时这个试验的结论就是不确定的,可能需要一个更大样本量(更大样本量则可以相应地使可信区间变窄)的试验来证实。
从上边这个例子,我们就可以得出对于那些假设检验呈阳性(p<0.05)的试验,我们也可以通过治疗效应的95%可信区间来进行进一步的判断,从而可以把这种试验分为两种:
(1)如果治疗效应可信区间的下限的那个值大于最小临床有意义值,那么这个试验的结论就是确定的,这个试验的结论就是阴性的。
(2)如果治疗效应可信区间的下限的那个值小于最小临床有意义值,那么这个试验的结论就是不确定的,需要进一步的研究来证实。
: m8 m& t' r$ V/ b$ [
在临床试验统计分析过程中,除了假设检验之外,可信区间也至关重要,而且相比较假设检验的简单p值,可信区间可以为我们提供更多的信息,下边我们来总结一下可信区间的几大特点:
(1)可信区间可以回答假设检验的问题,即通过可信区间可以判断差异有无统计学意义。这一点在两组比较的优效性临床试验中,主要是通过两组差异的95%可信区间是否包括0来实现的。
(2)可信区间是非劣效/等效试验统计分析的主要方法,这一点小胖在前边的非劣效/等效试验系列日志中已有详细介绍,在此不做赘述。
(3)可信区间可以给出真实的治疗效应值所可能存在的数值范围
(4)可信区间提供了更多关于临床意义方面的考虑的信息,对临床试验结果的解释更为深刻和全面
, o+ L# Q( r1 p4 }/ `. N
正如,小胖在开篇讲到的参数估计、可信区间和假设检验是对临床试验评价的三大手段,因此我们在对临床试验结果进行汇报时在给出假设检验p值结果的同时,应该给出治疗效应的估计以及可信区间,以便使结果更为全面和准确,而对临床试验结果的解释,也不能仅仅局限于p值,而应该更多地从可信区间中挖掘出更多的问题,这样我们最终的结论以及解释才能更全面和准确。
1 E0 j7 V! H4 N1 c# z0 a
5 c( g$ Q! Y" X7 }+ t: o
/ v' Q( ?$ |$ q小胖说统计-022 基线数据分析 by 泰格医药闻增玉2014-07-21 Tigermed
. t+ M/ O1 `. H3 W B& j$ y. C! e! O
% t/ W$ }8 c" u# r7 @' s在介绍基线数据的分析前,我们应该首先明确以下基线数据的定义。所谓基线数据就是指那些在研究方案所规定的基线期中所收集的数据。而对于基线的定义,通常是指治疗前随机化时。在有的试验中,筛选期的数据也会被当作基线数据。当然,基线数据并不都是说是治疗前的数据。比如在一些复杂的研究设计如Enrichment design中,整个试验和不同的治疗阶段都会有不同的baseline。因此,对于baseline的定义,需要在研究方案中加以规定。
在临床试验中基线数据具体应该包括那些数据呢?一般来说,临床试验的基线数据通常包括诸如年龄、性别、种族等之类的人口学数据,研究疾病的初始状况、病史等。ICH E3 中要求基线数据应该包括人口学数据以及一些收集的疾病因素,这些疾病因素包括:
(1)特定的入选标准、疾病的持续时间、分期和严重程度,以及其他基于惯例或已知的重要预后因素的临床分类和亚组
(2)疗效指标以及预后指标的基线测定值
(3)试验开始时的伴随疾病
(4)相关的既往疾病
(5)相关的针对试验所研究疾病的既往治疗
(6)仍维持或持续的伴随治疗
(7)其他可能影响疗效的因素
(8)其他可能相关的变量
2 {# s a/ D" _6 z; ^0 j了解了基线数据的定义以及主要包括的内容,那么在临床试验中,为什么要对基线数据进行分析呢?
基线数据分析是临床试验数据分析中一个必不可少的组成部分。一般来说,基线数据分析一般有以下三大目的:
(1)基线数据分析可以提供一个研究人群的病人基本特征的一个描述。此外,通过基线数据分析还可以判断入组病人是否代表了总体人群,即入组病人是否具有代表性。
- d& a$ _ K! m
(2)病人的初始疾病状态的基线数据可以作为治疗后疗效和安全性指标评价的参照数据。这一点很好理解,比如说在高血压试验中,你治疗开始前的基线高血压数据可以作为评价你治疗后降血压效果的参照数据。
(3)通过对治疗组间基线数据的比较可以确定组间基线数据的可比性和均衡性,从而也可以确定治疗效果分析时潜在的协变量。关于协变量,小胖将在下个系列中做详细介绍。
% e ^, v k7 j! ~4 O5 s2 f
关于以上的第二点,其实在很多临床试验中,往往通过主要疗效指标与基线相比的变化来评价治疗的疗效。这就是我们常用到的change from baseline。而这个change from baseline又分为两种:一种是绝对值的change,另一种则是percent change。前者的计算方法是治疗后值减去基线值,而后者的计算方法则是治疗后的值减去基线值然后再除以基线值。这里的change from baseline一方面可以衡量由治疗引起的变化值,另一方面它可能会降低变异度从而使治疗效应的统计推断更为精确。
另外,由于病人的初始疾病状态的基线数据可以作为治疗后疗效和安全性指标评价的参照数据,在一些临床试验中,对于某个疗效指标的基线测定往往是多次的,这就是所谓的multiple baselinemeasurements。那为什么要对基线进行多次测定呢?
在临床试验中,对某指标进行多次基线测定一般会出于以下两方面的原因:
7 j9 o# R+ K9 u& c: g7 q; }. X(1)变量的变异性
这一点很好理解,就是说,对某个指标只作一次测定,把这个单一的测定值当作基线值,但由于各种原因,仅仅这一次的测定值可能并不可靠。
" A8 l, {& u5 a J2 t8 g. ~3 F
(2)疾病状态的稳定性
举个例子来说吧,在一些高血压临床试验中,病人每天的血压状况可能变化较大,不是太稳定,这时你对基线血压只作一次测定,显然是不合理的。
( D: z1 g* f$ b7 e- p一旦临床试验需要对某些指标做多次基线测定,而我们最后使用的基线值只能是一个单一的值,这样到底怎么通过这些多次测定来确定最后的那一个单一的基线值呢?其实方法有很多,有简单的也有复杂的,简单的如直接利用多次测定值的均值作为最后的基线值,复杂的,则需要一些多变量的统计方法。当然用的比较多的,也是比较简单的就是取均值。以下是小胖做过的一项鼻息肉临床试验中对基线的定义:
Baseline congestion/obstruction is defined as the average over the lastseven days immediately prior to the baseline visit including the score on themorning of the baseline visit prior to taking the first dose of randomizedtreatment (total of eight evaluations).
, m* i2 Q& \/ ? `4 v# ^& [" s
% H" Y1 U9 j6 }$ G% a! {4 Y1 D小胖说统计-023 协变量 by 泰格医药闻增玉2014-08-05 Tigermed+ V; R! k+ V$ o% v
2 `8 G$ P; Q( h i
在临床试验中对药物的疗效进行评价时,其疗效结果往往会受到一些诸如人口学变量、病人特征等因素的影响。这些因素就是我们通常所说的协变量,有时也被叫做混杂因素、预后因素或危险因素等。具体来说,协变量会有很多类型,会因临床试验的不同而不同。它们可能是人口学变量如年龄或体重,疾病特征如病程或病情严重程度,预后因素以及中心或者研究者等因素。
在实际临床试验中,如果协变量在组间分布不均衡,而协变量又与疗效结果密切相关时,如果我们不对协变量进行合理的处理,直接评价治疗效应,就可能产生偏倚甚至得出错误的结论。
因此,在临床试验中,我们需要谨慎地对待协变量,那么具体怎么来处理协变量呢?一般来说,我们主要可以从两个方面来入手,第一方面是随机化阶段,即主要通过分层随机化的方法来使一些主要的协变量在组间保持均衡;第二方面则是在数据统计分析过程中,通过一些统计分析方法对协变量加以调整。
对于协变量的处理,统计学界一直存在着一些争议,在很多问题上也没有形成统一。但EMEA对协变量的处理,曾经发布了一个《Points to consider on adjustment forbaseline covariates》,但从名字上来就知道这也只是一个意见性的文件,并没有上升到guideline的高度,关于这个文件,有兴趣的同学,可以从下边这个链接来下载:
www.emea.europa.eu/pdfs/human/ewp/286399en.pdf
9 d4 {& K" s- ]' o协变量之所以产生一系列问题,对研究结果造成一系列影响,最大的原因在于两条:
- 变量与研究结果密切相关,也就是说这个变量对治疗结局有重要影响
- 变量在治疗组间分布不均衡
! P( c) ~* Z3 Y$ I, v因此,既然我们知道这些,对于协变量的处理,我们就应该首先从这两点着手,而在随机化阶段运用分层随机化,则是最简单也是最有效的方法之一了。首先我们可以选择一个或几个对治疗结局有重要影响的协变量,把这一个或几个协变量当作分层因素,进行分层随机化,从而使这些作为分层因素的对治疗结局有重要影响的协变量在组间分布保持均衡。具体的分层随机化的介绍,可参见前边关于随机化的章节。
那么怎么选择进行分层的协变量呢?当然要根据以往的研究、疾病的特性以及临床实践等来确定对治疗结局有重要影响的协变量。那是不是只要觉得对治疗结局有影响的协变量就要进行分层呢?显然这是不切实际的,正如小胖在前边介绍分层随机化的博文中指出的那样,你选择的分层协变量越多,组合数就越多,层数也就越多,层数一多,就会使有些层次的人数不足。例如某临床试验我们选择研究中心(10个中心)、性别(男或女)、疾病严重程度(I级或II级)三个协变量作为分层因素,则共有10×2×2=40层,如果一共入选200例病人的话,每层平均5个人,甚至有的层人数会很少,难以实施统计处理。既然我们不能过多地选择协变量,那么我们只有选择那些重要的协变量了,即那些对治疗效果确实有重要影响的协变量才应该考虑作为分层因素,一般来说很少超过2-3个。
# ^ b) ~$ l& E下边看一个例子吧:
McHutchisonJG, Lawitz EJ, Shiffman ML, et al. Peginterferon Alfa-2b or Alfa-2a withRibavirin for Treatment of Hepatitis C Infection. The New England Journal ofMedicine 2009;361(6):580-593
9 _8 h8 Y* ~" P! m" r“Among patients with HCV genotype1 infection, baseline HCV RNA level and race are associated with SVR; patientsare stratified according to baseline viral load (≤600 000 vs >600 000 IU ⁄ mL) and whether they are African American or non-AfricanAmerican”
“Patients were randomly assigned,in a 1:1:1 ratio and with the use of an interactive voice system, to one of thethree treatment groups and were stratified according to HCV RNA level (≤600,000 IU per milliliter or >600,000 IU per milliliter)and self-reported race (black or nonblack). ”
7 F1 h; i% g7 T: l/ c8 |上边这个例子中,由于基线RNA水平和种族对丙肝的疗效有重要的影响,因此选择了这两个变量作为分层因素进行了分层随机化。
关于分层随机化,小胖还需要提的一点便是对研究中心的考虑,因为我们现在接触到的绝大多数试验都是多中心临床试验,而大多数多中心临床试验都把研究中心作为分层因素,这种分层是出于实际操作的原因或因为研究中心(或者研究者)可能由于其它一些已知的或未知的预后因素成为一个重要的混杂因素。如果每个中心的患者人数比较少,根据中心进行分层就显得不切实际。在这种情况下,应该考虑是否可以按照别的因素,比如说国家或地区进行分层随机化。这种选择可能是因为相同的用药情况、治疗或者其它因素等使得分层更为合理。另外重要的一点便是,你选择的分层因素及其原因都必须在研究方案中加以描述和解释。
' b9 c# g9 W( eByA. Buzdar, J. Douma, N. Davidson, R. Elledge, M. Morgan, R. Smith, L. Porter,J. Nabholtz, X. Xiang, C. Brady. Phase III, Multicenter, Double-Blind,Randomized Study of Letrozole, an Aromatase Inhibitor, for Advanced BreastCancer Versus Megestrol Acetate. Journal of Clinical Oncology, Vol 19,Issue 14 (July), 2001: 3357-3366
1 k) F; c9 J, h T# w
“This was a randomized, double-blind,parallel-group, multicenter, international, comparative phase IIIstudy conducted in 120 centers throughout the United States, Canada,and Europe. Enrollment of 602 patients occurred over a 30-monthperiod. Patients were randomly assigned to one of three treatmentarms: letrozole 0.5 mg qd, letrozole 2.5 mg qd, or megestrol acetate40 mg qid. Randomization was performed for each country withoutstratification by center.”
5 D3 a. \# x6 e: v“A total of 602 patientsfrom 120 centers in seven countries were randomized in the study over a30-month period”
$ y( N" }( k5 o( X* S$ U2 ?$ O0 P P# L上边这个试验就是一个典型的按照国家来进行分层随机化的例子。由于120个中心一共入组600多例病人,如果按照中心分层,那么显然每个中心的人数太少,不切实际,因此按照国家进行分层随机化。
! }$ g" O" M8 r. p: {6 q
由于分层随机化对分层因素个数的限制,因此分层随机化只能应付有限的协变量,然而有些临床试验特别是一些肿瘤试验中,预后因素较多而且也都比较重要,那怎么解决呢?这时便出现了动态随机化,它可以解决分层因素较多导致层数过多的问题,可以同时使多个协变量达到组间均衡。关于动态随机化的介绍,可参见随机化章节。动态随机化的应用还存在着一定的争论,如果使用此方法,其使用的理由要有充分的临床和统计学依据。下边是一个简单的使用动态随机化的试验的例子,仅供大家参考。
3 u# H! Y) X3 D8 kPaulDorian. Placebo-Controlled, Randomized Clinical Trial of Azimilide forPrevention of Ventricular Tachyarrhythmias in Patients With an ImplantableCardioverter Defibrillator. Circulation. 2004;110:3646-3654.
1 Y- g$ B% ~2 U0 U5 E) N
“The randomization was conducted in aratio of 1:1:1 (75 mg of azimilide, 125 mg of azimilide,and placebo); patients were stratified within a region (every country was aseparate region except for the United States, which had 4 regions) byß-blocker usage, left ventricular ejection fraction (40% or >40%), and ICD type(existing ICD or new ICD). A dynamic randomization scheme usingSchouten’s methods16 was used through an interactivevoice response system to randomize patients to treatment groups. Patients,investigators, and the sponsoring agency were blinded to the treatmentassignment, and the codes were only available to the Data and Safety MonitoringBoard. Blinding was maintained throughout the entire study. Patients weremaintained on the originally assigned blinded therapy for 365 days(unless withdrawn for any reason), regardless of the number ofintervening arrhythmia events”
% V0 R% w; G9 [/ H( Q* Q' D5 n
对于协变量的另一种处理方法则是在统计分析过程中,通过一些统计分析方法对协变量加以调整。
说白了,此时的协变量调整就是把协变量纳入到主要分析中。而对于协变量的调整,一般有两个主要原因。第一个原因,也是大家最为熟悉的一个原因就是调整那些与治疗结局相关的变量在组间分布的不均衡。另外一个原因,可能大家还没有充分认识到,那就是减少潜在的变异性(reduce underlyingvariability),从而提高治疗比较的精度,其实这一点小胖在前边关于协方差分析的博文中有所涉及。
而对于协变量调整的统计方法有很多,其方法的选择取决于协变量和结果变量的性质。其中最常用的方法有以下几种:
- 当结果变量为连续性变量时:方差分析或协方差分析
- 当结果变量为两分类或多分类变量时:CMH卡方,Logistic回归
- 当结果变量为time to event数据时:分层Log-rank,COX回归
4 V- R( d d$ w' G Z
在这里我们关心更多的是协变量调整的一些原则,而关于这些具体的协变量调整的统计方法,小胖将在以后的统计分析方法系列中再加以介绍,此处就不再做进一步的阐述。
* n- d5 m1 h' R# H. ^下边我们看一下协变量调整的几个重要的普遍原则。
7 L& `% d ]3 ^协变量调整原则一:协变量必须事先规定
5 k; V' u6 e- h8 ]6 N9 f; Y# f' x
对于协变量的调整,最普遍也是最重要的一个原则就是所有纳入主要分析的协变量必须在研究方案或者统计分析计划中事先规定,这还是小胖在很多场合一直强调的那个“事先计划”原则概念。
而这些协变量确定的依据应该是以往的数据比如说以往或现在进行的其它临床试验的数据)或者说一些临床实践证据。因此,当试验开始时,一些重要的协变量都应经根据以往的临床试验和其它可获得的证据而确定了。但是,如果在研究方案撰写到临床试验结束这段时间之内出现认知的变化,那么在研究方案的修正或揭盲前的统计分析计划中对分析进行重新的考虑和更新都是可以接受的。这时纳入新的协变量或排除预先确定的协变量都需要明确地陈述其理由。临床和统计学上的合理性都应该考虑到。如果缺乏证实性的信息,更为安全的做法是不纳入协变量或只纳入较少的协变量。在所有情况下,纳入很多协变量的分析往往不如只纳入较少的、恰当的协变量的分析更有说服力。
' p2 D% L, X, }7 ^. h& ?+ V& M4 r
协变量调整原则二:只选择基线协变量进行调整
7 V0 y6 o0 L- v. |+ Y3 ^
协变量调整中的协变量应限定于一些基线协变量如人口学变量如年龄或体重,疾病特征如病程或病情严重程度,预后因素以及中心或者研究者等因素
! z3 ^. ]9 ?8 y协变量调整原则三:不能选择受治疗分组影响的协变量
' U( f3 U& q! u9 X E对于协变量的调整的一个重要原则是那些随机化后测量的协变量如治疗的疗程,依从性以及合并用药等通常不应该纳入到证实性临床试验的主要分析中。因为这些变量往往收到治疗分组的影响,而当治疗分组直接或通过与其它因素的联系而影响协变量时,协变量的调整往往会隐藏或夸大治疗的效果,从而使得治疗的效果难以解释。这一点其实很好解释,比如说依从性吧,因为本身依从性就与你服用什么药有密切的关系,较好的药可能依从性较好,这时你如果把依从性也纳入到分析中,这时主效应就有两个治疗组别和依从性,由于两者密切相关,就会互相影响,治疗效果也很可能被隐藏或夸大。
t! V1 \* H- E
有人也把这种协变量叫covariates arising postrandomization,也曾对此做过一些研究,有兴趣的同学可参考下边这篇文献:
JAMES ROCHON. ISSUESIN ADJUSTING FOR COVARIATES ARISING POSTRANDOMIZATION IN CLINICAL TRIALS. DrugInformation Journal, Vol. 33, pp. 1219–1228, 1999
0 l8 J1 e* y& v F! L协变量调整原则四:选择较少数的协变量
) m7 j" r% p0 n( V3 k+ f5 A/ m E虽然从理论上来说,协变量分析可以调整很多协变量,但是更为安全的做法是预先指定一个较为简单的模型。根据此模型得出的结论也更为稳定,统计模型的假设也更容易证明,结果的普遍性也会得到相应的提高。
因此只有较少数的协变量可以纳入到主要分析中。虽然说较大的样本量比较小的样本量可以允许更多的协变量,但并没有一个通用的原则来规定最多可以有多少协变量可以纳入到分析中,但每个协变量的选择都应该提供充分的理由。
6 E9 z1 N9 S- ~4 Z6 ^最后小胖介绍一下EMEA关于协变量调整的几个建议,仅供大家参考。
(1)分层随机化的分层因素通常应该作为协变量纳入主要分析。主要分析应该反映分层对随机化的限制。因此,分层变量(不管其预后值)通常都应该作为一个协变量纳入到主要分析中。
(2)临床试验结束后观察到的基线不均衡不应该被认为是把其当作协变量纳入主要分析的合理的理由。显著的基线不均衡不会预期在随机化试验中产生:如果随机化实施严格,任何观察到的不均衡都应该是一个随机现象。
(3)当分析是基于连续性结果变量时,通常会有两种主要疗效指标的选择:一是选择原始的结果变量,二是选择与基线相比的变化。无论是那种选择,基线值都应该被当作协变量纳入到主要分析中。
(4)主要分析模型不应该包括处理组和协变量之间的交互作用。如果先前预期会有较大的交互作用,那么临床试验应该设计为在各个特定的亚组分别估计治疗的效果。
(5)应该预先计划灵敏度分析来探索主要结果的稳健性。对发现的差异进行讨论和解释。一旦出现一些重要的无法进行逻辑解释的差异(比如调整的和未调整的分析的结果的不同),临床试验结果的解释将会受到很严重的影响。
# x( F& D) a* k3 r
: C7 [0 ?, D3 }) l- P; s3 T
小胖说统计-024 亚组分析2014-08-19 泰格医药闻增玉 Tigermed
8 n O" D$ ~3 x; U. d& l7 N8 \" I- ]* M" J$ }
尽管绝大多数情况下,我们做一个临床试验的主要目的是证实某种药物对某种疾病的疗效,但有时我们在证实了某种药物对某种疾病的疗效后,又很想知道是不是具有某个特征的病人群比如男性、某种基因型、重度病人、年轻的病人啊等等的疗效会更好,或者说不同的人群是不是疗效不同。这些不同的人群就是我们所说的亚组(Subgroup),而对他们的分析,就是我们所说的亚组分析。
现在临床试验中对亚组的分析越来越多,对一些主要杂志发表的临床试验文章的统计,约70%的临床试验都进行了亚组分析。而EMEA 在Points to consider on multiplicity issues in clinical trials中也对亚组分析进行了相关的阐述。可见亚组分析已成为临床试验统计分析中一个很常见的组成部分。
为什么亚组分析会这么普遍呢?为什么要进行亚组分析呢?有以下两个最主要的原因,也是人们乐此不疲的关键所在:
(1)如果某药在整个病人人群中的总体疗效是显著的,但是我们还不会满足,然后我们就想看看这个药在某个特定人群中是不是特别有效或者说疗效更好
(2)如果某药虽然在整个病人人群中的总体疗效是不显著的,但是我们还不会死心,还想看看某个亚组人群的疗效是不是会好一点甚至有显著意义
诚然,亚组分析是可以给我们带来进一步的空间,那他会和我们想的那样给我们带来想要的结果呢?其实理想和现实总是有差距的。。。。
在临床试验中,我们接触最多的也是使用最多的亚组分析情况,其实是主要目的是证实总体疗效即研究的检验假设是建立在整个病人人群基础上的,然后进行一些亚组分析。我们首先需要对整个病人人群的疗效进行统计检验,然后根据一线基线特征划分的亚组进行亚组分析,而从本质上来说,这些亚组分析都是一些探索性分析。
这种情况下的亚组分析就会出现以下几种不同的情况:
(1)整个目标病人人群的总体疗效是显著的,各个亚组分析的疗效结果和总体疗效结果也是一致的,这种情况最为理想,总体疗效被证实了,而亚组分析的结果也可以对总体疗效起到支持作用,还可以探索一下哪个亚组的疗效会相对更好些,当然药监部门在整个目标疾病人群中批准你这个药,那也没有什么问题。
(2)整个目标病人人群的总体疗效是显著的,但各个亚组之间的疗效不一致,甚至某个亚组发现不利的治疗效果,这种情况就比较复杂了,如果这种现象无法解释,或者其它的信息也证实这种情况的存在,那么在药物批准时这个亚组人群就有可能被排除在外。
(3)整个目标病人人群的总体疗效没有显著意义,亚组分析疗效也没有显著意义,OK,这种情况最简单也最糟糕,所有结果都是阴性的,自然就没有什么可以说的了,也没啥指望了,你可以洗洗睡了。。。
(4)整个目标病人人群的总体疗效没有显著意义,但某个亚组分析的疗效有显著意义,这种情况基本可以判你死缓,因为仅仅依靠基于探索性的某个亚组分析的疗效显著性结果,人家基本是不会批准你的药在这个亚组人群中使用的;当然小胖说死缓意思是说亚组分析的结果可以为你下一步研究提供检验假设,即你可以在下一个研究中就仅仅研究这个药在这个亚组人群中的疗效,从而有可能证实这个药在这个特定人群中的疗效,从而有可能批准这个药在这个人群中的使用。
2 ^. x2 Z* i8 C: M
下边小胖将结合几个亚组分析的实例对上边这几种情况做一简单介绍。
) [# H+ `1 y: Q; K3 J' k# g# A亚组分析实例1:
( K$ |( J( s7 P, X' F, I4 U
Oettle H,et al. Adjuvant chemotherapy with gemcitabinevs observation in patients undergoing curative-intent resection of pancreaticcancer: a randomized controlled trial. JAMA. 2007 Jan 17;297(3):267-77.
# s" \: }# I7 K" {+ J( F1 G这是一项关于吉西他滨辅助化疗胰腺癌切除术后病人的随机对照研究,关于研究设计方面有以下描述:
" m& t+ n3 @! ^% f4 s
The primary end point of the trial was disease-freesurvival. The study was designed to reject the null hypothesis that adjuvantchemotherapy with gemcitabine did not improve disease-free survival.
% |: N) [- U/ H' O
b1 V: |; S/ _5 V即本研究的主要疗效指标为DFS(Disease-free survival),研究假设为gemcitabine辅助治疗是否可以改善胰腺癌切除术后病人的DFS。
7 P$ t1 o, l( I9 m; e
7 G8 J' u! V I# p( Q1 s) z2 j而关于亚组分析进行了如下描述:
7 y% e) Y7 l' a8 [7 R# n" f
Survival analyses werealso performed in subpopulations stratified by resection status (R0 vs R1), Tstatus (T1-2 vs T3-4) and nodal status (N– vs N+).
' J- u c* ?9 ]4 X! x) P
即本研究规定对疗效按照手术切除情况(R0 和 R1),T情况(T1-2和T3-4)以及结节情况(N– 和N+)进行亚组分析。
b, Z- c7 W; y0 ?7 Z% Z
而结果发现:
: u3 o j$ G# }' E" `
g4 Z* d) a1 I# f+ r" p | |
| | |
所有病人 | | | |
手术切除情况 | # d; e9 Q( f8 U j% W4 x# K# f
| | V* _4 i1 R a: Z4 W
|
R0 | | | |
R1 | | | |
T情况 |
; M, ~! \) }& F/ I4 S9 I | | , Q; Z& D5 P* f
|
T1-2 | | | |
T3-4 | | | |
结节情况 | q8 i9 g" ^5 ?9 z; ^' `6 w
| |
) N, f: p' W4 ?6 s4 [' H; c |
N- | | | |
N+ | | | |
7 Z% g* ]' [1 w- i) W1 y3 {亚组分析实例1中的亚组分析情况其实就是小胖在前边提到的亚组分析的第一种情况,即研究的检验假设是建立在总体人群的基础上的,然后进行亚组分析,而结果为整个目标病人人群的总体疗效是显著的,各个亚组分析的疗效结果和总体疗效结果也是一致的。在主要目的即总体疗效被证实后,特定人群的亚组分析可以起到支持或探索的作用。所谓支持作用就是指各个亚组的疗效和总体疗效都是一致的,比如上例中各个亚组中,Gemcitabine都优于Observation,从而更加支持了总体疗效Gemcitabine优于Observation的结论;而所谓探索作用是指可以看一下那个亚组人群的疗效会相对更好一点,上例中我们就可以看出Gemcitabine在手术切除情况为R1,T情况为T1-2,或结节情况为N-的病人中疗效会更好的启示。最后的结果,当然是人家Gemcitabine被批准用于胰腺癌切除术后病人的辅助化疗,皆大欢喜。。。
2 C# [: b j) R5 U; l \8 b
亚组分析实例2:
3 y4 u6 V* C1 {0 b; |7 J/ Y
Cohn JN, Tognoni G for the valsartan heart failuretrial investigators: a randomized trial of the angiotensin receptor blockervalsartan in chronic heart failure. N Engl J Med 2001; 345: 166–175.
0 h0 I! d' f. c# R: m L
这是一项valsartan对比placebo治疗NYHA II–IV级心力衰竭病人的研究,主要终点有两个分别为mortality,以及mortality 和morbidity的联合终点。研究结果发现两组的overall mortality没有统计学差别,但valsartan组mortality 和morbidity联合终点的发生率比placebo低13.2%,p=0.009。但根据基线时使用药物情况的亚组分析却发现,valsartan在基线使用ACE inhibitors或beta-blockers中的一种药物,或者两者都不用的病人中有较好的有利的治疗效果。而基线同时使用ACE inhibitors 和beta-blockers的病人中,valsartan组的mortality比placebo组高(p=0.009),而在联合终点方面,valsartan组也显示出发生率升高的趋势,valsartan显示出不良的治疗效果。
9 H n8 i% }! Q, T5 `, d* t2 h看到上边这个结果,其实对于valsartan的审批可能会存在以下三种可能:
1 Q& ^ Q, ?" G(1)承认valsartan总体疗效的显著性,批准valsartan用于治疗NYHA II–IV级心力衰竭,而没有任何其他的限制,即不考虑亚组分析的结果
(2)批准valsartan用于某限制性人群,即考虑亚组分析的结果
(3)直接拒绝批准valsartan,因为在overall mortality方面两组没有统计学差别。
# T8 [- C; k: t1 _由于本研究最初设计为两个主要终点,即mortality,以及mortality 和morbidity的联合终点,并进行了相应的合理的统计学调整。虽然两组在mortality上类似,但valsartan在心血管morbidity方面的疗效十分显著,因心力衰竭住院率下降了24%,因此可以认为valsartan对NYHA II–IV级心力衰竭病人的总体疗效是显著的。
然而,亚组分析中,对于同时使用ACE inhibitors 和beta-blockers的病人,valsartan显示出不利的治疗效果,而先前的一些研究和经验也有类似的发现。
; c) I2 a3 s5 ^4 K& g" j8 q7 S我们来看一下最后的批准结果:
- FDA:valsartan was approved for thetreatment of heart failure (NYHA classes II–IV)in patients who are intolerant to an ACE inhibitor。
- EMEA:Treatment of symptomatic heartfailure when ACE inhibitors could not be used, or as add-on therapy to ACEinhibitors when beta blockers could not be used。
. S. E0 g, R6 l ~
从上边的批准结果来看,FDA更为严格,只批准了其用于ACE inhibitor不耐受的病人,EMEA相对较宽松,除了没有使用ACE inhibitor的病人,还有使用ACE inhibitor但没有使用beta blockers的病人。
- j) M- I# `0 q# O8 P+ E亚组分析实例2中的亚组分析情况其实就是小胖在上文中提到的亚组分析的第二种情况,即整个目标病人人群的总体疗效是显著的,但各个亚组之间的疗效不一致,甚至某个亚组发现不利的治疗效果,其它的信息也证实这种情况的存在,那么在药物批准时这个亚组人群就被排除在外了。
. `! p1 K6 T7 _8 G7 T8 o
亚组分析实例3:
7 C, b: m4 M0 m4 wPommierP, et al.Is there a role for pelvic irradiation in localized prostateadenocarcinoma? Preliminary results of GETUG-01. J Clin Oncol. 2007 Dec1;25(34):5366-73.
% `7 V/ M7 f* a S' t) R: }* N7 y这是一项pelvicand prostate radiotherapy 对比prostate radiotherapy治疗局部前列腺癌的研究,主要终点为PFS。
研究结果发现,在中位随访期为42.1个月的情况下,pelvic and prostateradiotherapy和prostate radiotherapy组5年PFS分别为66.0%和65.3%,两组无统计学差异(p=0.34)。而在高风险阻和低风险组的亚组分析中,pelvic and prostateradiotherapy和prostate radiotherapy的5年PFS也均无统计学差异。
最终的结论为Pelvic node irradiation并没有改善PFS。
4 F7 H ~- F0 a/ ^& D2 |! x6 o' |9 g亚组分析实例3中的亚组分析情况其实就是小胖在上文中提到的亚组分析的第三种情况,即整个目标病人人群的总体疗效没有显著意义,亚组分析疗效也没有显著意义,OK,这种情况最简单也最糟糕,所有结果都是阴性的,自然就没有什么可以说的了,也没啥指望了,也就洗洗睡了。。。
, x# L, ?. c! `
) r F# j% `; k亚组分析实例4:
9 G% Q3 M- r8 Q' \+ E! f
Burmeister BH,et al. Surgery aloneversus chemoradiotherapy followed by surgery for resectable cancer of theoesophagus: a randomised controlled phase III trial. Lancet Oncol. 2005Sep;6(9):659-68.
( J- M% G3 t) R+ h: X8 j
这是一项关于单独手术对比化放疗后手术两种方案治疗可切除食管癌的研究。主要疗效指标为PFS,研究假设为与单独手术相比,化放疗后手术是否可以改善可切除食管癌病人的PFS。本研究事先规定根据性别、行为状态、肿瘤部位、组织分型、肿瘤大小、肿瘤分级以及年龄进行亚组分析。
研究结果发现,在总体人群中,单独手术组和化放疗后手术组中位PFS分别为12个月和16个月,HR=0.82, [95% CI: 0.61–1.10], 两组没有统计学差异。但亚组分析发现,组织分型为squamous cell carcinoma的食管癌亚组人群中,化放疗后手术组PFS优于单独手术组, p=0.014。
本研究的结论为与单独手术相比,化放疗后手术并不能显著改善可切除食管癌病人的PFS。然而,需要进一步的研究来评价化放疗后手术在squamous cell carcinoma型的食管癌中的疗效。
) c" q( k+ F' [7 Q亚组分析实例4中的亚组分析情况其实就是小胖在前文中提到的亚组分析的第四种情况,即整个目标病人人群的总体疗效没有显著意义,但某个亚组分析的疗效有显著意义。
亚组分析实例4中,研究的假设检验建立在整个可切除食管癌病人基础上,但根据食管癌分型进行了亚组分析。由于整个人群的疗效没有显著意义,因此在总的研究结论方面是阴性的,即“与单独手术相比,化放疗后手术并不能显著改善可切除食管癌病人的PFS”。即使squamous cell carcinoma型食管癌亚组分析的疗效是有显著性差别的,也不能仅据此就得出在squamous cell carcinoma型食管癌中化放疗后手术优于单独手术的确切结论。但是,squamous cell carcinoma型食管癌亚组分析的疗效结果可以为下一步的研究提供检验假设或者说依据,正如本研究的结论中所说的“需要进一步的研究来评价化放疗后手术在squamous cell carcinoma型的食管癌中的疗效。”
亚组分析实例4就是小胖所说的死缓的一种,即你不能根据此研究的亚组分析结果来下确切的结论,上升到批准的高度,就是人家不会批准你的,但这个亚组分析的结果可以为你下一步研究提供检验假设,即你可以在下一个研究中就仅仅研究这个药在这个亚组人群中的疗效,从而有可能证实这个药在这个特定人群中的疗效,从而有可能批准这个药在这个人群中的使用。
) W& R% y3 t* f% R* T- O" K- X8 H上文中,小胖介绍了我们常见的亚组分析的情况,关于亚组分析,一直是一个颇具争议的话题,内容也比较繁杂,小胖在这里就不做过多介绍了,以后有机会的话,可以再对亚组分析作进一步的探讨。
1 I$ A9 x' w/ U! y8 D最后,小胖想介绍一下FDA对亚组分析的一些基本观点,供大家参考,以作为本系列亚组分析内容的结束。
众所周知,FDA在批准一个新的药品上市之前,必须对其疗效和安全性进行验证。因此FDA要求申办者进行两项III期研究来证实药物的疗效和安全性。一般来说,对药物的评价都是基于整个ITT人群的, FDA是根据治疗组和对照组平均疗效结局的差异来判断药物的疗效的。
当然,FDA也知道不同特征的人群治疗效果可能不同,这就是所谓的治疗效果的heterogeneity。解决这个问题有两个办法:
) s( v# Y/ T4 B' O; W( m1 L
(1)FDA鼓励申办者在开始试验前事先规定要进行的亚组分析。如果对亚组分析预先确定相应的无效假设和正确的证实性分析策略,那么申办者就需要对多重性和样本量进行考虑。这一点正是基于亚组分析产生的两个问题:
0 U7 u8 G) A2 ]; K2 |问题一:多重性问题(multiplicity)
/ p# e% S3 {. {+ W0 r$ C这一点很好理解,你对多个亚组进行检验,自然会增加I类错误(假阳性),产生多重性的问题。
5 w* A! u* r6 u
问题2:统计把握度问题(power)
! {* {! Z# h5 t8 z) x* ~如果你的样本量的计算是基于主要假设而确定的,也就是说都是根据总体人群的总体疗效而确定的,即保证能检验出总体疗效来。因此,对于同一个指标,基于亚组人群的检验只有在治疗效应更大的情况下才能有把握检验出来,或者说基于亚组人群的检验的把握度不会像总体人群检验那样能达到80%-90%。况且对于多重检验的控制会更加降低把握度。这样就会造成underpowered的情况。
/ _* p- g* E3 j8 j! }" a- W! n
FDA没有明确指出这种事先规定的亚组分析的疗效结果可以作为药物批准的依据,但FDA也没有排除这种情况。
+ j1 b2 l) I+ y5 e4 x+ r
(2)FDA承认并不是所有试验都能事先规定好亚组分析,这时就需要一些探索性的亚组分析,我们也可以称为post hoc亚组分析。一般来说,FDA只允许post hoc亚组分析仅仅用来证实药物在整个试验人群中的疗效。
如果申办者不能证明药物在整个试验人群中足以让FDA批准的疗效,那么就算你在某个亚组的疗效具有显著意义,也不能仅仅依靠这个亚组的结果来批准你的药物在这个亚组人群中使用。FDA还没有仅仅基于亚组分析结果而批准药物的先例。当然FDA允许申办者利用亚组分析来作为你开展下一个试验的依据,通过下一个试验来证实亚组分析的发现。这就是我们所说的你可以通过亚组分析,来产生你下一个试验的检验假设,从而进一步证实你在亚组的疗效。当然你再做一个试验会花费更多的时间和成本。而且FDA也不允许你把第一个试验中亚组分析的数据和你开展的下一个验证亚组疗效试验的数据合并起来进行分析,获得这个亚组疗效的阳性结果。
另一方面,即使申办者证实了药物在整个试验人群中的疗效和安全性,但FDA还会要求你证实药物在他规定的几个亚组人群中是有效和安全的,以此来验证你在整个试验人群中的结果。如果某个亚组没有显示出药物的疗效或者说显示出一些副作用,那么FDA可能只批准药物在已证实安全和有效的人群中,而把这个亚组人群排除在批准人群之外。
综上所述,FDA在亚组分析中还是持比较保守态度的,因此我么在进行亚组分析时一定要充分考虑到这一点,最好把亚组分析当作一种探索性的分析,而不是把它当作确切结论甚至你批准药物的一种依据。
+ w% V; N' I G, l3 A
) ^- Q- ~5 @+ z2 H7 D5 o& p" }小胖说统计-025 临床试验中的多重性问题2014-09-12 泰格医药闻增玉 Tigermed" \9 ?- |* V+ C+ u9 k& y6 g$ _
! _1 M* i0 A7 h( x/ c
在临床试验过程中,常会出现一些多重性问题,而常见的多重性问题一般可以由以下情况而产生:
- 多个主要终点
- 治疗组的多重比较
- 中期分析
- 亚组分析
如果不能正确地处理多重性问题,假阳性错误增大可能会导致无确实根据的药物有效的结论,因此处理多重性的最重要的原则便是控制I类错误,即对α水平水平进行调整,但什么时候需要调整,什么时候不需要调整,以及如何进行调整,这才是处理多重性的关键。关于临床试验中的多重性问题,EMEA曾发布了Points to consider on multiplicity issue in clinicaltrail,大家可以点击阅读原文,进行下载:
; J: j* L% \4 {, t" Z5 [: r
上边提到的四种主要的产生多重性问题的情况中,第三种中期分析和第四种亚组分析,小胖在前边的中期分析以及亚组分析章节中都有所涉及,在这里小胖就不再赘述了。本文主要结合例子简单介绍一下前两种情况即多个主要终点以及治疗组的多重比较。
1. 多个主要终点
我们在临床试验中会遇到主要变量不止一个,最常见的我们在临床方案中会遇到co-primary endpoint这个词,由此会带来对α的调整问题。这时大家可能有的会有些疑惑,怎么有的情况下需要调整,有的情况下不需要调整。在此,对于为何调整和为何不调整的原理不作具体解释,只是简单地告诉大家什么时候调整,什么时候不调整吧。
其实很简单,要判断到底该不该调整α,就看你的研究目的是不是要求所有的主要变量都必须有统计学意义,通俗说就是必须所有的主要变量都有统计学意义才能说明疗效好,如果是,那么你就可以在0.05的显著性水平(词)上进行检验而无需进行调整,这时需要注意的是,此时会增加II类错误β,相应地power(1-β)会减少,因此你在试验设计阶段算样本量时,对每个主要变量,最好取90%或95%的power,以便最后的总体power能达到80%。另一种情况,如果说几个主要变量中有一个主要变量有统计学意义就能说明疗效好的话,那么对每个主要变量的检验就应该进行α的调整,最简单的办法就是,如果你有K个主要变量,那么你就应该对每个主要变量在显著性水平为0.05/k上进行统计检验,以维持总的显著水平为0.05。
下边举个通俗的例子说吧,我们要比较A药和B药的疗效,主要变量有两个P1和P2,那么有两种情况:
- A药在P1和P2两个主要变量都优于B药才能说明A药疗效优于B药,这时我们要做的就是对两种药物分别进行P1和P2两个指标的统计学检验,当两个指标统计学检验P值都小于0.05时,就可以说A药疗效优于B药。
- A药在P1和P2两个主要变量中任何一个主要变量优于B药就说明A药疗效优于B药,这时我们要做的也是对两种药物分别进行P1和P2两个指标的统计学检验,但不同的时,当两个指标统计学检验P值中有一个小于0.025(0.05/2)时,就可以说A药疗效优于B药。
当然以上例子介绍的是单纯的直接拿0.05除以k的调整方法,这种方法比较保守,当然还有其他的调整方法,别的方法比如Hochberg Method法我们可以参见下边的介绍。
2. 治疗组的多重比较
! x) [8 @! w% C8 v& f) O0 `在临床试验中,我们常遇到一些试验涉及多个治疗组。例如,最常见的情况如某项试验包括以下治疗组:
- 三个治疗组:高剂量试验药物、低剂量试验药物和对照组(阳性对照药或安慰剂)
- 四个治疗组:A药、B药、A药和B药联合、安慰剂
- 剂量反应研究:多个剂量组
- 。。。。。。
对于涉及到治疗组多重比较的临床试验,一个常见的简单的办法就是定义一个主要的比较(primary comparison),这种情况最常见于高剂量试验药物、低剂量试验药物和对照组三组比较的试验中,以下是个例子:
某项研究旨在研究A药物对急性鼻窦炎的疗效,包括三个组:高剂量A药、低剂量A药和安慰剂。这时我们可以把高剂量组和安慰剂的比较作为主要比较,具体的分析方法如下:
先对高剂量组和安慰剂进行比较
- 如果上述P值大于0.05,则无需进行低剂量和安慰剂的比较,结论是A药无效
- 如果上述P值小于0.05,则再对低剂量组和安慰剂进行比较,如果这时低剂量比较的P值也小于0.05,说明无论高剂量还是低剂量都有效,如果时低剂量比较的P值大于0.05,则说明高剂量A药有效
当然上述是三组比较的例子,同理推断,如果有四组或以上的比较,我们可以根据临床意义对这些比较进行事先的排序,依次在显著性水平为0.05上进行统计比较,但需要记住的是,如果排序在前的比较没有达到统计学意义,那么排序随后的比较就无需进行而被认为是无统计学意义的了。
当然需要最后强调的一点是,上述比较的统计检验显著性水平均为0.05,无需进行调整。
和前面提到的如果研究目的要求所有的主要变量都必须有统计学意义那么无需进行α的调整一样,如果研究目的要求所有的治疗组比较都有统计学意义的话,α也无需进行调整。
举个例子来说吧,某项试验想研究一下药物剂量和疗程对疗效的影响,有三个治疗组:
A组:X药物剂量为5mg疗程为24周
B组:X药物剂量为10mg疗程为24周
C组:X药物剂量为5mg疗程为48周
研究目的是显示,不仅B组优于A组而且C组优于A组,通俗地讲就是不仅剂量加大了疗效会变好而且疗程变长了疗效也会变好。这时就要求B组和A组比较、C组和A组比较都要有统计学意义。具体的做法就是:
- 对B组和A组进行统计学比较
- 对C组和A组进行统计学比较
- 看看上面两个比较的p值是否都小于0.05,如果是,才能达到研究目的
和前边这个例子同样的试验,我们想看一个药物在加大剂量或延长疗程后疗效有没有提高,同样有三个治疗组:
A组:X药物剂量为5mg疗程为24周
B组:X药物剂量为10mg疗程为24周
C组:X药物剂量为5mg疗程为48周
这时我们研究的目的是想显示B组优于A组(剂量加大是否提高疗效)或者C组优于A组(疗程延长是否提高疗效),我们并不需要剂量加大和疗程延长都能提高疗效,其中之一就达到研究目的。这时我们在统计分析时就要对α进行调整。下边介绍一个现在临床试验中比较流行的方法Hochberg Method。具体的做法是:
- 分别对B组和A组,C组和A组进行统计学比较,计算出各自比较的p值
对两个p值进行排序
- 如果较大的p值小于0.05则两个比较都有统计学意义,即B组和A组,C组和A组之间都有统计学差别
- 如果较大的p值大于0.05,则要看较小的p值,如果较小的p值小于0.05/2,则较小的p值对应的那个比较具有统计学意义,而较大的p值对应的那个比较无统计学意义;如果如果较小的p值大于0.05/2,则两个比较均无统计学意义。
- z; t& K" ~/ I2 s0 o9 W5 c9 O; Z0 w2 x! z6 W' c
: H M8 ?9 |9 Q$ ^
/ h4 d" m2 u/ N' o t
" J& U- z' Y0 O2 X3 I5 @ m8 s: C6 X5 b4 X4 x1 G+ f, X3 G
* k6 v+ ^! }% D# t$ c
更多资讯请及时关注 药群论坛7 I' [; [1 h1 K, @. F* ~$ w% G
$ T& I! X, T4 C" D5 X