马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
- 结合一些临床试验的例子对优效、等效和非劣效试验再做一点阐述,权当加深理解吧。 让我们先看一个简单的例子(J Am Acad Dermatol 2003;48:535-41): 为了证实地氯雷他定对慢性荨麻疹的疗效和安全性,研究者设计了一项地氯雷他定对比安慰剂治疗慢性荨麻疹的随机对照双盲试验。本试验选择的主要终点是与基线相比搔痒评分的变化。假设标准差为1.0分,每组需要100例病人在0.05的显著性水平上有90%的把握能检验出两组0.5分或更多的差别。最后结果地氯雷他定与基线相比搔痒评分的变化为1.05,安慰剂组为0.52,p<0.001. 结论地氯雷他定可以有效治疗慢性荨麻疹。 以上这个例子就是一个最经典的优效性试验的例子,即通过安慰剂对照试验显示试验药物优于安慰剂,从而证实试验药物的疗效。这种安慰对照的优效性试验在临床试验的发展进程中起到了鼻祖的作用,以前对于某种疾病还没有治疗药物的时候,一种新药物的出现,往往会选择安慰剂对照来证实疗效,当然随着越来越多标准药物的出现,以及出于伦理等方面的考虑,现在安慰剂对照的试验也开始变少,但它在药物研发中的地位是决不能抹杀的。 随着医学的发展,现在各个疾病基本上都有自己有效的治疗药物,这时我们推出一种新药,往往在选择对照时,不得不选择那些已有的有效治疗药物,所以相比较安慰剂对照试验,阳性对照试验越来越多,而阳性对照试验最理想的情况是,你的药物优于阳性对照药物,这和上文中提及的安慰剂对照试验一样,是证实你的药物的疗效的最好的也是最有力的方法。这种阳性对照的优效性试验在现在我们的临床试验中发挥了很重要的作用,怎么说呢,一种新药的出现,如果它有突破性的进展,最大的证明就是你的疗效优于现在这种疾病的标准治疗药物,而此时阳性对照的优效性试验就是你证明你疗效的最理想的选择。 给大家介绍一个药物研发历史上一个很著名的阳性对照优效性试验的例子-EVIDENCE研究。 2003年3月8日,美国FDA正式批准瑞士雪兰诺公司的Rebif(干扰素beta-1a)治疗复发性多发性硬化。此次FDA批准Rebif上市,打破了另外一种干扰素类药物Avonex的市场专有状态,Avonex在1996年被批准用于多发性硬化的治疗。那么FDA为什么批准呢,其中最重要的依据就是一项Rebif与Avonex直接比较的研究-EVIDENCE研究,而Rebif的批准则说明了如果有另外一种药物比原有药物更有效或者更安全的话,那么就可以打破原有药物的市场专有状态。 那么现在我们来看一下EVIDENCE的研究设计和结果吧。 EVIDENCE研究是一项比较Rebif与Avonex两种药物治疗复发性多发性硬化效果的大规模的研究,在美国、加拿大以及欧洲的多个中心进行。677名复发性多发性硬化病人被随机分配到Rebif和Avonex组,其中Rebif组339例,Avonex组338例。主要疗效终点为治疗24周后的无复发率。研究者把本试验设计为优效性试验,即证明Rebif优于Avonex,而在进行样本量计算时,则假定Rebif组和Avonex组治疗24周后的无复发率分别为65%和50%。研究结果显示,治疗24周后,Rebif组和Avonex组无复发率分别为74.9%和63.3%,p= 0.0005,而在其他的次要终点方面,Rebif组也显著优于Avonex组。最后研究结果证明,Rebif在治疗复发性多发性硬化方面比Avonex更有效。 关于阳性对照的试验,能作出优效来当然是最理想的结果,但研究者在设计这种试验时,往往会遇到一个难题,一是对照药物的选择,另一个就是你有没有把握作出优效来,如果你设计成优效试验,结果作出来确实优势,当然是皆大欢喜,但如果作不出来,两种药物没有统计学差异呢,这时对结果的解释和结论的得出往往就会变得比较复杂,最重要的一点是你不能因为两者没有统计学差异而得出两种药物疗效相当或者非劣效之类的结论,而造成结果无统计学差异的原因则有很多,并不是一句两种药物疗效相等所能解释的。 首先让我们来看两个例子: 研究1:随机、双盲、对照试验 (1) 比较两种溶栓药:SK和rt-PA (2) 主要终点:30天死亡率(两分类变量) (3) SK: 10370 例病人 rt-PA: 10348例病人 (4) SK: 7.4% rt-PA: 6.3% (5) 卡方检验: p=0.0028 研究2:随机、双盲、对照试验 (1) 比较两种溶栓药:A和B (2) 主要终点:30天死亡率(两分类变量) (3) A: 1000 例病人 B: 1000例病人 (4) A: 7.4% B: 6.3% (5) 卡方检验: p=0.37 从研究1和研究2,我们能得出什么结论? 研究1:差异有统计学意义,SK的疗效优于rt-PA 研究2:差异无统计学意义,能否得出A和B的疗效相同? 从上边的例子,我们可以看出,同样的30天死亡率,结果却大不相同。这里就涉及到一个对p值的正确认识的问题,这种问题在设计为优效性的试验中尤为常见。当p>0.05时,统计上说是无统计学意义,它的含义是根据当前数据,尚不足以认为两组间疗效差异具有统计学意义。 换句话说,p>0.05是一个不是结论的结论,从统计学上说它是结论,表示无统计学意义;从临床上说,它不是结论,既不能说两药有差别,也不能说两药无差别,可能例数过少或误差过大,增大例数或减少误差就可能达到p<0.05。就如上面的例子,当每组样本量从1000增加到10000时,同样的30天死亡率的比较就能达到p<0.05。因此,我们必须在这里强调的一点就是,不能仅仅从p>0.05就得出两药疗效相等的结论。 在优效性试验中,还会涉及到一个统计学差异与临床差异的问题。统计学差异很好理解,就是两组的差别有统计学意义,这个一般是由我们的p值或95%可信区间来判断的,而临床差异呢,就是从临床角度考虑两组的差别是具有临床意义的,举个例子来说,两种降压药降压差别在3mmHg以上才具有临床意义。 在考察差异的临床试验中,两组差异无外乎会出现下列4种结果: (1) 统计学和临床都有意义 (2) 统计学和临床都无意义 (3) 统计学有意义,临床无意义 (4) 统计学无意义,临床有意义 上边的四种情况中,出现第一种和第二种,那么结论比较明确。然而,当统计学和临床不一致时,即出现上边的第三和第四种情况时,则需要进行具体分析: (1) 当出现第三种情况时,即统计学有意义,临床无意义;这时我们不能以统计学上的意义来取代临床上的意义,为什么呢?很简单,不管真实差异多么小,当样本量足够大时,总会检验出两组具有统计学差异。例如,上边提及的降压药,如果两组实际差别也就是1mmHg,只要你的样本量足够大,上万,上十万,总能检验出统计学差异来,但这种差异无临床意义,如果是一种新药,那么这种药物本身也就失去了批准上市的意义。因此,这里小胖要特别提到的就是,考虑到这一点,当计算优效性试验的样本量时,你假设的两组差异必须在临床上是有意义的。 (2) 当出现第四种情况时,即统计学无意义,临床有意义;为什么会出现这种情况呢?很好理解,如果两组真实差异确实很大,但样本量太小,也会出现差异无统计学意义的结果。比如我们在上篇博文中提及的那个例子的研究2中,A组和B组30天死亡率分别为7.4%和6.3%,两者的差异是具有临床意义的,但由于样本量不够,差异无统计学意义;而当样本量增大时,同样的情况到了研究1中两组的差异就具有统计学意义了。 首先,给大家说一个非劣效试验的例子-Moxatag注册临床试验 2008年1月24日,Middlebrook制药有限公司宣布FDA已批准其开发的阿莫西林(amoxacillin)775mg缓释片Moxatag,用于每日一次口服治疗12岁及以上青少年和成人的继发于酿脓链球菌感染的咽炎和(或)扁桃体炎,而Moxatag则成为在美获得批准的第一个每日一次用阿莫西林缓释制剂。 而这次FDA批准的主要依据则正是一项随机双盲平行对照的非劣效试验。在这项试验中,对Moxatag每日一次和penicillin每日四次进行了比较,主要终点为细菌清除率。本试验设计为非劣效试验,即Moxatag在细菌清除率方面不劣于penicillin,非劣效界值为10%,即Moxatag在细菌清除率方面与penicillin相差不会超过10%。研究结果显示, Moxatag和penicillin的细菌清除率分别为85%和83.4%。两者相差的95%可信区间为(-5.1,8.2)。其95%可信区间的下限-5.1是大于非劣效界值-10的,因此可以证实非劣效性。另外本研究在其他次要终点方面也显示出了非劣效性。 在本试验证实了Moxatag和penicillin在疗效和安全性相当的基础上,与penicillin每日四次相比,Moxatag每日一次便成为了它的主要优势,医生们有了第一种可以每日一次使用治疗青少年和成人咽炎和(或)扁桃体炎的阿莫西林药物,这也就大大增加了服用的方便性,从而也提高了病人的依从性,这种每日一次的优势也最终促使FDA批准了此药物。 以上这个例子就是一个经典的非劣效试验,在证实疗效相当的基础上,通过自己药物的其他优势比如服用的方便性等来获得批准。 非劣效试验的目的在于证明试验组的疗效是否在在某个界值上不劣于对照组。当你设计非劣效试验时,既然你在疗效上没有什么特别的优势,那么你在别的方面就应该有自己的优势,比如说更便宜、更少的侵害、副作用更少、服用更方便等,这一点很重要,你必须找到一个你自己的优势,这个优势足以说服临床医生和药监部门,就小胖个人体会而言,这是你设计非劣效试验的理论基础和前提。让我们结合几个实例,来看一下非劣效试验设计时这方面的考虑: 1. 更便宜: Righini M, Le Gal G, Aujesky D, et al. Diagnosis of pulmonary embolism by multidetector CT alone or combined with venous ultrasonography of the leg: a randomised non-inferiority trial. Lancet 2008; 371: 1343-1352 这是一项比较多层CT或多层CT联合静脉超声诊断肺动脉栓塞的研究。在研究设计时,研究者参考了以往的一些相关研究发现多层CT作为一种单独诊断的方法是安全有效的,而在多层CT的基础上联合静脉超声的附加价值不大。如果能证明单独的多层CT不差于多层CT联合静脉超声,那么病人就会因为省略掉静脉超声而大大节省成本以及时间。因此,研究者设计了此项非劣效研究。 2. 更少的侵害: Clinical Outcomes of Surgical Therapy Study Group. A comparison of laparoscopically assisted and open colectomy for colon cancer. N Engl J Med. 2004 May 13;350(20):2050-9 这是一项比较腹腔镜辅助和开放性结肠切除术的研究。众所周知,相比于开放性手术,腹腔镜辅助手术对人体的侵入性更小,作为一种新的治疗方法,如果疗效上相当,这种侵入性更小的优势足以使得腹腔镜辅助手术可以作为开放性手术的一种替代选择。正是基于此考虑,研究者把此项研究设计为非劣效研究。 3. 更少的副作用: Bingham CO III, Sebba AI, Rubin BR, et al.Efficacy and safety of etoricoxib 30 mg and celecoxib 200 mg in the treatment of osteoarthritis in two identically designed, randomized, placebo-controlled, non-inferiority studies. Rheumatology (Oxford). 2007 Mar;46(3):496-507. 这是一项比较艾托考昔和塞来考昔治疗骨关节炎的研究。塞来考昔是一种非甾体抗炎药,可以作为一种止痛和抗炎药物,但可能会导致严重的胃肠道副作用。由于骨关节炎病人一些潜在相关的因素以及长期大剂量使用非甾体抗炎药,其发生与非甾体抗炎药相关的胃病的风险大大增加。而在一些研究中,作为COX-2抑制剂的艾托考昔显示出与非甾体抗炎药相似的疗效,但有较少的胃肠道副作用。这种情况下,如果能证明艾托考昔的疗效不差于塞来考昔,其较少的胃肠道副作用则可以成为其优势,基于以上情况,研究者设计了这项非劣效研究。 4. 使用更方便 Assessment of the Safety and Efficacy of a New Thrombolytic (ASSENT-2) Investigators. Single-bolus tenecteplase compared with front-loaded alteplase in acute myocardial infarction: the ASSENT-2 double-blind randomised trial. Lancet. 1999 Aug 28;354(9180):716-22. 这是一项比较替奈普酶和阿替普酶治疗急性心肌梗塞的研究。就两种药物的使用方法而言,替奈普酶为快速灌注,而阿替普酶则需要注射90分钟,显然替奈普酶更为简便。如果能证明替奈普酶不差于阿替普酶,其使用方法的方便性使得治疗时间更短,从而使其可以成为急性心肌梗塞治疗的新选择。因此研究者把本试验设计为非劣效性试验。 另外,上篇博文中提到的Moxatag非劣效试验,也是基于使用更方便的考虑,这种使用的方便性有很多方面,比如上边提到的使用时间、使用方法、剂量疗程等。 提及的上边四种情况,往往会同时存在,比如说你原来需要住院注射治疗的,现在可以口服治疗了,不仅使用方法简便了,其实因为无需住院也可以节省一部分费用,而本身注射也可能带来注射反应等。总之,在保证与标准治疗疗效相当的基础上,你必须有自己令人信服的别的方面的优势,而这一优势正是你的决胜之道。 —— |