林果为(复旦大学询证医学中心)
1 E, k0 R! p) c1 T/ a
编者按:科研设计决定了临床研究的质量和科研水平,没有严谨的设计,不但达不到预期的结果,还会产生错误的结论,误导临床医师和广大患者,也浪费宝贵的时间和科研经费,所以研究者在进行科研之前一定要花比较多的时间考虑科研设计问题,必须有完整的设计方案后再动手做研究,而不能“想到什么就做什么,做到哪步算哪步”。
1.研究者对自己研究所米用的设计方案是什么不清楚
根据有无人为设计的干预措施,把临床研究分为实验性研究和观察性研究,又根据有无随机分组,把实验性研究分为RCT和非RCT,观察性研究根据有无对照组,分为分析性研究和描述性研究,分析性研究中再根据暴露因素与结局测量的时间方向,分为队列研究(从暴露到结局)、病例对照研究(从结局到暴露)、横断面研究(暴露与结局在同一时间确定),描述性研究是指没有对照的观察性研究,主要包括病例报告和病例分析,如果横断面研究没有对照组,也归入描述性研究(图1)。
研究者在做研究前应该十分清楚自己的研究属于什么设计类型,对该研究的适用性、局限性、重要偏倚的控制方法、下结论时是否可以确定因果联系等都应该胸有成竹。例如,横断面研究就不能确立因果联系,只能提供病因假设和线索。
有一已经发表的研究闭,作者希望了解病理性骨折是否是多发性骨髓瘤生存的预后因素,把多发性骨髓瘤患者分为骨折组和非骨折组,至少随访3年,分析两组的生存情况,发现骨折组的中位生存时间为17.6个月,非骨折组为57.3个月,结论是病理性骨折会增加死亡风险。该研究属于回顾性队列研究,但该文的标题却写明为“病例对照研究”,说明作者对什么是队列研究,什么是病例对照研究基本概念不清楚,所以对该两种设计方案的优缺点、局限性、研究时常见的偏倚、证据的级别等概念也不会清楚。
解决方法:研究者提出感兴趣的研究问题后,要根据自己期望得到的结果、因果联系强度、可行性等来确立研究设计方案。例如疗效评价最好选择RCT研究;如果是有关生存时间、生存率等的预后研究,较好的研究设计是队列研究;如果是病因学研究,较好的设计是队列研究和病例对照研究。但同时需要考虑可行性:是否有足够的病例、是否有经费、时间是否足够等,如果不可行则要改变研究口的或改变设计方案,如原来计划做前瞻性研究,因为随访时间太长,不易收集病例等原因,可以做回顾性研究,但循证医学证据等级将会下降。
2.主要终点和次要终点定义不清晰
一个研究一般只有一个主要终点,但可以有数个次要终点。有一项RCT研究比较同一化疗药物两种用法的疗效,一组是每周用1次,另外一组是传统的用法连续用5d,比较治疗卵巢癌的效果。该研究主要研究终点是完全缓解率,次要终点是化疗毒性、无进展生存期、总生存期、生命质量。
主要终点是研究者最感兴趣的问题,希望通过这个研究回答的问题,要根据研究口的和研究可行性来确定,主要终点用于建立假设、计算样本量、下结论。次要终点也是研究者感兴趣的问题,但不根据次要终点计算样本量,也就是说样本量必需满足主要终点,但可以不满足次要终点。
例如,疗效研究经常把有效率作为主要终点,不良反应作为次要终点。由于不良反应发生率低,所以需要的样本量往往巨大,根据有效率计算的样本量不能满足不良反应样本量的需求,但是因为主要终点是有效率,在研究中只需收集根据有效率计算出来的样本量(病例数)就可以了。
在一些研究中,只写出研究终点是什么,但不区分主要终点和次要终点,这是不科学的。例如一项肿瘤药物研究在材料和方法中写道:研究评价指标是总体生存率、无病生存率、完全缓解率和复发率,未写明主要和次要研究终点。根据总体生存率计算的样本量需要上千例,根据无病生存率计算的样本量只需要几百例,实际上该文样本量只有100余例,根据研究的可行性来看,把无病生存率或完全缓解率定为主要终点比较合适,总体生存率需要的样本量太大,无法收集到足够的样本量,可以作为次要终点。
解决方法:在设计方案中需要十分明确地写出研究的主要终点和次要终点,有利于建立假设、计算样本量等,不能把所有的研究指标并列而写、主次不分。
3.没有科研假设
科研假设相当于射击时的靶,没有靶,就没有口标。整个科研过程其实是验证假设的过程。统计学要求假设包括无效假设(H0)和备择假设(H1),在医学论文中可以简化为研究口的。假设建立于科研问题的基础之上,根据假设,研究者才能决定样本量、随访时间、确定数据收集的类型、统计方法等。
例如,差异性检验假设和非劣效性检验假设的统计方法就截然不同。假设与主要终点相关联,主要的假设只有一个,一个课题解决多个问题的做法被实践证明其成功概率很低。
经常有人提交很多数据给医学统计人员,期望在错综复杂的数据中寻求关联,有时往往能够找到数据间的关联,也就是能够找到P <0.05的结果,但是很可能没有任何临床意义或错误的联系,这就是数据挖掘,事先有了科研假设,可以减少数据挖掘后得出的假阳性结果,减少不必要的多重比较。
解决方法:研究设计方案确定后,应该根据主要终点建立合理的假设。例如A药和B药有效率的比较,差异性检验的H0为:A药有效率(D1) -B药有效率(D2),H1为A药有效率(D1)不等于B药有效率(D2)。如果欲进行A药非劣效性研究(B药为标准阳性药物,界值为5% ),则H0为:A药有效率劣于B药有效率(D2-D1≥5%),H1为:A药有效率不劣于B药有效率(D2-D1<5%)
4.没有对照或设立不合理的对照
临床试验设计的四大原则是“随机、对照、盲法、重复”,对照组的设立和选择合适的对照是研究设计重要的内容,正所谓“有比较才有说服力”。
有一康复科研究生设计了一个课题,口的想说明一种康复仪器可以帮助卒中患者尽快的功能恢复,选择了100例卒中患者每天2次用康复仪治疗半小时,评价治疗前后功能恢复的程度和检测一些功能指标。所谓的自身前后对照,其实是没有对照。
试问:这些卒中患者不用康复仪,随着时间的推移,是否也会有功能恢复呢?应该设计同期、平行对照,另选择100例卒中患者,不用康复仪,在年龄、病程、疾病类型、疾病严重程度等方面都均衡可比的情况下,两组比较后才可以下结论。
某临床医师想研究绝经后妇女患骨质疏松症的患者血清IL-6及TNF。浓度的变化,即骨质疏松症对某些细胞因子的定量影响。研究设计:选择绝经后骨质疏松患者50例,采用ELISA方法检测其血清中IL-6 , TNF。水平。选择50例正常青年妇女为对照,比较两组细胞因子水平差异。结论是两组数值差异有统计学意义,骨质疏松症使细胞因子的水平发生了变化。请问:结论可信吗?回答是不可信。
因为该课题的科研设计是错误的,对照组选择错误。试验组与对照组在年龄上相差悬殊,对照组是未绝经的年轻妇女,与绝经的老年妇女没有可比性。正确的做法是对照组也应选择绝经后的妇女,但未患骨质疏松症。对照组妇女的年龄分布和基本健康状况等各种重要的非试验因素都应尽可能与试验组妇女接近,这样的对照才是真正的对照。但这个设计也只能下“骨质疏松症患者某些细胞因子的水平是有变化的”的相关性结论,不能下“是骨质疏松症引起这些细胞因子水平的变化”这样因果关系的结论,因为也有可能是细胞因子水平的变化引起骨质疏松。这是一个横断面研究,不能下因果关系的结论。
解决方法:根据研究口的可以设计空白对照、安慰剂对照、阳性标准对照等多种对照,以同期平行对照为最佳。
5.名义上为随机对照研究,但不是真正的随机化分组
Wu等曾对国内的RCT进行调查,口的是了解论文中写着“随机”,是否真正做到了随机。选择了3137篇RCT论文,对第一作者或通信作者进行访谈,发现只有207篇(6.8 %)论文是真正随机化分组,其他论文均只是写“随机”而已,没有真正随机,有些作者对随机化方法和随机化隐藏等基本概念都不清楚。大学的附属医院医师对随机化概念比较了解,而且发表的论文真正做到“随机”的比例也较高。说明对临床医师进行临床流行病学培训是非常必要的。
随机方法包括两层含义,一是随机分配序列的产生,二是随机分配序列方案的隐藏,如果未做到方案隐藏,可能会破坏随机化,导致选择性偏倚和测量偏倚。隐藏的口的是让研究执行者不知道具体的随机方法和方案,不知道按照随机序列入组的研究对象究竟是属于试验组或是属于对照组,这样可以做到完全的随机化。
笔者曾对1000余名各科的临床医师进行问卷调查,调查临床医师对科研设计基本概念的知晓程度,发现多数医师不知道随机隐藏,不知道临床试验统一报告标准(Consolidated Standards of ReportingTrials , CONSORT)声明。CONSORT声明是由众多医学专家、统计专家以及临床流行病专家制定的RCT报告规范,口的是提高RCT研究的报告质量。
声明对RCT研究报告的内容、随机分配序列产生方法、随机分配方案的隐藏措施、随机分配方案的实施措施、样本量的计算方法、试验注册号等都有详细的规定。做RCT研究之前或报告时均应该认真学习CONSORT声明,可以提高RCT的研究质量。
解决方法:研究者应该经过系统的临床流行病学或临床研究方法学培训,临床研究方法规范化培训的意义与临床医师规范化培训相似,是重要的基础性工作,需要各方面的重视和努力。
6.没有计算样本量
除了探索性研究,因为没有任何基础数据无法计算样本量外,一般的临床研究均需要事先估计样本量。样本量太少会有较大的抽样误差,得出的结论代表性、重复性差。样本量少,把握度(power)低,会导致假阴性的结论,即p≥0.05的结果可能是两组之间真的没有差异,也可能是样本量不足导致的假阴性结果。下结论时把握度至少>80%,这个结论才是比较可信的。
例如,有一研究,两组样本量分别为100例,有效率分别为20%和25 %,经卡方检验P=0.40,结论是两组疗效差异无统计学意义。经过计算,把握度为9.9%,也就是说只有9.9%的把握下疗效差异无统计学意义的结论。
在实践中,有许多临床医生建立了样本量计算的概念,但是不知道如何计算样本量。样本量的计算与不同的设计方案密切相关,如RCT、生存分析的样本量计算方法不同,RCT研究如果采用非劣效性或等效性设计,其计算样本量的方法又与普通的差异性检验不同。这就是前面提及的假设不同,样本量计算方法不同。
计算样本量需要一些基本的数据,如两组比较时需要每组的有效率、每组均数和标准差,生存分析时需要每组的生存率或风险比(HR),这些数据来自预试验或文献报道,或临床经验。只要把这些基本数据提供给统计学家,利用统计软件很快可以算出样本量。
解决方法:研究者应该重视样本量的意义,知道把握度的概念,只要有了计算样本量这个意识,计算过程不是问题,现在有许多统计软件可以应用。
总之,现在越来越重视临床科研,科研水平较前也有很大提高,但还是存在很多问题,以上只列举了常见的几个问题,希望引起临床医师的重视,进一步提高临床科研水平。同时要时刻铭记,临床研究是多方合作的结果,临床医师应该与临床流行病专家、医学统计专家进行反复沟通、讨论,最后才可能得到可信的结果。建立临床方法学规范化培训的制度也是刻不容缓的任务,希望引起管理层领导的重视。
% x( c6 E) Q# p" e! b2 { [; y