从临床试验实例来看样本含量的计算(七)
从上边两个实例例5和例6,我们可以看出,基于假设检验的样本量的估计往往会涉及到以下六个重要因素:
0 l4 P( o1 ?. O8 B5 F& y3 u% Z. T(1)Primary endpoint:Summary measure of interest (proportions or means)
样本量大小通常以临床试验的主要指标来确定,而我们在看这个主要指标时,需要确定它是什么类型的变量,连续性变量还是分类性变量,通俗点讲,就是这个变量的总结描述是用均数,还是用率,这两种不同的情况有不同的样本量计算公式。静注:另外还有一种情况TTE(Time To Event,时间事件指标),如我们常见的生存分析的指标就是这种类型,这会在后面的例子中介绍如何计算。
(2)Effect Size: Smallest difference worth detecting (clinically)
Minimum expected difference是指研究者希望研究能检测出的治疗组间的主要指标的最少差异值。这个最少差异值越小,自然需要更多的样本量来检测出来。这个值的确定带有主观性,一般根据临床判断和经验。比如说要进行一项比较新药物和标准治疗药物的试验,主要疗效指标是客观反应率,已知标准治疗药物的客观反应率是80%,对于新药物,我们只知道它可能更有效,但具体不知道新药的疗效是多少。这时假设新药的反应率只有81%,研究者肯定觉得在临床上没有什么意义,他们可能认为如果新药的反应率能达到90%才具有临床意义。因此,我们就会选择10%作为Minimum expected difference。当然,在选择这个Minimum expected difference时,我们最好可以参考一些以前的试验或预试验的结果,还有一些文献综述之类的东西,以便更有科学依据。
(3)Variability expected in the population:
这个值对于连续性变量(均数)来说是标准差。标准差越大,需要的样本量就越多。当然标准差需要根据先前的研究数据来确定。对于分类性变量(率)来说,这个值就相当于治疗组的率值,P1和P2。P1和P2越接近0.5,样本量越大。
(4)statistical power:
这就是我们通常所说的检验把握度1-β,通俗点讲,就是我们把自己的药作出来优于别的药物的概率。当然把握度越高,你需要付出的样本量也越大。通常情况下,这个值一般都大于等于80%,现在越来越多的人开始提倡使用90%。
(5)Significance Level:
这就是我们通常所说的显著性水平α。显著性水平越低,样本量越大。通常情况下,这个值一般都取0.05。静注:说得细一点,单侧一般取0.025,双侧取0.05。
(6)One- or Two-tailed Statistical Analysis:
单侧还是双侧,在业界也存在争议,有不同的做法。对于一般的随机化临床试验,我们一般采取双侧,因为试验药物也有可能差于对照药物。当然我们这里所说采取双侧,是基于优效性检验的,并不包括非劣效试验。
( f: P; k; ]8 g8 N从临床试验实例来看样本含量的计算(八)
众所周知,样本量的大小直接决定着临床试验budget的大小,现在很多情况下,大家的budget都是有限的,那么当统计师给你算出一个样本量来,结果你的budget不够,那该怎么办呢?小胖有以下建议:
(1)降低你的statistical power
(2)增大minimum detectable effect size,就是我们最通俗说的difference
(3)我们不推荐改变你的方差、显著性水平等
(4)如果这些改变还没有达到你的budget的要求,那么你只有两种选择了:
A. 等到你的钱够了再做
B. 按现有的钱做,可试验结果可能是inconclusive,那你这个试验就只能当作pilot study或exploratory study来用了
$ {7 J4 w% p" q0 V8 @其实上边所说的,都是不是办法的办法,样本量的计算在很大程度上确实是一门艺术,而不是简单的加减乘除,需要更多的权衡和智慧…
从临床试验实例来看样本含量的计算(九)
以上所提到的样本量的计算的临床试验的研究设计都是优效性试验,那么对于非劣效试验,样本量的计算又有什么不同呢?
在介绍这个问题前,小胖需要让大家明确一点,在FDA的一般原则中,α=0.025(单侧)与α=0.05(双侧)是等同的,因此在非劣效试验的统计分析中一般有两种构建可信区间的方法:97.5%单侧可信区间和95%双侧可信区间,两者也是等同的。
明确了这一点,我们再看下边的例子:
例7:Lancet. 2008 Mar 29;371(9618):1073-84.
Once-daily basal insulin glargine versus thrice-daily prandial insulin lispro in people with type 2 diabetes on oral hypoglycaemic agents (APOLLO): an open randomised controlled trial
With the assumption of an equivalence region of 0.4% and standard deviation of 1.3% for the differences of haemoglobin A1c reduction between the two groups, one-sided therapeutic non-inferiority can be shown with an error of α=0•025 (one-sided) and β=0.2 with 167 participants per group (total of 334 participants).
v; N$ }3 f! w: l6 A$ A非劣效试验样本量计算与我们前边提及的优效性样本量的计算公式基本一致,只是用非劣效界值来取代了Δ(希望检测出的差异值),另外最大的区别在于α以及单双侧检验的选择。
I/ b: ~" A. c) R! P: j) x" U2 |1 s以上边的临床试验为例,非劣效试验一般选择单侧,而α值一般选择0.025,即α=0.025(单侧),这时你会发现β为0.2,f(α,β)值其实是与α=0.05(双侧)相同的,都约为7.85。在这个意义上,非劣效试验样本量的计算其实与前边所提及的样本量的计算是一致的,只不过在叙述上有所不同罢了。
另外,特别提出的一点就是现在非劣效试验开始不接受α=0.05(单侧),因此我们以前所经常用到的α=0.05(单侧)其值用α=0.1(双侧)来代替,β为0.2,f(α,β)=6.2的做法应尽量避免。静注:简单而言,这一做法假阳性概率较高,避免这样操作而取α=0.025(单侧)是提高了对试验设计的要求。
$ P4 O8 |4 c3 A: X' h从临床试验实例来看样本含量的计算(十)
欢迎光临 药群论坛 (http://yaoqun.net/) | Powered by Discuz! X3.2 |