信息来源:微信公众号--静远医学统计在线(微信号:jeeyor) 授权发布; u" ~7 J; o3 A
临床试验中常用的统计分析方法(四)7 ]! T) j3 a% v3 q
两因素方差分析(Two-Way ANOVA)(一)
# c) `/ ~& l2 d x A
正如前面的博文中讨论的,单因素方差分析(One-Way ANOVA)只能考虑到一个因素,通常是组别的作用。但现在的临床试验大多数都是多中心临床试验,在统计分析中要考虑到中心效应,此时就需要应用到两因素方差分析(Two-Way ANOVA)。简而言之,两因素方差分析就是同时分析两个因素对结果的影响。除了中心效应外,一些基线特征如性别、疾病严重程度、分型等都可能作为分层因素纳入到方差分析模型中,因此可以说两因素方差分析是临床试验统计分析中最常见的分析方法之一。
. C- c/ Z6 u, L2 N
例1.和小胖说统计之六十二中单因素方差分析(One-Way ANOVA)的例子类似,在一项抗抑郁药临床试验中,共有5个研究中心参加,受试者采用中心分层随机方法随机分配到治疗组组和安慰剂组,主要疗效指标是治疗前后HAM-D评分的变化值,此时我们评药物的疗效时,不仅考虑组间因素,还考虑研究中心的影响,这时我们就需要采用两因素方差分析(Two-Way ANOVA)。静注:通常情况下,我们还要考虑把主要疗效指标的基线值,基线出现差异的指标,以及任何在临床上认为可能有意义的指标放入模型中进行分析以评价其对疗效的影响。
4 \+ C/ j' `! S1 ]: x. j
假设假设评分变化值变量名为CHANGE, 治疗组别变量名为GROUP,研究中心变量名为CENTER,SAS程序为:
PROC GLM;
CLASS GROUP CENTER;
MODEL CHANGE=GROUP CENTER GROUP*CENTER/SS3;
RUN;
大家可能注意到上边方差分析模型里,除了GROUP和CENTER之外,还有一个交互作用项GROUP*CENTER。一般来说,如果已知或普遍认为主效应之间没有交互作用的话,这个交互作用项可以从模型中去除。
+ R; R7 `, K% a F3 T1 b& ^+ e
现在比较常见的两种做法为:先把治疗、中心、治疗中心交互作用都放在模型中进行统计分析,看交互项的p值,如果p值大于0.1则:
(1)保持原来的包括交互作用的模型,然后汇报这个模型中治疗差异的结果
(2)把交互作用项剔除,然后计算剩下的主效应的模型,汇报此模型治疗差异的结果
# Y4 `) Z* X* ?8 F1 _; C( o7 `5 a: A
当然如果p值小于0.1则结果就会很复杂,一般会分开中心分析每个中心的结果,然后再对结果进行一些解释,这个就会很复杂。静注:这时候,就出现了小胖老师在《ICH E9临床试验的统计学指导原则解析(三十一)》中所提到的质变的交互作用了,即:在这种情况下,最好的办法就是对治疗-中心交互作用进行具体的描述,并说明具体哪个中心对交互作用的影响,这是一个复杂的过程。还要说明的一点就是,在这种情况下,很多统计师是不会再谈论什么治疗差异了,关键是这时不是一句话两句话就能说清的。
2 k( s, y9 \3 ~/ U0 u
小胖说统计之六十五:临床试验中常用的统计分析方法(五)两因素方差分析(Two-Way ANOVA)(二)
# x! j0 z9 [5 U z; v
大家可能注意到,在先前的两篇博文中,小胖在SAS程序里边用到的都是PROC GLM,那为什么不用PROC ANOVA,两者到底有啥区别?
# f. K% o% d8 ? q5 }3 h& G6 b
其实ANOVA过程和GLM过程都是常用的方差分析的两个过程。ANOVA过程适用于平衡的数据。意思就是如果按所分析的变量将观测值分类,则每个格子内的观测值数目应相同。而对于某些特殊的设计类型如单因素方差分析、拉丁设计、完全嵌套设计等,即使不平衡也可用ANOVA。GLM过程对于平衡或非平衡数据都适用。因此,如果不能判断是否适用ANOVA,最好改用GLM。特别是现在的临床试验由于病人失访、数据缺失等很多原因,基本都是不平衡数据,这时GLM就尤其适用了。反正俺在实际应用中,一般都一律采用PROC GLM,省得麻烦,呵呵。当然,要提的一句是ANOVA过程比GLM过程运行速度快,要求的存储空间小,但对于日益升级的电脑来说,这一点就微不足道了。
% `$ b# u* l; {" ~; w7 z8 W
在不平衡数据的方差分析中,对于sum of squares的计算SAS就会产生不同的方法,相应地就有四种sum of squares即type I,typeI I,type III,type IV。对于这四种sum of squares对应着不同的假设,除typeIII外,在此小胖不做进一步的详细阐述,有兴趣的同学可向小胖索取相关资料。
, O3 O* j! \1 t
Type III SS的思路是weighted squares of means即总体治疗均数为所有格子的均数,每个格子的权重都一样,无论这个格子有多少个观察值。小胖结合下边这个例子,给大家说明一下:
- l0 z1 W+ T+ L2 @# V" q
中心 | A | B |
1 | μ11 n11=20 | μ21 n21=10 |
2 | μ12 n12=20 | μ22 n22=30 |
3 | μ13 n13=40 | μ23 n23=20 |
合计 | μA nA=80 | μB nB=60 |
见上表,这是一个不平衡的设计,有两个因素:中心和治疗组。μ11 μ12 μ13 分别代表A组1中心、2中心和3中心的均数,n11 n12 n13 则代表A组1中心、2中心和3中心的样本量,同样的,μ21 μ22 μ23 分别代表B组1中心、2中心和3中心的均数,n21 n22 n23 则代表B组1中心、2中心和3中心的样本量。这样A组和B组各有80例病人和60例病人。那么对于Type III来说,两组总体治疗均数就分别是:1/3×μ11 + 1/3×μ12 + 1/3×μ13和1/3×μ21 + 1/3×μ22 + 1/3×μ23,而假设就是:
H0:1/3×μ11 + 1/3×μ12 + 1/3×μ13 =1/3×μ21 + 1/3×μ22 + 1/3×μ23
. ^: ^8 Z( q6 I' o. d- o
这就可以看出治疗均数的计算是不依赖于样本量的,每个格子的权重都一样,都是1/3。
9 U# C& ^/ ?, e( [1 f' L
临床试验数据方差分析中一般都会选择Type III。当然由于Type III不考虑格子中的样本量,因此当一些中心的病人很多,而另一些中心的病人很少,这时如果中心是一个区组因素的话,Type III就会有问题。所以现在FDA的一般看法是倾向于采取Type III,但是他们也推荐如果中心样本量差异较大时进行pooling,就是对几个中心进行合并,以减少中心样本量的差异。静注:中心合并也是有讲究的,一般是按地域就近进行合并,不能只考虑将样本量都少的中心合并在一起。