中午收到《中国新药杂志》赠送的
新药研发与审评专刊(2014
年第8期),其中有大量药品审评中心的文章,包括多柔比星脂质体、低分子肝素钠、单抗、疫苗、纳米药物等方面,虽然不是正式的指导原则,也算是CFDA
的建议,从事相关研发的可以看一看。
5 D U k0 E6 b- a% x( v' U7 A+ j: A* d
我在第894页找到了一段好玩的东西——基于II期数据的III期成功概率估计,是Roche和Pfizer的统计学专家写的,经过一系列的统计学计算,得出一个结论“III期试验增加样本量会提升成功概率”,这是真的吗?
/ [! L/ {9 s/ e文中的案例是这样的,假设某抗癌药II期试验有60例PFS数据,计算后HR=0.65,95%置信区间为(0.39, 1.08)。以HR=0.65计算样本量,保证显著水平(α=0.05)和把握度(1-β=80%),III期需要172例PFS数据。然而真实HR并非0.65,95%的置信区间是0.39至1.08,如果真实HR=0.50,则172例样本量对应的把握度为95%;如果真实HR=0.80,则172例样本量对应的把握度为32%。
2 i, B$ j9 V$ U. A4 L) j' z1 o换句话说,如果II期试验新药组与对照组的差异够大(HR=0.50),那么III期用172例样本量的数据就能保证不会犯II类错误;如果II期试验新药组与对照组的差异不够大(HR=0.80),那么III期用172例样本量是不够的,很大概率错误地判断新药无效。
$ d8 e. s+ K& m3 q( D5 I: M增加样本量可以减少犯II类错误的概率,保证企业不会错过一个本来有效的新药,也就是说保证试验的把握度,当然会小幅度增加试验成功率。但如果增加10%的成功率,需要增加一倍的样本量,企业会选择增加样本量还是增加一个项目呢?这就是统计学指导下的决策问题。
6 A- E" d: ~ f3 p文中提到了贝叶斯统计(Bayesian statistics),这也是非常好玩的东西,经典统计学认为原假设H0与备择假设H1处于平等地位,贝叶斯统计认为H0与H1可能并不对等,于是引入先验概率。贝叶斯统计将试验前的信息纳入研究范围,但这种先验概率很可能是主观的,这也是经典统计学派所诟病的。(我之前的文章《Nature:统计学中的P值不代表错误几率》用到贝叶斯的先验概率,但没有指出。)
5 h: Q! _ I# F0 |1 ]Puma Biotechnology (NYSE: PBYI)公布neratinib治疗乳腺癌的I-SPY 2 试验(II期)时用的就是贝叶斯统计模型,用II期数据预测III期验证性试验的成功率。I-SPY 2 试验对比neratinib+紫杉醇和曲妥珠单抗+紫杉醇,得出的结论不是传统的生存期、应答率数据,而是在300例规模的III期试验中,neratinib+紫杉醇有72.5%的概率优于标准疗法。
6 f* M0 s- N& _/ b/ N& f, L投资界对这贝叶斯统计数据表示认可,当日PBYI股票从46.21涨至77.70。我不是统计学家,不想去评论贝叶斯统计模型的好坏,但从一个非医药专业决策人的角度出发,贝叶斯统计数据确实比经典统计学数据更容易理解,直接给出了投资风险值。
3 j1 y7 F/ ^- m! l4 m+ W9 B! X9 [( N/ p/ I4 \2 N, y! K- E7 A
附统计学基础知识
(1)α:I类错误的概率,拒绝了实际成立的H0,简单说就是新药组与对照组实际没有区别,但被错误地认为新药组优于对照组,犯I类错误会增加无谓的医疗支出,FDA将α限制为0.05。
7 ?. w# x0 E0 t: p(2)β:II类错误的概率,不拒绝实际不成立的H0,简单说就是新药组本来优于对照组,但被错误地认为新药组与对照组无差别,犯II类错误会错过本来有效的新药,企业设计试验时将β限制为0.1或0.2。