药群论坛»论坛 › 研发&注册讨论区 › 『认证生产版』 › 【技术交流】让风险管理再飞一会儿之【本质篇】下

查看: 792|回复: 0

[风险管理] 【技术交流】让风险管理再飞一会儿之【本质篇】下

[复制链接]

电梯直达

楼主

北京-丹丹 发表于 2014-6-4 06:56:00 | 只看该作者回帖奖励

|倒序浏览 |阅读模式

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

您需要登录才可以下载或查看，没有帐号？立即注册

接昨天继续

风险的本质

你在什么情况下会认为一件事情有风险？正面回答这个问题，答案会很多。不妨从反面来思考这个问题，在什么情况下我们会认为一件事情没有风险？

做一个非常简单的假设，假设你对一件事情拥有完美的信息，完美的信息意味着你可以知道你想知道的一切信息。你知道一切，可以计划一切行动，一切行动本身的信息你也可以完全了解。你还会觉得有风险吗？我想应该不会。

风险来自于哪里？风险来自于你不可能拥有这种完美的信息，即存在不确定性。不确定性有三个层次，第一个层次是不确定，这种不确定性可以通过某种概率分布进行测量（例如正态分布、T分布等等）；第二个层次是绝对不确定，这种不确定性下可能的结果已经被识别，但是我们不知道每一个结果的概率；第三个层次叫“不知道的不知道”，就是什么都不知道。

假设你知道明天城东一定会整天下雨，每小时降雨量一定是100mm（其他可以影响你出行的任何信息你都知道，我不一一枚举），那么明天去城东这件事情对你而言就没有风险，你可以选择不去，或者带好潜水装备扛一支皮划艇过去（这种情况下城东早就被淹了）；

第二种情况：假设你不能确定城东明天一定会下雨，根据已知的某种数学模型，城东明天下雨的概率是90%，下一整天雨的概率是80%，每小时降雨量不小于100mm的概率是70%等等，从这些信息你可以推断明天下雨是大概率事件，很显然你可以选择不去，但这样会损失掉你春游的好心情，如果要去的话你不会选择冒险大摇大摆走路过去，你还是可以按照第一种情况做好准备过去，但是风险也随之而来，如果白天没有下雨，晚上才下雨，或者降雨量非常小，大部分降水都变成冰雹了，城里不会被淹，你扛一支皮划艇是不是很傻？又浪费精力又浪费表情。

当然，概率的变化也会引发不同的后果，假设明天下雨的概率是20%，下一整天雨的概率是15%，每小时降雨量不小于100mm的概率是10%等等，你可以推断明天下雨是小概率事件，但这种概率并没有小到可以忽略不计的程度。保险起见你也可以不去，但通常情况下你都会选择去，因为不下雨的概率更大，带把伞就出门了，这是你估计了后果的结果。

第三种情况：假设你只知道明天城东下雨的概率是50%，知道这个概率跟不知道概率是一样的，反正是要么下雨，要么不下，这就是绝对不确定的情况。显然出行的风险更高。说到这里，想了解一下，有没有人在用打分法做风险评估的时候将“中等可能性”定义为50%左右，很显然，50%的不确定度最高，而在打分法中将其用作中等可能性引发的问题请自行考虑。

第四种情况：假设天气预报突然没有了，太阳也下山了，任何有关城东的信息都消失了（我只是假设，别想太多），你根本不知道明天会是什么天气，核尘埃？黑雨？飓风？暴雨？还是晴空万里？什么都不知道，还是离得远远的好，愿意承担一切后果的也可以勇闯城东。

上面假设的各种情况中有效信息递减，其对应的风险也依次递增。就风险的本质而言，降低风险、消除风险应当获取更多有效信息以降低、消除不确定性。

解构不确定性：芝加哥的钢琴调琴师到底有多少？

先讲个故事，费米都知道吧，大名鼎鼎的物理学家，诺贝尔奖获得者。他教学生的时候提了这个问题：芝加哥的钢琴调琴师有多少人？这些学生开始都会说他们不可能知道这个数量。当然，如果能通过查阅广告、检查注册当局的证书数量等方式对每一个调琴师计个数，也是不错的解决方案。但是费米教他的学生在不那么容易确证这个结果的时候如何解决这个问题。他让学生们先指出这个讨论中的数量的已知信息。

费米通过问他们一些问题开始，让他们估计关于钢琴和调琴师的其他事情，虽然仍然是不确定的，但看起来更容易估计。这些信息包括：芝加哥当前的人口（1930年-1950年稍微超过三百万），每个家庭的平均人数（2或3），规律性调节钢琴的家庭比例（不超过十分之一但不少于三十分之一），调琴的频率（也许平均一年一次），一个调琴师一天之内可以调多少钢琴（4台或5台，包括交通时间），调琴师一年工作多少天（估计250天）。结果可以计算：

芝加哥调琴师数量=总人口/每户人数X规律性调节钢琴的家庭比例X每年调琴频率/(每个调琴师每天调琴数量X每年工作日)

根据你估计的特定数值，你很可能得到一个结果范围20人—200人，而50人左右则相对合理。这个方法不仅有助于估计不确定的数值，也为估计者提供了一个基础来理清这个数值的不确定性来自何处。不确定性是拥有钢琴的家庭比例，一台钢琴需要调节的频率，一个调琴师每天可以调整多少钢琴，还是别的？

很多人对减小不确定性都有错误的偏见，要么认为需要花很多钱才能获得足够的数据来减少不确定性，要么认为需要很多数据才能减少不确定性，很多人喜欢找理由，说自己根本无法估计某个数量。举个实例，关于一个冷知识的估计：波音747飞机翼展长度是多长？

被问到的人想了一下，随意回答的答案是30-36米之间。

问：你90%确信是在30-36米之间？

答：我不知道，纯属猜测。

问：但是当你给出30-36米的范围时，这表明你至少相信你知道。对于一个说他什么都不知道的人而言这是一个非常狭窄的范围。

答：好吧。但是我对我的这个范围不是非常有信心。

问：那说明你真实的90%置信区间很可能更宽。你认为747的翼展会是6米吗？

答：不，不可能这么短。

问：好，可能少于15米吗？

答：不是很可能，这可以作为下限。

问：我们已经有进步了，747的翼展可能超过150米吗？

答：不，不可能那么长。

问：好，它可能超过一个足球场的长度90米吗？

答：我认为上限可能是75米。

问：那么你90%确定747的翼展长度在15米-75米之间？

答：是的

问：那你真正的90%置信区间是15-75米，而不是30-36米。

因此，记住四个有用的观点：1.你的问题不像你想象的那样独特；2.你拥有的数据比你想象的更多；3.你需要的数据比你想象的更少；4.新数据的准确量比你想象的更容易获得。

贝叶斯理论——让你的信息更新

在风险分析中，评估不常发生但是成本极高的灾难的可能性是非常重要的。这些事件的罕见度在确定其可能性的时候是问题的一部分。对评估这类情况的风险分析人员，贝叶斯理论应当是一个基础工具，但是实际中很少使用。贝叶斯理论是一种使用新信息对之前的知识进行更新的方式。

贝叶斯理论的基本公式如下：

P(A︱B)=P(A)X P(B︱A)/ P(B)

其中：

P(A︱B)=在B事件发生的情况下，A事件发生的概率

P(B)=B事件发生的概率= P(B︱A) P(A)+ P(B︱NOT A) P(NOT A)

P(A)、P(NOT A)分别=A事件发生的概率和非A事件发生的概率

P(B︱A)=在A事件发生的情况下，B事件发生的概率

假设你已经进行过的风险分析确定一种新火箭设计有80%的概率会成功，有20%的概率会失败。但是你还有另外一种组件测试，可以减少你的不确定性。这些测试本身也有其自身的不完美性，所以通过这些测试也不一定能保证成功。我们知道在过去，其他在首次飞行测试中失败的系统95%会在组件测试中失败，成功发射的系统90%会通过组件测试。问题是，如果一个新火箭的测试结果良好，请问首次发射成功的概率是多大？

P(T︱R)=火箭成功的情况下测试合格的概率=0.9

P(T︱NOT R)=火箭失败的情况下测试合格的概率=0.05

P(R)=火箭发射成功的概率=0.8

P(NOR R)=火箭发射失败的概率=0.2

P(T)=测试合格的概率= P(T︱R)X P(R)+ P(T︱NOT R)X P(NOR R)=0.9X0.8+0.05X0.2=0.73

P(R︱T)= P(R)X P(T︱R)/ P(T)=0.8X0.9/0.73=0.986

即，一个合格的测试意味着发射成功的概率从80%增加到98.6%。

贝叶斯理论是大多数测量问题的第一个手段。事实上几乎所有真实世界的测量问题都是贝叶斯式的。即，如果你知道以前的某些量，可以用新的信息更新之前的知识。在临床试验中也是同样的应用。

更上一层楼——建立数学模型

建模的一些原则：

1.记住统计学家George Box的这句话：“所有模型都是错的；有些模型是有用的。”

2.构建一点，测试一点。要想让一个大模型有用，你必须从一个有用的小模型开始，而不是一个无用的大模型。

3.模型的进化：1.决定你想要模型做什么；2.决定如何构建模型；3.构建模型；4.消除模型的bug；5.重新开始，这时候你才知道你首先想要构建的模型是什么。

4.一个成功的模型会告诉你一些你没有告诉它让它告诉你的事情。最有用的模型必定会产生一些意外结果。

5.任何事情都应当做得尽可能简单，但不是更简单。

6.总是尝试对系统的组件建模，而不仅仅是系统的行为。即为机理建模，构建各种事件的相互关系，使用相关系数。

模型的3个成熟等级

Level1（比定性模型更好）：仅仅用一种分布描述了系统的基础行为。这种模型告诉我们的系统信息最少，没有以任何方式与其他事件或系统相互关联。

举例：根据历史数据，有90%的机会下一年的计划外工厂停产时间在2-7天之间。

Level2（更好）：列出了与你正在构建模型的事件历史性相关的其他因素。这种模型会告诉你一些有用的信息，可能是第一级描述的改进。但是没有解释为什么这种相关性会存在。也可能因为相关系数很简单、近似线性而极大地简化了这种关系

举例：工厂停产的频率与温度超过38度的天数之间的相关系数是0.43

Level3（最好）：构建了结构化的模型。结构化的模型明确地列出了系统中的组件，并描述为什么他们相关。这种方法产生最实际的模型。这些模型更容易验证，因为他们涉及了多个单独预测，每个都可以与实际进行核对。相关系数作为你描述这些组件相互作用方式的一个函数。

举例：在高温天气中，有6%的概率限电时间会持续6-48小时，如果发生了，备用电源可以避免停产的概率是95%。如果之前发生的电力中断持续，旷工率会增加10%-40%。超过20%的旷工会迫使停工。气温超过38度的日子里，事故增加了15%-40%。20%的事故会迫使停工。

然而，目前的大多数模型还没有获得真实的验证，但是正在朝level3前进。

行业内最为成功且广泛应用的风险评估模型——湿热灭菌微生物死亡动力学模型

业内同行对湿热灭菌应该都非常熟悉了，我只是简单阐述一下。或许有人会说这也是风险评估？当然，没有规定一定要打打分才是风险评估。

众所周知，无论是通过物理还是化学方法杀灭某种纯种单细胞生物，单位时间内死亡的微生物数量比例（如百分比）是相对稳定的。在特定消毒或灭菌条件下，某特定单细胞微生物的死亡，存在一定的规律性，并且其致死率可以用一个常数来表示，即

k=1/t*lg（起始微生物数量/残存微生物数量），t为细菌经受消毒或灭菌的时间

单位时间下的死亡率反映了不同微生物对消毒或灭菌条件的敏感度或耐受性，并且在灭菌过程中，每种微生物的耐受性是稳定（因为残存曲线为直线）。在热力灭菌中，单位时间通常用分钟表示。为方便理解和应用，将微生物对消毒或灭菌条件的耐受程度——每分钟内的死亡百分率转换成DT值（T表示灭菌时的温度）。DT值的单位通常为分钟。

微生物死亡半对数残存曲线呈直线的理论基础是美国康奈尔大学教授Otto Rahn于1945年提出的一个浅显易懂的数学模型，称为质量作用定律，原先是用于分析和推测溶液的性质在化学反应的动态平衡中所发生的变化。质量作用定律模型是指溶液中未发生反应的分子数量的变化率（dN/dt），是未发生反应的分子数量（N）及反应常数（K）的函数。该定律经统计力学推到而来，表明初级化学反应（只发生一级化学反应）的速率与反应生成物的浓度成正比。可用下述方程式表示：

dN/dt=KN

经过推导（推导过程见《灭菌工艺的基本原理与参数放行》邓海根编著），最终可获得方程式：lgN=-U/DT+lgN0

其中，U=等效灭菌时间；DT=温度T时的D值，即微生物数量下降一个对数所需的时间；N=残存微生物数量；N0=起始微生物数量。

通过上式，在知道起始微生物数量和D值的情况下能够预测或推断出物品经灭菌（或消毒）后残存的微生物数量。通过几组在文献上发表过的实测数据，证明了不同微生物在不同灭菌或消毒条件下，是遵循Rahn的一级动力模型的。当然，要保证微生物数量在死亡阶段的变化满足Rahn的一级动力模型，微生物的细胞或孢子要纯，并且每个单细胞（或孢子）所接收的环境条件相同。

除了D值，常用的还有Z值。Z值是指D值变化10倍（或一个常用对数单位）所需改变的温度度数。在计算物理FT值时，Z值通常取10℃或18℉。但是，在对比平衡一个灭菌程序赋予产品的物理杀灭时间和生物杀灭时间FT值的研究中，必须使用生物指示剂的实际Z值来计算物理杀灭时间FT。Z值主要有以下几大应用：1.用于转换不同温度下的灭菌值；2.计算在灭菌过程中升温和降温阶段的灭菌效果；3.热效应对热敏性产品的稳定性影响。

转换不同温度下的灭菌值应用下式：

FT2=FT1X10^（(T1-T2)/Z）

湿热灭菌已经成功应用了许多年并且其效果得到了验证，证明其数学基础是成功的。但是同时仍然请记住统计学家George Box的这句话：“所有模型都是错的；有些模型是有用的。”只要认真分析，你就会发现该模型中存在的偏差。因此，一个成功的湿热灭菌也不能保证完全无菌，而是用概率来表达其结果，我们通常接受的标准为百万分之一。因此，经批准成功放行的产品仍然是有风险的，极小的风险。产品的放行是基于科学、基于风险的结果。

药品生产的风险究竟有多大

估计很多人都急切地想要获得这样一个概念，就是生产药品的风险究竟有多大？但很多人都不知道怎样才能评估药品的风险，用什么指标来评价，从哪里获取数据。

下面是我整理的一组官方数据，来源于国家食品药品监督管理总局网站，数据范围涵盖了2009年2月至2013年4月之间全国各省药监局抽检的药品质量报告，包括口服制剂、注射剂、外用药等各种类型的剂型，抽检批次总共65368批，其中注射剂（包括中药注射剂、大输液、冻干制剂、生物制品等）18433批，生物制品114批。（看在楼主花了好几周的时间来整理这些数据的份上，引用这些数据的时候麻烦注明这是wilson.zhang的劳动成果）

总体不合格率平均值为0.60%，90%置信区间为（0%，1.19%]；

国家基本药物品种不合格率平均值为0.61%，90%置信区间为（0%，1.20%]；

非国家基本药物品种不合格率平均值为0.66%，90%置信区间为（0%，1.09%]；

非注射剂不合格率平均值为0.64%，90%置信区间为（0%，1.14%]；

注射剂不合格率平均值为0.52%，90%置信区间为（0%，1.66%]；

生物制品不合格率平均值为1.84%，90%置信区间为（0%，8.42%]。

（生物制品不合格率明显偏大不代表生物制品更加不安全，取样量小，波动大很正常，如果有更多的数据，可靠性会更好）

我重点关注了一下注射剂的不合格项目（包括生物制品，非注射剂的情况有兴趣的朋友可以自己去CFDA网站上下载数据整理），不合格批次总共119批，不合格项目如下：

PH 11 9.24%

干燥失重 1 0.84%

含量测定 24 20.17%

活性/效价 7 5.88%

降压物质 4 3.36%

可见异物 20 16.81%

溶液澄清度与颜色 20 16.81%

水分 1 0.84%

透光率 1 0.84%

无菌 2 1.68%

吸收度 1 0.84%

性状 10 8.40%

有关物质 8 6.72%

装量 7 5.88%

总固体 4 3.36%

其中，生物制品不合格批次22批，如下

干燥失重 1 4.55%

含量测定 10 45.45%

活性/效价 7 31.82%

可见异物 1 4.55%

水分 1 4.55%

无菌 2 9.09%

如果想了解除去生物制品之外的其他注射剂不合格信息，请直接用第一组数据减去生物制品的数据。（更深入的分析建议采用统计学方法，有兴趣的去考个中级质量工程师证书，然后你就明白了）

设备厂房4Q做了，工艺验证做了，环境清洁消毒做了，原辅料中间样品抽检做了、半成品成品抽检做了、偏差变更CAPA做了、风险评估也做了，这正常吗？

风险评估的评估

风险评估是一种预测，预测没有发生的事情会怎样发生。采用定性风险评估方法的人，通常会告诉你某个风险很高，或者告诉你某个风险得分是200（随便举例），很高是多高？200是多高？你怎么判断他的判断是正确的？在定性评估方法中，这种检验几乎很难实施，很多药企都表示他们采取了CAPA措施，通过后续跟踪来检验风险评估的正确性，然而这种检验依然缺乏说服力。

这里介绍一种已经成功应用多年的方法，称为Brier Score（布莱尔评分法），是1950年为天气预报员开发的评估方法。

Brier Score=(P(T)-T)2

如果预测是真的，T=1；如果是错的，T=0

P(T)=预测者预测事件为真的概率

平均BrierScore=该预测者对所有项目的所有预测的Brier Score的平均值

举例：工厂不发生需要医疗救治的安全事故，预测者对“下月不会发生安全事故”为真有90%信心，则P(T)=0.9；如果对“下月不会发生安全事故”为假有80%信心，则P(T)=0.2

如果预测者预测的P(T)=0.9，并且确实没有发生安全事故，则T=1

Brier Score=(0.9-1)2=0.01

最好的得分是0。通过一个预测者的得分，可以评估他所作出的预测可靠性有多高。

然而，这种评估方法的基础是采用概率学的语言进行表述，而不是很高、非常高、200。

小结

最有用的风险评估方法是什么？FMEA？风险矩阵？定性的风险评估方法实质上是一种知识与信息的串联工具，它只是帮助你将已有的知识和信息收集在一起，整合在一起（实际上的整合效果有多大因人而异），它所能创造的最大价值等于已有知识、信息所能发挥的最大价值，它只能有限地减小不确定性。