定性/定量体外诊断试剂（IVD）临床试验样本量估计

说起临床试验，是大多数IVD从业者极为头疼的问题，不管是对于研发还是注册，一堆繁杂的统计学公式总会让人望而却步。在这里我结合自己的一些知识储备来和大家具体讲一讲目前IVD临床试验的具体过程。
首先我推荐三个文件：
1.北京市第二类体外诊断试剂临床试验指导原则（2016版）（北京局）
2.体外诊断试剂临床试验技术指导原则（2021年第72号）（国家局）
3.Method Comparison and Bias Estimation Using Patient Samples（EP9-A2）
这3个文件是目前我做临床试验方案的主要依据。

首先我们讲一下临床试验用样本量的估算：
我们做过临床的人都知道，以前的临床试验指导原则，只是规定二类试剂的最低样本量为200例，三类的为1000例，且参考范围以外的比例不得低于30%。目前国家局新出的指导原则（上述文件2），并没有规定明确的数量，只是提供了一种计算方法，而且还只是针对于定性的，定量的并没有举例说明，而且这个数量还只是基于统计学的。
我下面对不同的情形进行说明：

一、定性检测的样本量估算

1.评价指标有确定的临床可接受标准时，需证明产品评价指标满足可接受标准要求。此时可采用单组目标值法样本量公式估算最低样本量。（药监局范例1）

n：样本量
a：一类错误概率，设定为双侧0.05或单侧0.025；
β：二类错误概率，设定为不大于0.2，一般按0.2计算；
Z1-α/2：显著性水平的标准正态分布的分数位，Z（0.975）=1.96；
Z1-β：把握度的标准正态分布的分数位，Z（0.8）=0.84；
P0：评价指标的临床可接受标准；
PT：试验体外诊断试剂评价指标预期值。

例：定性检测试剂临床试验，采用试验体外诊断试剂与已上市同类产品进行比较研究的方法，根据临床需求，阳性、阴性符合率应分别达到85%和90%，根据探索性试验结果，试验体外诊断试剂与对比试剂阳性、阴性符合率预期分别可达到90%和94%。
阳性组（n+）：

按照脱落剔除率10%，则应至少入组362/0.9=403例阳性。

阴性组（n-）：

按照脱落剔除率10%，则应至少入组388/0.9=431例阴性。
需要的总样本量：403+431=834例。

2.对于临床试验的参数估计中只保证评价指标满足期望精度水平（置信区间的宽度一定），而不设定临床可接受标准的情况。（药监局范例2）

n：样本量；
Z1-α/2：为置信度标准正态分布的分位数，Z（0.975）=1.96；
P：评价指标预期值；
Δ：P的允许误差大小（一般取P的95%置信区间宽度的一半，常用的取值为0.05-0.1。但药监局明确规定，除非有特殊理由，否则不建议设置Δ>0.05，一般取0.05计算就可以）。
备注：对于符合率的95%置信区间的计算，北京局的文件给了如下公式：

但是统计学更推荐一种称为Wilson Score的计算置信区间的方法，它适用于所有的情况。
我自己做了一个小程序，可以自动计算kappa检验的置信区间和Δ值，见下图：

例：某检测试剂的灵敏度预期为85%，特异度预期为90%，临床试验采用试验体外诊断试剂与临床参考标准进行比较研究的方法，评价试验体外诊断试剂的临床性能。允许误差Δ取值0.05，则具有目标疾病状态的受试者（阳性）最低样本量（n+）估计为：

不具有目标疾病状态的受试者（阴性）最低样本量（n-）估计为：

根据以上估算，总样本例数预计为196+138=334例。按照脱落剔除率10%，则应至少入组334/0.9=371例受试者。

3.这里还有一种方法，是参考目前比较火的新冠抗体检测试剂文献的样本估算的方法。当灵敏度或特异度小于20%或大于80%时，样本率的分布呈偏态，需对符合率的平方根进行反正弦转换，样本量计算公式为：

n：样本量；
Za：由于是双侧检验，这里实际上是Z1-a/2，依旧是1.96；
σ：一般取0.08；
p：灵敏度或特异性的符合率。
例：若a取0.05，σ取0.08，不同灵敏度、特异度估计值下的样本量如下表所示。保守估计试剂灵敏度、特异度均为80%，病例组和对照组的样本量均为95例，考虑标本异常情况剔除率为5%，则计算获得病例组和对照组的样本量各为95/（1-5%）=100例。

二、定量检测的样本量估算

1、定量检测试剂有医学决定水平（或称截断值、Cut-off值）时，可以将定量检测转换为定性检测，样本量估算可以采用《体外诊断试剂临床试验技术指导原则》附件中提及的定性检测样本量估算公式。

2、定量检测中，两种方法检测结果的一致性越好，其差值越接近于0。这个差值0可以认为是“标准公认值”，此时可以采用与标准公认值比较的单组设计，单侧检验样本量估算公式：

公式中：
n代表样本含量。
Z1-α和Ζ1-β为标准正态分布的分数位，当α=0.05时，Z1-α/2=1.96，当β=0.2时，Z1-β=0.842；（Z1-α/2+Z1-β）2=7.85。
σ代表总体标准公认数据的标准差，即差值的标准差。
δ代表具有临床意义的两组差值。
上述数据可以通过预试验得到。当δ为标准差的1/2时，样本量约为63例；当δ为标准差的1/3时，样本量约为142例；当δ为标准差的1/4时，样本量约为252例；

3、如果定量检测没有进行预试验无法得到上述数据，则可以考虑采用抽样调查样本量估算公式：

公式中：
n代表样本含量。
Z1-α为标准正态分布的分数位，当α=0.05时，Z1-α/2=1.96。
σ代表抽样总体的标准差。
δ代表具有临床意义的允许误差。
上述数据可以通过流行病学调查得到。当δ为标准差的1/4时，样本量约为62例；当δ为标准差的1/5时，样本量约为97例；当δ为标准差的1/6时，样本量约为139例；当δ为标准差的1/7时，样本量约为189例；当δ为标准差的1/8时，样本量约为246例。

4、定量检测的评价指标一般会有直线相关系数，可以考虑以直线相关系数进行样本量估算。根据相关系数检验（连续变量）样本量估算公式计算，s为单双侧检验，p0为原假设相关系数，p1为备择假设相关系数。Z（1-a/s）和Z（1-β）表示对应于a和β的标准正态分布百分位数，公式如下：

n：样本量；
a：一类错误概率，设定为双侧0.05或单侧0.025；
β：二类错误概率，设定为不大于0.2，一般按0.2计算；
Z（1-a/s）：对应于a的标准正态分布百分位数；s这里指的是单侧或双侧检验，s=1为单侧，s=2为双侧；
Z（1-β）：对应于β的标准正态分布百分位数；
p0：为原假设相关系数；
p1：备择假设相关系数。

例：根据CLSI EP9-A2文件的标准，考核试剂与比对试剂的直线相关系数不得低于0.975（p0），那我们假设线性系数为0.985（p1），此时，由于我们已经知道p1＞p0，所以此时为单侧检验，s=1；设定其它参数：a=0.05，β=0.2，根据上面的公式我们可以计算出，样本量n为96例。如果考虑5%的脱落剔除率，那么最低样本量为96/0.95=101例。

（参考文献：样本量估计及其在nQuery和SAS软件上的实现——相关分析）

除了上述的介绍方法外，知乎的前辈还介绍了其它参考文献《回归分析中最小样本容量的确定》、《临床研究中样本量的估计方法》的直线相关等，这里就不分别列举了，感兴趣的同学可以去学习一下。