美国国家经济研究局工作论文系列 在临床试验的成本不平衡 SylvainChassang 荣丰 30745年工作报告http://www.nber.org/papers/w30745 国家经济研究局(NATIONALBUREAUOFECONOMICRESEARCH) 麻萨诸塞州大道1050号马萨2诸02塞2年州1,2剑月桥02138 本文表达的观点是作者的观点,并不一定反映 国家经济研究局(NationalBureauofEconomicResearch)。 分发NBER工作文件供讨论和评论之用。他们没有同行评审或接受NBER董事会的评审 NBER的官方出版物。 ©2022年由西尔万·查桑和冯荣。保留所有权利。短段文字,不要 超过两段,可以在未经明确许可的情况下引用,前提是全额注明出处,包括©注意,源。 在临床试验的成本不平衡 SylvainChassang荣风 美国国家经济研究局工作论文30745号 2022年12月 冻胶。人私下偷偷收藏盒式 、C93I18I19 摘要 遵循随机分配“黄金标准”的临床试验经常使用独立 将患者分配到治疗和控制组的彩票。但是,独立分配可以产生不平衡的治疗组和对照组(即治疗组和对照组 人口统计数据明显不同),这会降低功率。其他分配方法,例如 AS配对设计可确保手臂之间的平衡,同时保持随机化和允许推理。 本文试图在大约 2000项临床研究。我们记录了显著的不平衡:25%的实验至少有26%的不平衡一个治疗组的男性多于另一个治疗组的男性。此外,临床试验具有更大的 不平衡具有更分散的治疗效果,表明不平衡降低了 实验的信息性。一个简单的结构模型表明,对于一个典型的实验,使用平衡的随机设计可以提供相当于增加 18%的样本容量。 SylvainChassang 经济部门 普林斯顿大学 朱莉RomoRabinowitz建筑普林斯顿,纽约08544 和国家经济研究局 chassang@princeton.edu 荣丰 纽约大学 rmfeng@gmail.com 1介绍 它是好吧已知的那随机控制试用在哪一个治疗是分配份措辞尖锐凹痕在病人可以结果在治疗和控制组谁的可观测的字符, 节电高是显著不同的(宝和麦克雷(1998),Bruhn和麦肯齐 (2009),摩根和鲁宾(2015),巴纳吉等艾尔。(2020)).数字1说明了的问题。考虑一个实验在哪里我们洗牌八个患者中,四个男人和四个女人,成两个 大小相等的治疗武器。它是完全可能的那三个女性是分配来手臂1 和三个男人是分配来手臂2.作为一个结果手臂1是75%女和手臂2是75% 男性。 数字1:随机治疗赋值领先的来大小相等的但不平衡治疗武器。 不平衡与尊重来特征这样的作为性别使实验少有限公司-mative。当男人和女性有不同的医疗结果在平均水平,差异在 的意思是结果之间的的两个武器五月是驱动通过不平衡与尊重来性别、而比通过治疗功效。这是特别是有问题的自医疗数据库 这样的作为clinicaltrials.gov报告无条件的平均治疗影响但不治疗影响有条件的在性别。 重要的是,在那里存在简单的和好吧理解随机赋值程序那确保平衡与尊重来目标特征(Bugni等al。2018).数字2说明了 一个匹配配对设计在哪一个病人的每一个性别是匹配在双(说通过订单的到达),和一个成员的每一个一对是随机分配来每一个治疗手臂。这担保那性别比例是平等的在这两个武器而维护适当的 随机化。 数字2:一个匹配配对设计;一个成员的每一个一对是随机分配来每一个治疗手臂。 这纸有两个目的:(我)来评估的患病率的平衡问题在医疗试验;(2)来评估的信息好处从采用平衡实验设计。 2数据和描述性的统计数据 我们研究的问题的平衡与尊重来性别在医疗试用注册与的clinicaltrials.gov数据库。我们焦点在性别为三个原因:(我)它是系统地收集的;(2)它是可能来影响医疗结果;(3)实验设计确保平衡 在二进制特征是容易可用的,和好吧理解(Bugni等al。2018). 自然地,类似的担忧应用来其他人口统计数据,这样的作为的年龄,或种族。 源。我们搜索的clinicaltrials.gov数据库为所有non-gender-specificinterven- 一对试用会议的后联合条件:(我)试用组成的完全两个治疗------ 表示“状态”武器;(2)试用报告性别计数为这两个武器;1(3)试用与完全一个主要的结果,报告意味着和标准偏差,(iv)试用与至少20病人。 在的时间的写作这纸,的总计数量的这样的研究是2042. 总结统计数据。约42%的的研究在我们的宇宙是举行在北 美国,而35%是举行欧洲。样本大小范围从21来更多的比15000.这样的大样本大小是罕见:58%的实验有少比100患者中,和75%有少比200病人。这些相对小样本大小解释为什么独立的 随机赋值可以生成不平衡治疗武器。这两个私人以营利为目的和非营利性赞助商是好吧代表:54%的研究有私人非营利性的引领 赞助商,这样的作为质量。一般医院,的梅奥诊所,或杜克大学大学;40%的的研究有引领赞助商从行业,这样的作为葛兰素史克公司诺华公司或新生 诺。的剩余部分的研究在我们的样本有公共赞助商,这样的作为的国家卫生研究院。 记录不平衡。我们的主要不平衡措施,绝对不平衡,是的级的的区别之间的的分享的男人在的两个治疗武器: 绝对不平衡= 数量的男人在手臂1数量的男人在手臂2 . 数量的病人在手臂1数量的−病人在手臂2 我们也报告相对不平衡,哪一个对应来的相对增加在的分享的男人从一个治疗手臂来的其他: 相对不平衡= 马克斯分享的男人在武器最小值分享的男人在武器 —1. 我们找到那医疗试用经常遭受从重要的不平衡与尊重来性别。绝对不平衡,即。的区别在的分享的男人在治疗武器,是更大的比5.1百分比点为50%的实验中,和更大的比10.5百分比 1我们使用病人计数在的发病的的试验中,之前任何潜在的消耗战。 点为25%的实验。 数字为相对不平衡是更多的表达:50%的实验有在至少 12%更多的男人在一个手臂比的其他;25%的实验有在至少26%更多的男人在 一个手臂比在的其他。在事实上,作为数字3所示,在那里是一个长尾巴的实验与大度的不平衡。为实验与样本大小少比100(这代表 58%的实验在我们的样),不平衡是甚至更多的普遍:25%有一个绝对不平衡更大的比13.4百分比点,和一个相对不平衡更大的比34%. 数字3:分布的相对不平衡。 不平衡出现来是相对较低的为工业试用比non-profit-run试验:25%的工业试用有相对不平衡更大的比23%;25%的non-profit-run试用有相对不平衡更大的那31%.在另外,不平衡出现来是较低的 在阶段三世比在阶段2试验:25%的阶段三世试用有一个相对不平衡更大的比21%;25%的阶段2试用有一个相对不平衡更大的比29%. 我们的数据也让我们评估的可能分享的实验已经使用一个平衡赋值协议类似的来的匹配配对设计说明通过数字2.平衡 设计保证那绝对不平衡将是本质上0.这样的低水平的绝对 不平衡是非常不太可能如果一个平衡赋值过程是不使用。在我们的数据,13.3%的实验有绝对不平衡下1百分比点。这提供了一个 球场估计的的数量的实验生成的使用一个故意平衡设计。 效果大小和不平衡。的重要的学位的不平衡我们文档是只有有问题的如果性别影响医疗结果。我们第一个提供坊间证据那这是的情况下,之前把来一个结构模型指定一个的关系之间的不平衡,样本的大小,和效果分散。我们定义效果大小作为 效果大小= 的意思是结果在手臂1的意思是结果在手臂2. − 标准错误的结果 在话说,的效果大小是的绝对价值的的估计治疗效果,重新 在单位的标准错误的的分布的结果。我们请注意那效果大小是一个凸函数的估计治疗效果。作为一个结果,更多的地估计治疗 影响增加的预期效果大小。2 数据4和5显示那更大的绝对不平衡是相关的与一个更大的效果大小。因为数字4是有些被遮挡的通过的密度的点与低不平衡 和低效果的大小,数字5提供了一个更容易阅读总结统计数据:的分享的实验谁的效果大小是更大的比一个其实历史。 一个线性回归的效果大小在绝对不平衡收益率一个重要的积极的系数平等的来1.1(t-stat:4.45,假定值<0.001,置信区间:[0.61,1.57]).3 2我们请注意那的发现说明通过数据4和5可以是不合逻辑地生成的通过省略了变化------ 能力偏见:小样本大小是相关的与这两个更大的绝对不平衡和更大的预期效果大小。的结构模型的治疗影响描述在部分3地址这问题通过适当地 控制为样本大小。 3我们删除离群值和焦点在的样本的数据这样的:绝对不平衡是之间的2 百分比点和25百分比点,效果大小是下面3sd。 数字4:更大的绝对不平衡是相关的与更大的效果大小。 ≥ 数字5:的分享的实验与效果大小1SD增加与绝对Imbal- 性质。 3测量的成本的不平衡 在这节中,我们推导出一个结构的关系之间的的分散的治疗的影响,不平衡和样本大小。这结构模型允许我们来表达信息收益 从使用平衡设计在条款的增加样本大小。我们然后估计的模型在我们的数据和评估可能的信息收益从使用故意平衡设计。 3.1一个结构模型的治疗影响 治疗影响为一个单实验。考虑一个鉴于实验组成的一个 治疗和控制手臂。为任何病人谁的身份是表示通过我,让Y我∈R表示的病人的结果。让性别我∈[0,1]表示他们的性别(与0相应的来 女,和1来男性)。最后,让T强夯我∈[0,1]表示治疗的地位,与0 相应的来的控制组,和1来的治疗组。 我们假设那为一个鉴于实验中,结果是相关的来治疗状态和性别通过一个线性高斯模型: Y我=规模×(α+β×T强夯+γ×性我别+ε)我我 (1) 与规模一个积极的扩展参数(捕捉在其他的事情变异在单位), α,β和γ常数参数具体的来的治疗和条件被研究,和 ε我∼N(0,σ)一个正常情况下分布式特殊的错误术语。 让N和N表1示的数量的病人分别分配来的控制和 0 治疗组。让Y和Y表示的平均1结果为病人在的控制和 0 治疗组。最后,让G和G表示的0各自的1分享的男人在的控制 和治疗组。后平均和采取差异,方程(1)意味着那 11 Y1−Y0= Yj N1Y我−N0 我∈治疗j∈控制 =规模×(β+γ×(G−1G)+0∆ε) σ2σ2 + N N 与∆ε一个高斯错误术语与分布N0, 年10 鉴于参数规模,β,和γ,的方差的个人结果Y我在的治疗 代 和控制组是平等的来规模2×σ2: 22 V基于“我增大化现实”技术(Y|我∈治疗)=规模×σ我=V基于“增大 化现实”技术(Y|我∈控制)8 因此的加权平均的方差 2N1V基于“我增大化现实”技术(Y|我0∈治疗)我+NV基于“增大 0 σU≡N+N 化现实”技术(Y|我∈控制1) 是也平等的来规模2×σ2.请注意那σU可以是估计使用的样本标准偏差的结果在每一个组。我们定义的标准化估计治疗 效果作为 治疗效果≡ − Y1Y0. σU 的效果大小报道在数据4和5是的绝对价值的的治疗的效果。请注意那这估计治疗效果将通常是不同的从的真正的功效 的治疗b.我们有那 治疗效果=b+c×(G−G)+∆1e0 11 (2) 与∆e一个高斯错误术语与分布N0, + N1N0 和b和c参数 具体的来的实验中,分别平等的来β/σ和γ/σ.UU 治疗影响在实验。我们现在指定一个数据生成过程帽, 图灵的分布的治疗影响在我们的人口的临床试用我们假设 那系数b和c是正常情况下分布式在实验中,后分布 b∼N(0,σ)b和c∼N(0,σ).参c数σ,和σ描述b的整体人c口。鉴于方程(2),这意味着那 − EY1Y0 σU 2 G0,G1,N,0N 1=σ2+bσ2×c(G−G1 )2+0 11 +. N1N0 表达了不同, 222 21+ 1 +错误。(3) 治疗效果=σ+σ×绝b对不c平衡+ N1N0 定义的de-biased广场