您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[城市研究所]:验证服务器的差分私有方法:行政税数据的可行性研究 - 发现报告
当前位置:首页/行业研究/报告详情/

验证服务器的差分私有方法:行政税数据的可行性研究

验证服务器的差分私有方法:行政税数据的可行性研究

研究报告验证服务器的差分私有方法行政税数据的可行性研究安德烈斯·F·巴里恩托斯佛罗里达州立大学2021 年 11 月亚伦·R·威廉姆斯城市学院约书亚·斯诺克兰德公司克莱尔·麦凯·鲍文城市学院研究方法和数据分析 关于城市学院非营利性城市研究所是一家领先的研究机构,致力于开发基于证据的见解,以改善人们的生活并加强社区。 50 年来,Urban 一直是对复杂的社会和经济问题进行严格分析的可靠来源;为政策制定者、慈善家和从业者提供战略建议;以及为所有人扩大机会的新的、有前途的想法。我们的工作激发了有效的决策,促进了公平并提高了人们和地方的福祉。版权所有 © 2021 年 9 月。城市研究所。允许复制此文件,归属于城市研究所。蒂姆·梅科的封面图片。 内容致谢执行摘要验证服务器的差分私有方法iv1介绍1访问机密数据的背景1差分隐私的背景3税务数据用例7测试差分私有算法8表格统计9分位数统计10均值和置信区间11回归分析12结论16准确性和更复杂分析的挑战16未来工作的途径17笔记20参考21关于作者24独立声明26 致谢四致谢本报告由 Alfred P. Sloan 基金会和国家科学基金会国家科学与工程统计中心资助。我们感谢他们和我们所有的资助者,他们使 Urban 能够推进其使命。所表达的观点是作者的观点,不应归因于城市研究所、其受托人或其资助者。资助者不决定研究结果或城市专家的见解和建议。有关城市研究所资助原则的更多信息,请访问 urban.org/fundingprinciples。我们要感谢美国国税局收入部门统计的合作者,特别是 Barry Johnson 和 Victoria Bryant,感谢他们对这个项目的大力支持。我们还要感谢我们出色的验证服务器项目团队,该团队由 Leonard Burman、John Czajka、Surachai Khitatrakun、Graham MacDonald、Rob McClelland、Silke Taylor、Kyle Ueyama、Doug Wissoker 和 Noah Zwiefel 组成。感谢 Gabriel Morrison 审阅我们的代码。最后,我们感谢我们的顾问委员会,他们在整个项目过程中提供了宝贵的建议。成员包括 John Abowd、Jim Cilke、 Jason DeBacker、 Nada Eissa、 Rick Evans、 Dan Feenberg、 Max Ghenis、 Nick Hart、 Matt Jensen、 Barry Johnson、Ithai Lurie、Shelly Martinez、RobertMo tt、Amy O'Hara、Jerry Reiter、Emmanuel Saez、Wade Shen、Aleksandra Slavković、Salil Vadhan 和 Lars Vilhuber。 五执行摘要执行摘要来自个人和企业的税收和信息申报表的联邦税收数据是研究一系列主题的宝贵资源。这项研究提高了我们对个人和公司对经济激励的反应的理解。然而,这些数据的完全访问权仅适用于选定的政府机构、与这些机构的分析师合作的极少数研究人员,或通过美国国税局收入统计司内的高度选择性项目。此外,现有的手动审查每个统计数据的流程披露风险的发布是劳动密集型和不完善的,因为它依赖于主观的人工审查。作为实施自动化验证服务器的大型项目的一部分,我们对几种不同的私有方法进行了广泛的可行性研究,用于发布表格统计、均值和分位数统计,以及使用横截面数据进行回归分析。我们提供了关于我们测试了哪些方法以及哪些方法无法在实践中实施的讨论。然后,我们根据它们对税收公共政策决策和其他几个效用指标的影响来评估所选的差分私有方法。根据我们的发现,我们概述了突出的挑战和未来的工作。 1验证服务器的差分私有方法验证服务器的差分私有方法介绍来自个人和企业的税收和信息申报表的联邦税收数据是研究一系列主题的宝贵资源。这项研究提高了我们对个人和公司对经济激励的反应的理解。研究人员还可以使用这些数据来研究远离税收的地区。例如,Chetty、Friedman 和 Rockoff(2014 年)使用税收数据来研究跨代经济流动性以及小学教师质量如何影响晚年的经济成果(Chetty、Friedman、Hilger 和同事,2011 年)。但是,这些数据的完全访问权仅适用于选定的政府机构、与这些机构的分析师合作的极少数研究人员,或通过美国国税局 (IRS) 收入统计 (SOI) 内的高度选择性程序分配。此外,现有的手动审查每个统计发布的披露风险的过程是劳动密集型和不完善的,因为它依赖于主观的人工审查。参与此类项目的巨大需求受到 SOI 资源限制的限制,这表明如果开发出一种安全且资源密集度较低的方法来扩大访问范围,则可以进行更多高质量的研究。访问机密数据的背景在 IRS,当前发布机密数据集分析结果的过程要求研究人员进行广泛的背景调查(IRS 许可)以访问数据,然后,IRS 工作人员必须审查研究人员想要发布的任何结果。这一过程为希望访问联邦机密数据的研究人员提供了规范。研究人员要么从作为机密数据更改版本的公共使用文件中获得访问权限,要么直接访问机密数据。作为两个极端之间的潜在中间地带,美国人口普查局通过康奈尔大学的合成数据服务器提供对两个实验合成数据库的研究访问:合成纵向业务数据库和收入调查和计划参与的合成 Beta 数据产品 (Benedetto 、Stinson 和 Abowd 2013;Drechsler 和 Vilhuber 2014)。这 验证服务器的差分私有方法2Synthetic Data Server 提供了一个验证服务器,允许研究人员在对公开可用的合成数据进行测试后提交他们的统计程序以在基础管理数据上运行。但是,合成数据服务器有两个缺点。首先,由于它不是自动化的,因此该过程消耗的员工时间有限,而需求往往超过。这种情况会导致审批延迟很长时间。其次,评论可能不一致,因为它们是由人工手动评估的,并且不遵守限制允许输出的正式隐私概念。为了解决验证服务器的这些问题,一些隐私研究人员建议使用更新的隐私损失定义,差分隐私 (DP),作为自动化过程的一种手段(Dwork、McSherry 和同事 2006)。 DP 出现在计算机科学界,作为与数据发布相关的隐私损失的严格定义。此后,许多数据隐私专家将 DP 视为隐私保护的黄金标准。它是通常称为正式私有方法的更大类方法的一部分,因为统计学家可以用数学方法证明使用差分私有方法的数据发布会导致隐私损失。DP 不同于先前的统计披露控制或限制方法,因为它不需要模拟攻击者或关于入侵者可能拥有多少信息或可能发生何种披露的相同强假设。这并不意味着 DP 可以防止所有攻击,但是,对于定义的隐私丢失类型,它提供了可证明的保护量。在较高的层面上,DP 将隐私损失的可能性与查询的答案(例如统计数据)的变化程度联系起来,因为数据群体中最极端的人或观察结果不存在或存在。 DP 要求将保护级别设置为与该最大潜在变化成比例,从而提供针对最坏情况的正式隐私保护。有关更多详细信息,Dwork 和 Roth (2014) 对 DP 进行了严格的数学审查。 Bowen 和 Garfinkel (2021) 涵盖了 DP 的基础知识及其针对一般数学受众的采用挑战,而 Nissim 及其同事 (2017) 和 Snoke 和 Bowen (2019) 为非技术性的普通受众描述了 DP。在本报告中,我们检查了差异私有方法用于我们的目标分析和更复杂的方法的可行性。具体来说,我们强调了我们对用于发布表格统计、均值和分位数统计以及使用横截面数据进行回归分析的几种不同私有方法的广泛可行性研究的一般发现(Barrientos 及其同事,2021)。根据非正式访谈和我们的税务专家合作者,我们将这些分析优先用于验证服务器的第一阶段。还有其他一些分析,例如模型选择,已经 3验证服务器的差分私有方法被确定为重要,但将在验证服务器的后续开发阶段进行探索。此外,我们概述了在更复杂的分析中实施差异隐私的方法和实际挑战,例如回归不连续设计。差分隐私的背景差分隐私 (DP) 提供可证明且可量化的隐私保护量,俗称隐私损失预算。数据隐私和保密社区的人员应该注意,DP 提供的是关于算法(或机制)的声明,而不是数据——这是一个常见的误解。换句话说,DP 要求机制或算法产生可证明符合定义的输出。我们将这些方法称为差分私有算法或机制。在本节中,我们用以下符号重现 DP 的相关定义和定理:X∈ R是具有维度的原始数据集n×r和X∗是私人版本X有尺寸n∗× r.我们还将统计查询定义为函数你: Rn×r→ Rķ, 其中函数映射可能的数据集X至ķ实数。定义和定理定义 1。差异隐私(Dwork、McSherry 和同事 2006):一种净化算法,米, 满足ε-DP if 对于所有子集小号⊆范围(米)并为所有人X, X′这样d(X, X′), 镨(米(X) ∈小号)镨(米(X′)∈小号)≤exp(ε)(1)在哪里ε0是隐私损失预算和d(X, X′)表示可能的方式X′不同于X通过一个记录。定义 1 提供了所谓的ε-DP。对于一个记录的不同意味着什么,人们有不同的理解。一种解释是记录的存在或不存在,另一种解释是变化,其中X和X′具有相同的尺寸。 Li 及其同事(2016)将这些解释称为用于添加或删除记录的无界 DP 和用于更改记录的有界 DP。他们证明了无界 DP 满足我们将在本节后面讨论的一个重要组合定理(见定理 1),而有界 DP 则不满足。由于许多 DP 方法依赖于定理 1,我们在本文中假设无界 DP。几次放宽ε-DP 已被开发以向输出中注入更少的噪声,例如近似 DP(Dwork,Kenthapadi 和同事 2006)、概率 DP(Machanavajjhala 和 √验证服务器的差分私有方法4同事 2008)、集中 DP(Dwork 和 Rothblum 2016)、Rényi 差分隐私(Mironov 2017)和零集中 DP(Bun 和 Steinke 2016)。尽管这些定义在形式上仍然是私有的,但它们提供的隐私保证稍弱。作为回报,它们通常会减少所需的噪音量。我们将介绍近似 DP,也称为(ε,)-DP 和深度零集中 DP,因为我们在研究中测试的大多数方法都使用这两个定义之一。定义 2。(ε,)-差分隐私(Dwork、Kenthapadi 和同事 2006):一种净化算法,米, 满足(ε,)-DP 如果为所有人X, X′那是d(X, X′),镨(米(X)∈小号)≤exp(ε) 镨(米(X′)∈小号)δ(2)在哪里δ∈[0,1].ε-DP 是一个特例(ε,)-DP 时δ=.定义 2 通过添加参数提供了对定义 1 的简单放宽δ.这以很小的概率允许给定的严格界限不成立,这在处理极端但非常不可能的情况时很有用。Dwork 和 Rothblum 2016 提出了集中 DP,旨在减少多次计算的隐私损失(在讨论定理 1 时将更多地讨论多个查询的组合)。Bun 和 Steinke 于 2016 年改进了这种隐私定义,他们介绍了零浓度 DP(zCDP 或ρ-zCDP),在定义 3 中给出。他们还在他们的命题 1.3 中表明,如果米满足ρ-zCDP,然后米是(ρ + 2ρ 日志(1/δ), δ)-DP 对于任何δ > 0.对于另一个方向,他们的命题 1.4 指出,如果米满足ε-DP,然后米满足(/2ε2)-zCDP,它允许我们关联ρ-zCDP 算法ε-DP当量。定义 3。零集中差分隐私(Bun 和 Steinke 2016):一种净化算法,米, 满足(ξ,)- 零集中差分隐私,如果适用于所有人X, X′那是d(X, X′)和α∈(1,∞),Dα米(X)||米(X′))≤ξ+ρα,(3)在哪里Dα米(X)||米(X′)) 是个α-Rényi 分布之间的分歧米(X) 和分布米(X′),ξ 和ρ是正常数,并且α ∈(1,∞).如前所述,