您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[CSET]:商务部 RFI 89 FR 27411 的评论 - 发现报告
当前位置:首页/行业研究/报告详情/

商务部 RFI 89 FR 27411 的评论

信息技术2024-07-16CSET大***
AI智能总结
查看更多
商务部 RFI 89 FR 27411 的评论

2024年7月16日 商务部RFI:89FR27411 组织机构:安全和新兴技术中心(CSET) 受访者类型:学术机构/智库 主要应答者:CatherineAiken,数据科学与研究总监 其他受访者:詹姆斯·邓纳姆,雅各布·费尔德戈伊斯,丽贝卡·盖尔斯,罗尼·基诺希塔,米娜·纳拉亚南和克里斯蒂安·肖伯尔。 乔治敦大学安全和新兴技术中心(CSET)对人工智能和开放政府数据资产信息请求提供以下回应。作为乔治敦大学的政策研究组织,CSET为决策者提供有关新兴技术的安全影响的数据驱动分析,重点是人工智能,网络安全和生物技术。我们感谢有机会提出这些意见。 CSET支持Commerce为提高公共数据的可访问性,质量和透明度所做的努力。我们鼓励Commerce 考虑现有的标准,工具和最佳实践,以使人类可以使用数据,因为它们与使数据AI就绪相关。为此 ,我们鼓励Commerce: ●利用现有平台、论坛和传播实践(如GitHub、Zenodo) ●优先考虑清晰、易懂、全面的数据文档(如数据卡) ●将数据资产与现有工具和数据集保持一致,包括纳入开放式组织标识和现有职业代码(例如 ROR、SOC) 这些优先事项将有助于使数据可用,确保准确性,促进负责任的使用并减轻偏见。这些优先事项还实现了一致性和数据链接,这两个关键数据特征适用于人类使用和AI应用程序。 CSET发布了两个数据快照,提供了有关使用开放商务数据进行分析的相关建议。请参阅BIS最佳数据实践 :第1部分和BIS最佳数据实践:第2部分。我们的回答是根据请求中概述的主题问题进行的。 数据传播标准 机器可读数据、元数据和文档是使用开放数据促进AI应用程序的关键功能。人工智能系统必须能够理解数据集和元数据,人类用户必须能够理解系统的功能。对于最大效用,低成本但高收益的优先级应该是对数据集中每个数据点含义的明确,可理解的描述(i。Procedres.,每个点在计数vs不计数,计数是如何计算的),所有这些都是对用户来说不是立即显而易见的信息。清楚地阐明提供给公众的每个数据集的局限性将非常有帮助 。什么是。不是由数据范围捕获?哪些类型的结论可以不是据推测,商务部熟悉公众或研究人员过去如何滥 用/误解数据集,记录这些误解会有所帮助。 公共数据集和文档需要可以批量下载,机器可读的,并且可以作为csv或jsonfile格式使用。理想情况下,它们将包括标准,开源或 非专有实体标识符和职业代码,以允许用户连接数据集,并随时间保持一致性,以允许用户分析随时间的趋势 。 由于请求中描述了原始数据和派生数据,因此一个区别是派生数据可能已对其应用了隐私保护。如果不是这样,它应该是一个要求。原始数据可能没有经历过相同的匿名或隐私保护过程,因为可以假设原始数据不能直接链接到用户或用于提取关于个人的信息。但是考虑到什么样的个人身份信息(PII)可以通过原始数据泄露是很重要的,应该优先考虑。我们强调,我们提供的许多建议适用于原始和派生数据,并且元数据标准应始终如一地适用。 商务部应在开放许可证下发布数据,以支持对商务部数据集和元数据的广泛、公平和开放访问,以向用户发出信号,表明他们提供公共数据。如果目的是更清楚地表明数据可供人工智能系统使用,商务部可以考虑在许可下发布数据,并允许人工智能使用,可能指定可接受或不可接受的用途(请参阅负责任的人工智能许可证)。为了进一步表明数据可用于AI开发,商务部不仅可以提供数据。gov网站,也可以通过AI开发社区广泛使用的论坛。例如,通过Commerce的GitHb或通过在Zeodo上共享数据资产来增加活动和可用性。 鼓励在国家艺术情报研究资源(NAIRR)试点项目和外展中使用数据资产可能也会有所帮助。 虽然开放通常是好的,但重要的是要考虑PII泄漏的可能性,并平衡有用开放数据的好处。商务部应确保无法从数据中识别个人。还应考虑其他潜在的危害和偏见,如果数据集的主要或唯一用例可能是有害而非有益的用例,则应决定有关公开发布数据或具有特定访问和使用限制的决策。 数据可访问性和检索 如果数据作为可下载的数据集(jso或csv)或通过API来提取批量数据,则数据对社区来说可以更容易访问和更有价值。优先级应该是以非PDF格式提供数据。我们团队使用的现有商务数据集可以作为收集信息的PDF提供,机构和年份都不一致。指定优先级可以是为聚合的BIS许可数据和商务控制列表提供可下载的CSV数据集。此外,Commerce可以通过解决以下数据质量问题,使其现有的BIS实体列表CSV数据集更有用: 。 1.确保为每个列出的实体提供有效日期和国家/地区的fi域,以及 2.标准化实体列表修改fi阳离子在数据集中的反映方式(即添加新行或修改现有行)。 一个集中数据以使抓取更容易的网站将提高网络可抓取性,尽管对网络抓取的依赖确实降低了许多研究人员和团队的可访问性。集中的位置还将减少跨时间和跨机构跟踪数据所需的工作量,并导致更一致和更高质量的数据。如果现有的数据资产包括标准的、开源的/非专有的实体标识符、职业代码和类似的元数据,它们也会更有价值。 尽管Commerce应该考虑开发直观,用户友好且可访问的数据门户和界面,但我们也鼓励利用现有的开源选项 。这些都具有广泛使用和有据可查的导航和检索方法和工具的优点。商业可以在现有的公共数据门户上存在(例如Procedre,Zeodo)并依赖于现有的知识和文档。 假设Commerce将另外或替代地维护自己的数据门户,重要的是将数据集中在一个地方,并使下载和API访问变得简单。但商务部应该投资于了解数据用户的需求,以及投资于数据可用性的影响。有关于用户测试方法和最佳实践的现有文献,Commerce可以从中工作,以及对其他开放政府数据计划的早期影响的研究(如此处)。 伙伴关系参与 提高数据质量、完整性和有用性的伙伴关系或协作领域可以侧重于使历史数据更有用,提高数据质量和有用性。例如,商务部可以发起一项挑战,即从旧的PDF中提取数据,或者更新现有文档并将其翻译成新的机器可读格式。其他形式的奖品或黑客马拉松也将提高可见性、使用和数据质量。合作伙伴组织可以在挑战中所做的工作的基础上进行可发表的研究,从而提高对商业数据有用性的认识。 数据完整性和可靠性 人们期望以清晰易懂的文档报告数据质量。这是提供将用于AI应用程序以及人类分析的数据的关键一步。这同样适用于透明的数据来源、处理和更新;它归结为文档。公共数据文档应包括对数据来源和处理方法的详细描述,如果这些方法在数据集中有所不同,则应列举每种不同的方法或来源。任何已知的质量问题以及为评估质量而进行的任何评估也应作为数据描述的一部分进行记录。 我们知道没有通用的解决方案来确保将记录的质量和处理信息传递给AI最终用户。确保这一点的能力取决于AI应用程序。对于某些AI应用程序,鼓励将数据文档中的信息包含在系统输出中更为可行。但是,例如,如果数据用于训练大型语言模型,并且是许多原始数据源之一,则不太可能记录限制或来源将进入最终产品。为了鼓励这种行为,商务部可以采用已知的标准数据文档格式,例如发布带有每个数据集的数据卡(请参阅此处和此处),或者在数据使用规范或许可中要求它。 在GitHub存储库中存储数据文档(和数据)可以方便地发布和跟踪问题,跟踪文档中的更改。,和fi和可以为研究人员的特定fic需求量身定制的示例案例。这将带来额外的好处,促进与有兴趣使用数据的研究人员和利益相关者的沟通。如果有关于数据文档的问题,或者发现数据本身的问题,用户可以使用Githb问题轻松地将这些问题传达给Commerce,Commerce可以澄清并提供更新。 数据伦理 人工智能系统仅与它们所训练的数据集一样好;促进公平结果的一种有效方法是确保商务部发布的数据集尽可能具有代表性和完整性。有偏见的数据集可能在多数或优势群体中占比过高,而在少数或弱势群体中占比非常有限。 这些数据集更有可能导致有偏见的算法。除了避免发布高度不平衡的数据集之外,商务部还应该清楚地记录数据集中群体之间的适度不平衡,并将用户指向现有的工具和文献,以减轻偏见。 我们建议跟踪数据的来源和修改,以识别和保护利益相关者的数据。GitHb存储库可以为Commerce提供一个有用的平台来记录数据集的来源:数据源,数据如何更改,谁负责维护数据,数据提供者和用户的义务。对于可能包含PII的数据集,访问限制许可证可以保护数据主体的隐私和财产权。