的全球智能 丹妮尔·戈尔达夫布 特别报道数字数据与先进AI,打造更丰富 的全球智能 丹妮尔·戈尔达夫布 信誉 加拿大国际治理创新中心(CIGI)是一家独立的、无党派的研究机构,其经过同行评审的研究和可信分析影响了政策制定者进行创新。我们全球范围内的跨学科研究人员和战略合作伙伴关系,致力于为数字时代提供政策解决方案,目标是改善世界各地人们的生活。总部位于加拿大滑铁卢,CIGI获得了加拿大政府、安大略省政府以及创始人吉姆·巴西利的支持。 主席,CIGI保罗·萨姆森主任,项目管理迪安娜英语项目经理珍妮·塞伊尔出版物编辑苏珊·布巴克高级出版物编辑Jennifer Goyder平面设计师Sepideh Shomali About the CIGI The Centre for International Governance Innovation (CIGI) is an independent, non-partisan think tank whose peer-reviewed research and reliable analysis inspire decision-makers to innovate. Thanks to its global network of multidisciplinary researchers and strategic partnerships, CIGI offers policy solutions adapted to the digital age, with the sole aim of improving the lives of people around the world. CIGI, with itsheadquarters in Waterloo, Canada, enjoys the support of the Government of Canada, the Government of Ontario, and its founder, Jim Balsillie. 版权所有©2025 由国际治理创新中心 本出版物中表达的观点是作者的个人观点,并不一定反映国际治理创新中心及其董事会成员的观点。 关于出版物咨询,请联系publications@cigionline.org。 本作品文本采用CC BY 4.0许可协议。欲查看许可证副本,请访问http://creativecommons.org/licenses/by/4.0/。如需重新使用或分发,请包含此版权声明。本作品可能包含内容(包括但不限于图形、图表和照片),这些内容系根据许可或第三方许可使用或复制。复制此内容需直接从第三方获得许可。 中心国际治理创新以及CIGI为注册商标。 目录 我关于作者1Executive Summary执行摘要3简介5人工智能进步实现大规模快速新数据采集6从新兴实验中学习19治理实时数据世界20结论21参考文献 关于作者 丹妮尔·戈尔达夫布是一位CIGI高级研究员,数字经济、实时数据、国际贸易和公共政策方面的顾问和专家。她还是伍德罗·威尔逊中心加拿大研究所的全球研究员、加拿大亚太基金会的高级研究员、Mila - 魁北克人工智能研究所公共政策顾问,以及全球事务与公共政策学院的高级研究员。她的TEDx演讲《预测未来的最聪明方式》探讨了利用新技术解决数据偏差、提高预测能力。 丹妮尔是2025年1月写作团体的一员。国际人工智能安全报告她主持加拿大商业与经济协会的“经济学家的新工具”系列研讨会,并在Munk学院授课。丹妮尔曾在C. D. Howe研究所、加拿大会议委员会和实时交互式全球智能公司(一家实时数据公司)领导过新颖且前沿的研究。 丹妮尔拥有剑桥大学国际关系硕士学位,以及麦吉尔大学荣誉经济学学士学位。 Executive Summary执行摘要 这份特别报告探讨了数字数据集和人工智能(AI)的进步如何及时、透明、详细地洞察全球挑战。 数个实验展示了这些工具在公共利益方面的潜在用途。例如,研究人员正在利用人工智能的进步,快速收集数百万家在线超市的价格,创建替代的、更及时的通货膨胀指标。一家航运数据公司应用机器学习分析船舶传感器数据,揭示了西方国家实施制裁后,俄罗斯创建影子石油市场的速度。学术研究人员结合私营部门的在线税务、职位列表、信用卡和工资数据,揭露了COVID-19大流行对低收入工人长期的经济影响。中国突然调整零COVID政策后,在线搜索、卫星图像和智能手机位置显示,官方指标大大低估了健康负担,高估了经济复苏。而在最贫困国家,越来越多的实验利用丰富的卫星图像、移动数据和机器学习,形成更详细、更频繁的条件图景,包括偏远地区。 这些实验展示了政府和民间社会分析师如何能够重复利用数字数据,以发现新兴问题,分析特定群体的影响,补充传统指标,或验证可能被篡改的数据。人工智能技术的最新进展进一步扩展了可用的新型数据类型,从而提高了透明度和细节程度。大型语言模型(LLM)可以快速、准确地对大量文本和图像进行分类,并实现不同语言之间的无缝翻译。由此产生的更加完整和透明的图景,使政策制定者能够更有效地应对挑战,同时也对其进行问责。 人工智能和数据治理不应仅限于解决危害。国际机构和政府需要积极管理数字数据和人工智能工具,以支持我们对社会最大挑战理解的重大转变。他们应在数据稀缺、滞后或不完整的地方、涉及关键公共利益问题的地方以及市场激励不足的地方进行投资。他们还需要认识到这些方法的局限性,避免依赖单一指标,维持并增加对基础数据的投资,将私营部门数据纳入公共数据池,并应用透明度、伦理和隐私框架。 简介 为更好地预测、理解和应对本地及全球事件和问题,政府、国际机构和民间社会的分析师需要获取可靠、准确和及时的信息。 这份特别报告探讨了数字数据集和人工智能的发展潜力,以建立传统指标并加深我们对世界的理解——进而提高我们应对全球挑战的能力。它还考虑了政府或学术界分析师在有效利用这些工具时需要面临的挑战。 分析建立在之前的论文(Goldfarb 2024)之上,该论文探讨了在先进经济体中数字数据集的出现,以提供更及时、更详细的测量。本报告探讨了世界各地的一系列更广泛的实验,其中使用数字数据——以及新出现的AI工具——可以或可能提供一个更透明、更详细、更及时的画面。例如,在生成式AI方面的主要进展使得从文本和图像中以及多种语言中收集新类型的数据成为可能。 仅传统的数据无法满足当今的信息需求。 几十年来,政府、统计机构和国际机构在监控局部和全球状况的官方措施方面进行了投资。这些指标,包括调查、海关数据和行政记录,成为信息支柱,大大提高了决策的证据基础。 随着经济和社会变得越来越复杂和数字化,传统数据未能跟上这种演变。 决策者越来越需要更及时、更详细的信息。然而,官方系列往往缺乏本地细节或特定群体的细节。它们也系统地落后于现实几周、几个月甚至几年,而且一些关键经济数据,如就业数据,在公布后经常大幅修订。滞后数据可能代价高昂:例如,如果美联储在2007年12月(美国进入衰退时期)而不是在2008年12月(经济学家最终在数据中看到它)将利率降至接近零,那么全球金融危机可能就不会那么有害。 发达世界官方调查回应率正在下降,引发了准确性担忧。例如,在加拿大,劳动力调查回应率从2019年的87%下降到了2023年的71%,这种趋势并非完全归因于大流行期间的资料收集方法(加拿大统计局2023年)。 此外,随着经济和社会变得更加复杂和数字化,传统数据没有跟上这种演变。美国统计机构——被认为是世界上最具资源之一的——发现很难产出及时、可信和相关的统计数据以满足“21世纪的证据需求”(美国统计学协会2024)。 近年来,国家统计机构和国际机构一直在积极努力,现代化它们解决这些问题的方法。 表1展示了部分样本数字化数据类型及其相关的样本公共利益应用。政府、国际机构和民间社会的分析师正在尝试这些新颖的数据类型,以对一系列社会挑战获得更清晰的了解,从追踪疾病爆发到确定近实时移民需求。 人工智能进步实现大规模快速新数据采集 人工智能的进步极大地扩展了为公共利益目的收集、整理和从数字数据中提取意义的可能性集合。 大型语言模型(LLM),在庞大的文本数据集上训练,现在可以“理解”上下文,因此能够从文本或图像中提取和分类非结构化数据(进入行列、表格和列的格式化信息)。LLM能够分析全球新闻文章以发现早期疾病爆发的信号或经济指标,从职位发布中提取劳动力市场见解,以及从信息公开请求数据库中综合政策发展。 表2展示了现在不同公共利益领域中可用的数据类型示例,从传统的结构化数据到结构化数字数据再到非结构化数字数据。 数据。能够对非结构化数据进行分类和提取意义,意味着现在可以将结构化和非结构化数据的洞察相结合,为社会的、经济的、技术的或地缘政治的发展提供一个更全面的画面。在最新的AI进展之前,这是不可能做到的。 研究人员还利用其他人工智能技术从数字数据集中提取意义和预测。一个例子是使用神经网络从在线搜索数据中学习经济趋势。这种技术通过从许多国家的经验中学习来弥补每个国家在线搜索历史数据的缺失(同上)。 从新兴实验中学习 本报告审视了全球范围内的一些实验,这些实验展示了利用数字数据和人工智能进步来提高对关键问题理解潜力和挑战。每个案例都确定了信息差距,以及如何利用新的数据集或与人工智能进步相结合来解决这些差距,以及从中涌现的一些经验教训。 从研究论文、访谈、博客、新闻报道以及作者自身与数字数据集工作的经验等多种来源汲取,该报告探讨了行业、金融或公共政策领域人士的实验,以及独立学术界或智库的实践。 研究。这项分析颇具挑战性,因为许多实时数字数据集并未公开提供,且数据收集方法通常不透明。对数字数据运用占主导地位的对冲基金和AI公司——很少透露他们的来源或方法论。即使是对公开提供的数据集进行收集的方法也不总是透明的。 此外,AI公司使用庞大的数据集来训练LLMs,通常不关注公共利益问题。另外,许多AI模型难以解释其决策过程。同样,对冲基金利用非传统数据以获取竞争性市场情报。他们的目标是通过利用这些本应不为公众所知的成果来产生超额市场回报。他们保密自己的分析,很少公布研究结果。当分享任何信息时,这些信息也不关注公共利益问题。 现有的公共领域实验,如学者或中央银行的实验,往往集中在具有可靠数据基础设施的发达经济体。这些实验可能具有极高的价值,为我们对发达经济体事件或问题的理解增添时效性、新维度和细节。在数据匮乏环境中进行的实验较为少见。 由于这些限制,这项分析在某些地方是不完整的或概念性的。其目标是突出这些数字数据加上人工智能的进步为我们理解社会挑战所带来的重大转变,以支持更明智的决策和更好的结果。 案例1:验证和衡量通货膨胀 本报告从最早的广泛知名案例开始,这一案例是通过收集海量且之前未被开采的基于网络的数据来挑战、确认或补充传统数据的。本案例聚焦于通货膨胀:通货膨胀率是中央银行、企业和个人作出的经济决策的核心。透明的、及时的、详细的和可靠的通货膨胀数据对于制定更有针对性的经济政策决策至关重要。 《十亿价格项目》(BPP)是为了回应一种信念而产生的,即阿根廷政府在2007年至2015年间对通货膨胀的估计严重偏低(Cavallo和Rigobon 2016)。学术研究人员从阿根廷大型超市网站收集了价格数据,目的是获取通货膨胀的替代性衡量标准。BPP的估计显示,阿根廷的通货膨胀率是官方数据的3倍(同上,图1)。 研究人员还表明,这些在线价格指数与大多数国家的消费者价格指数协同变动(参见上文)。即使在像美国这样官方数据相对可靠的国家,这些数据也一直是官方数据的重要验证者。 BPP的继任项目PriceStats,基于来自25个主要经济体数百家零售商的每日网络价格数据,提供基于食品、服装、电子产品、家具和能源等关键领域的每日通货膨胀更新。1目标是根据实时观