欧文费雪中央银行统计委员会 国际金融公司报告 13号 在中央银行使用大数据源和应用程序 欧文费雪中央银行统计委员会(IFC)进行的2020年调查 2021年2月 国际金融公司报告的贡献者1 BIS,国际金融公司何塞·玛丽亚·塞雷纳 布鲁诺·天梭 BIS塞巴斯蒂安·多尔 莱昂纳多·甘巴科塔 该出版物可在BIS网站(www.bis.org)上获取。 ©国际清算银行2021。保留所有权利。如果注明出处,可以复制或翻译简短的摘录。 ISSN1991-7511(在线) ISBN978-92-9259-436-7(在线) 1经济学家(Jose.Serena@bis.org);IrvingFisher中央银行统计委员会(IFC)秘书处负责人兼BIS统计与研究支持负责人(Bruno.Tissot@bis.org);经济学家(Sebastian.Doerr@bis.org);以及创新和数字经济部门负责人(Leonardo.Gambacorta@bis.org)。 所表达的观点是作者的观点,不一定反映国际金融公司、其成员或国际清算银行的观点。 我们感谢GiulioCornelli、AdeNurmemeMohdNoor、KunikoMoriya和LiMingOng的有益评论和建议,感谢 HaiweiCao、GiulioCornelli和AlexandraEnd的出色研究支持。 ii在中央银行使用大数据源和应用程序 内容 国际金融公司报告ii的贡献者执行摘要1 1.简介3 2.中央银行的大数据是什么?5 3.央行对大数据的兴趣7 4.中央银行的大数据工作8 支持央行主要职能的数据源9 四大类应用11 5.挑战13 6.展望:合作的好处16方框1:大支付数据17参考文献20 附件1:央行大数据使用情况调查23 附件2:回复调查的成员名单28 执行摘要 大数据源正在快速发展,利用这些新信息的应用正在蓬勃发展在平行下。这主要反映了数字化的影响,随着“物联网”的发展以及对文本等“传统”信息进行数字化处理的能力增强。这也是我们现代社会中发生的复杂操作的“有机”副产品而创建的大型数据库的结果。此外,在2007-09年大金融危机 (GFC)之后为应对发展带来的信息挑战而采取的重要数据收集策略推动了行政、商业和金融领域出现了大量数据的金融。 中央银行也不例外.近年来,他们对使用大数据表现出越来越大的兴趣,正如IrvingFisher中央银行统计委员会(IFC)(IFC(2017)、Nymand-Andersen(2016)、Mehrhoff(2019)、Tissot(2017)) 。央行大数据相关工作涉及多个领域,包括货币政策和金融稳定以及官方统计数据的研究和制作。然而,与私营部门的快速创新相比,支持中央银行运营工作的大数据应用最初是有限的。这反映了许多限制因素,例如缺乏足够的资源以及与使用大数据源支持公共政策相关的内在挑战。 展望未来,中央银行是否会赶上并从根本上改变其运作方式,以充分享受信息革命的好处?或者他们对大数据源和应用程序的使用是否会由于其任务和流程的固有特殊性而逐渐取得进展?为了阐明这些问题,2020年,国际金融公司组织了一项关于中央银行对大数据的使用和兴趣的专项调查 ,更新了五年前进行的前一个。2调查重点关注以下关键问题:什么构成央行的大数据,央行对大数 据的兴趣有多强?中央银行是否一直在增加对大数据的使用,如果是,主要开发了哪些应用程序?最后,中央银行目前面临哪些限制,如何克服这些限制? 调查的主要结论如下: 中央银行对大数据有全面的了解,其中可以包含非常不同类型的数据集。首先,它包括大量的“非传统”(或非结构化)数据,这些数据通常具有高容量、高速度和多样性的特点,并且必须使用创新技术进行处理。但对于三分之二的受访者来说,大数据还包括大型“传统”(即结构良好)数据集,这些数据集通常是“有机的”,从某种意义上说,它们是作为商业(例如支付交易 )、金融(例如在金融市场上观察到的逐笔报价)和行政(例如公共机构收集的文件)活动— —这些数据通常被称为“金融大数据”。 2在IFC的92家机构成员中,近三分之二的人回答了调查;调查问卷见附件1,参与机构名单见附件2。 中央银行越来越多地使用大数据。现在,大约80%的回应中央银行定期使用大数据;相比之下,2015年只有三分之一的受访者表示他们正在使用任何大数据源。此外,目前超过60%的高层政策层对大数据主题的兴趣被评为“非常重要”,而2015年这一比例不到10%。发达经济 体对大数据的兴趣尤其强烈(AEs)并在大量新兴市场经济体(EME)中迎头赶上。 中央银行利用的大数据源的范围是多种多样的。私营部门的一个关键来源是“物联网”,例如许多中央银行开发的应用程序,用于从在线门户网站获取数字信息(例如网上销售的商品价格)或文本格式(例如发布的消息)在社交媒体上)。另一个重要的信息来源是使用数字技术处理 的印刷材料中的文本。最后但同样重要的是,中央银行越来越多地使用以更“传统”方式收集的金融大数据集,例如信用登记处提供的资产负债表信息、逐笔贷款和逐个证券数据库、衍生品交易报告给交易存储库(TR)和支付交易。 大数据有效地用于支持央行政策。关于中央银行的货币政策和金融稳定任务,越来越多地使用新的数据库和技术来支持经济分析和临近预报/预测活动,构建实时市场信号并开发来自半结构化数据的情绪指标。正如在Covid-19大流行期间观察到的那样,这在不确定性或经济动荡时 期特别有用。大多数中央银行还报告说使用大数据进行微观层面的监管(Suptech和regtech ),越来越重视消费者保护;例如,评估不当行为、检测欺诈交易或打击洗钱活动。 该调查还强调了需要足够的IT基础设施和人力资本。许多中央银行已采取重要举措来开发大数据平台,以促进超大型和复杂数据集的存储和处理。但进展各不相同,反映出此类投资的高成本以及在实施这些举措时需要权衡各种因素。此外,中央银行需要雇用和培训员工,由于足 够熟练的候选人(例如数据科学家)供应有限,这很困难。 除了IT方面,中央银行还面临许多其他挑战.这些包括使用私人信息的法律基础以及由此带来的保护、道德和隐私问题,以及在预分类和/或不具代表性的数据集上训练的算法的“公平性”和准 确性。数据质量问题也很重要,因为作为经济或社会活动的副产品收集的许多新大数据需要在进行适当的统计分析之前进行整理。这与为特定目的(例如调查和人口普查)设计的传统官方统计来源形成鲜明对比。 此外,一个关键问题是确保基于大数据的预测不仅准确而且“可解释”和具有代表性,至于央行要开展循证政策,需要找出具体的解释性原因或因素。此外,大数据提供者所产生信息的透明度对于确保其质量可以得到检查以及公共决策可以在合理、清晰的沟通基础上做出至关重要。 最后, 在使用私人和机密数据时,有一些重要的法律限制会减少中央银行的回旋余地。 合作可以促进中央银行使用大数据,特别是通过收集和展示成功的项目并促进经验分享,例如在建立IT基础设施时避免重复他人的错误,或将资源集中在一起。特别是,在机构之间开展技 术讨论被视为在员工中培养必要技能并开发最适合中央银行(特殊)需求的相关IT工具和算法的有效方式。 国际金融机构可以帮助促进这种合作。例如,它们可以帮助开发内部大数据知识,减少中央银行对大数据服务提供商的依赖,这可能是昂贵的,并且会带来重大的法律和运营风险。它们还 可以通过推广技术解决方案和举措来促进创新,以加强全球统计基础设施。此外,他们可以在国际上提供资源或开发联合云计算能力,以降低在高度集中的市场中依赖特定提供商而产生的运营风险。 1.介绍 大数据源和人工智能(AI)、机器学习(ML)等相关创新信息技术越来越受到央行界的关注。这种强烈的兴趣并不是什么新鲜事,2015年在IFC成员中进行的先前调查(IFC(2015))已经强调了这一点。然而,三个关键的强化发展从那以后发生了:大型数据集变得越来越可用;以实用的方式处 理这些信息的新技术已经可用;中央银行一直在积极建立应对这种环境所需的IT基础设施;特别是 新的大数据平台,可促进超大型数据集的存储和处理,以及允许更快处理、深入统计分析和复杂数据模拟的高性能计算(HPC)(IFC(2020b))。 关于第一个发展,越来越多的海量数据可供使用,反映了几个因素。首先,所谓的数据革命,推动作为其他活动副产品收集的信息的“有机”增长(Groves(2011))。事实上,许多流程都会留下数 字足迹,从而导致创建大量记录。数字支付(例如通过信用卡或移动设备)的增加就是一个很好的例子。一方面,每笔交易都被详细记录,例如其金额、货币、受益人、目的和地点。此外,技术创新(金融科技支付)的使用正在促进金融包容性(CPMI-WB(2020))和以前非正式进行的交易的记录。另一个不断增长的数据来源是互联网搜索等基于网络的工具的广泛使用。3但是,“物联网”的范围要广泛得多,基本上包括所有连接数字的网络 3例如,谷歌趋势提供的搜索;请参阅trends.google.com/trends/?geo=US。 手机或物理传感器等设备。因此,越来越多的人类活动正在留下数字足迹,提供有关个人活动、位置和习惯的详细信息。从智能手机位置数据得出的移动趋势(例如,基于AppleMobilityTrendsReports4)就是一个例子。第三个关键来源是处理打印格式的能力不断增强,特别是通过扫描图片和文本。这允许以更易于处理的新方式访问文本(非结构化)信息。第四个来源是粒度结构化数据集的收集,与传统的抽样调查相比,这些数据集提供了有关感兴趣人群分布的更丰富的见解。全球金融危机之后发起的收集非常大的金融系统数据集的举措就是一个例证,通常频率很高(FSB-IMF(2009))。 谈到央行加息背后的第二个因素,从业者可以使用各种技术这有助于处理大型和复杂的数据集 o一方面,注意力集中在相对简单、用户友好的商业智能工具(IFC(2019a))上,该工具可以促进具 有各种功能的数据发现和可视化过程,例如向下钻取与跨钻取/直通功能,仪表板和交互式查询界面 o另一方面,可以依靠“大数据分析”来执行更复杂的分析,这些分析可以提供更快、更全面和更互联的洞察力(FSB(2017年))。许多中央银行专门开发了使用机器学习的应用程序,这是人工智能的一个子领域,它依赖于一系列自动优化操作来解决问题(Chakraborty和Joseph(2017年)) o他们拥有的一个关键优势是能够设计算法,随着新观察的出现,在连续迭代中自动改进自身(Doerr等人(2021))。这些技术应用起来相对简单,例如为了进行基本分析(例如使用字符串度量的文本内容评估),识别给定数据集中“相似”观察的集群,将分析集中在减少的维度上,并识别系统中元素之间的关系,以分析网络效应。然而,所涉及的计算也可能更加复杂,例如不需要人工干预的无监督机器学习算法和可以复制神经网络功能以检测各种格式数据(例如非结构化数据)中的模式的深度学习算法。.经验表明,中央银行越来越多地将这些更复杂的方法用于各种目的,从数据清理、临近预报和网络分析到用于文本分析的自然语言处理(Wibisono等人(2019年))。 三是各国央行积极发力建立利用大数据所需的IT基础设施.重点主要放在开发(i)可以处理非常大的数据集并处理半结构化或非结构化信息的平台(例如“数据湖”);(ii)支持快速和复杂统计分析 /模拟的HPC能力;(iii)相关的人力资源和技能(这需要在数据科学家、IT专家、经济学家和数学家/统计学家之间取得适当的平衡)。当然,实践中的进展是有限的,因为中央银行必须处理许多具体问题,例如相关硬件的选择、专有技术和开源技术之间的选择、在内部或云端开发解决方案的决定,以及要处理的信息类型。这样做 4请参阅https://covid19.apple.com/mobility。 因此,他们必须权衡各种因素,