您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:中央银行大数据应用情况 - 发现报告
当前位置:首页/其他报告/报告详情/

中央银行大数据应用情况

2022-08-15-未知机构梦***
中央银行大数据应用情况

国际清算银行:中央银行大数据应用情况 一、引言 大数据源和相关的创新信息技术(例如人工智能和机器学习)在中央银行界越来越受到关注。这种兴趣在2015年 国际清算银行进行的一次调查已经充分显示出来。而此后又出现了三个关键的新发展进一步增强了这种兴趣:一是大数 据集的可用性不断增强;二是切实可行的信息处理新技术的 出现;三是中央银行积极建立处理大数据所必需的IT基础架构,特别是新的大数据平台,用于促进超大型数据集的存储 和处理,进行高性能计算,从而加快处理速度,进行深入的统计分析和复杂的数据模拟。 (一)大数据集的可用性不断增强。 首先,数据革命推动了作为其他活动副产品的信息的有机增长。实际上,许多流程都留下了数字足迹,导致产生了 大量记录,如基于信用卡或移动设备的数字支付。一方面,每笔交易都记录有详细的详细信息,例如其金额、货币、收款人、目的和位置。另一方面,技术创新应用(如移动支付)正在促进普惠金融发展和以往非正式进行的交易记录产生。 其次,互联网搜索等基于网页的工具的广泛使用增加了数据 来源。物联网的覆盖范围则更广,基本上包括所有已连接的数字设备的网络,例如移动电话或物理传感器。它们使人类 活动留下越来越多的数字足迹,该足迹提供有关个人活动、位置和习惯的详细信息,例如从智能手机位置数据得出个人 的活动趋势。再次,处理纸质材料的能力不断增强也增加了 数据来源,这允许以更易于处理的新方式访问文本等非结构化信息。最后,细粒度结构化数据集的收集扩充了数据来源。与传统的抽样调查相比,这些数据集可向人们提供更多感兴 趣的数据分布。全球金融危机之后发起的,频繁收集金融系统大量数据集的举措便证明了这一点。 (二)信息处理新技术的出现。 一方面,中央银行的注意力主要集中在相对简单、用户 友好的商业智能工具上,该工具可以促进数据发现和可视化流程,并具有多种功能,例如挖掘能力、仪表板和交互式查 询界面。另一方面,它们也依靠大数据分析进行更复杂的分 析,以便从数据中发现更快速、更全面和更紧密的见解。许多中央银行专门使用机器学习开发了应用程序。机器学习是人工智能的子领域,它依赖于一系列自动优化操作来解决问题,其主要优势是能够设计算法,该算法可以随着新观测的出现而在连续迭代中自我完善。这些技术的应用可能相对简单,例如,进行基本分析(使用字符串指标进行文本内容评估等)、识别给定数据集中相似观察结果的聚类、降维分析、确定系统中元素之间的关系以便分析网络影响。然而,所涉及的计算也可能更加复杂,例如无监督机器学习算法(这种 方法几乎不需要人工干预)和深度学习算法(可以复制神经网络的功能以检测非结构化数据等各种格式的数据中的模式)。经验表明,中央银行越来越多地将这些更复杂的方法用于各种目的,从数据清洗、临近预报、网络分析到用于文本分析的自然语言处理。 (三)中央银行一直致力于建设利用大数据IT基础架 构 中央银行的这些工作重点主要放在:一是开发可以处理 非常大的数据集并处理半结构化或非结构化信息的平台(例如数据湖);二是开发高性能计算能力,以支持快速和复杂 的统计分析或模拟;三是培育相关的人力资源和技能(这要 求在数据科学家、IT专家、经济学家和数学家或统计学家之间取得适当的平衡)。当然,由于中央银行必须处理许多具体问题,例如相关硬件的选择、专有技术和开源技术之间的选择、内部开发或在云中开发解决方案的决策以及要处理的信息类型,因此在实践中进展有限。为此,他们必须权衡各种因素,例如技术趋势、系统复杂性、成本、性能、可靠性、操作模型和安全需求。 为了阐明这些问题,国际清算银行于2020年决定更新 其在2015年开展的央行对大数据使用和兴趣的调查。目的是回顾中央银行在使用大数据集和相关新技术方面的经验和进展。具体来说,国际清算银行旨在涵盖以下四个主要问 题:一是中央银行如何定义大数据以及数据来源。二是中央 银行是否已经使用大数据,涉及的主要应用程序以及他们的工作目的。三是中央银行所面临的挑战以及这些挑战是否阻 碍了大数据的更广泛使用。四是各中央银行未来使用大数据 的具体项目计划以及央行合作可以发挥的作用。作为附件,该调查还更详细地研究了中央银行如何使用大型支付数据集,这一领域具有快速创新的特点。 本报告概述了国际清算银行调查的主要结论。第2节总结了中央银行如何定义大数据,并确认它们的方法通常包括非结构化和大型结构化数据集。第3节记录了中央银行对使 用大数据的兴趣类型。第4节介绍了支持其当前大数据工作 的主要应用程序。第5节回顾了中央银行使用大数据的未来 前景,包括预期的挑战和解决这些挑战的计划。第6部分讨论了中央银行在短期内计划开展的项目以及国际合作可以带来的好处。 二、什么是央行的大数据 大数据通常由所谓的三“V”来定义——即容量(例如记录和属性的数量)、速度(例如数据产生的速度)和种类(例如数据集的结构和格式)都远远高于普通数据。实际情况要更加复杂,大数据可以包含由多个过程生成的信息,例如社交媒体、网页、机器传感器或财务、行政及及运营活动。对发达经济体和新兴市场经济体的调查结果证实了这种综合 的大数据观点。大约三分之一的中央银行认为大数据的概念仅包括非传统数据,其余三分之二的央行认为还应该包括传统的大型数据集。例如,为行政、管理或监督目的而收集的数据通常被称为金融大数据,这些数据集通常是结构化的。根据调查,当应用于大数据集时,诸如描述性分析、归 纳统计(例如计量经济学)或非参数分析之类的传统统计技术受到限制,所以广义的大数据定义包括需要非标准技术才能进行分析的所有类型的数据集。当处理文本或图像等非结构化数据时,困难更加明显。对非结构化数据进行分析需要提取可转换为结构化数据的信息,例如使用自然语言处理算法以数字方式处理人类语言。 根据调查结果,中央银行的大数据集主要包括:需要新工具进行预处理的非结构化数据、在时序上产生大量观察值的数据集、在横截面上产生大量观察值的数据集、不属于传统数据池的数据集、结构化的传统数据库及其他数据。通过上述分类方法,中央银行的大数据可分为几种不同类别的大数据源。超过90%的受访者认为包含“需要新工具进行预处理的非结构化数据”,比如产生于社交媒体的文本消息、从互联网上抓取的图像、传感器及其他连接的设备发送的信息。产生于物联网的这类信息不一定很大,但它很复杂,并且无法用适合于数值数据集的传统统计技术轻松地进行管理,它需要特定的工具才能进行清理和准备,而且在许多情况下, 必须从设备提供商那里获取已经汇总并组织好的数据。这里列举获取非结构化数据的三个重要例子,一是通过定位系统获得的总体通勤趋势生成出行报告,并且能够支持在2020 年新冠疫情期间监测住户进入工作场所和娱乐场所的情况。二是互联网搜索(例如GoogleTrend)可用于确定某些经济 因素,例如对劳动力市场动态的期望。三是获取印刷形式的 文本信息,例如报纸文章,企业的财务报表,官方新闻发布等。 约80%的受访者认为大数据包含“时间序列中具有大量观察结果的数据集”,这通常包括大型的结构化金融大数据集。除此之外,还有其他全新类型的数据集,尤其是在全球金融危机后监管改革的背景下收集的数据集,比如现在报告给交易信息库(TR)的个人衍生品交易,就产生了具有多属性、高频率的大型数据库。 超过75%的中央银行认为央行大数据包括“在横截面上产生大量观察值的数据集”和“不属于传统数据池的数据集”。其中一个涉及的数据不是新数据,但过去并未被中央银行分析为传统统计数据的一部分,比如付款交易,这些数据主要是出于市场监控目的而收集的,近年来,中央银行越来越多地尝试更有效地使用它们,以便进行经济分析。另一个涉及横截面数据集,这些数据集提供了对整个目标人群的观察,并在一个时间点具有多个属性,如征信记录,逐笔收集贷款 数据,其信息并不是很新,已经收集了很多年,但是创新IT工具正在简化此类分析。过去,此类信息主要是通过明确的小组调查收集的,扩展的IT功能现在允许在不同的时间点收集更丰富的数据库,可覆盖整个感兴趣的人群(如人口普查工作)。 三、央行对大数据的兴趣 调查显示,与2015年的相比,近年来中央银行对大数据的兴趣明显增加。45%的中央银行在正式的审议中讨论大数据这一话题,远高于2015年12%的比例;同时,只有15%的央行表示,大数据这个话题仍未在其机构中被正式讨论,低于2015年的35%。在高级政策层面,兴趣的增长速度甚至更快。在接受调查的中央银行中,有近65%的高级官员对大数据有浓厚的兴趣,高于2015年的不到10%。 中央银行关于大数据的内部讨论重点内容非常广泛。约70%到90%受访者说,内部讨论主要涉及数据存储问题、员工IT技能、IT基础架构的可用性、数据访问以及组织和法律主题。相比之下,数据战略的制定以及网络安全方面的议程显得不太突出。 但是,根据经济发展水平,情况略有不同。例如,虽然近三分之二的发达经济体的中央银行认为大数据非常重要,但在发展中经济中有一半的受访者认为大数据重要性一般。此外,关注的问题略有不同,在发达经济体中最受关注的三 个问题是:如何存储数据、人力资本问题和基础架构可用性;而在发展中经济体中的讨论主要集中在基础架构和数据可用性上。这些差异可能反映了中央银行大数据发展的不同阶段,即尽管许多位于发达经济体的央行已经在积极探索如何利用大数据,但一些在发展中经济体的同行似乎仍在努力获取对大数据的基本访问权。 四、央行在大数据方面的工作 相对于2015年,中央银行对大数据的使用显著增加。现在,超过80%的受访中央银行在工作中使用了大数据(2015年为30%),其中50%用于探索性目的,比如进行项目试点。尽管如此,大数据工作已经开始运作,其中三分之一的案例由大数据提供政策依据。发达经济体的使用更为频繁,其中几乎一半的辖区依据大数据源做出决策,相比之下,发展中经济体中有五分之一的受访者根本不使用大数据。 (一)支持中央银行主要职能的数据来源 中央银行在使用大数据时会依赖各种各样的资源,这与他们对大数据概念的理解相一致。一是非结构化数据集,例如,许多中央银行已经通过自然语言处理从报纸中提取文本,以量化定性因素(比如情绪影响与经济发展的不确定性),或利用基于互联网的信息(例如搜索查询)。二是金 融大数据集,这些数据集由于其高粒度而难以处理,例如,信用登记或基于事务级别收集的支付数据。 调查显示,正在应用的大数据项目涵盖了央行的主要职能。约75%的中央银行将大数据用作经济研究的输入;大约60%央行利用大数据来支持金融稳定、支持监管科技等微观金融应用以及进行统计汇总;约50%的央行将大数据应用于货币稳定。 总体而言,与发展中经济体(80%)相比,发达经济体中大数据使用更为频繁(95%),用于支持中央银行两个关键政策领域(货币和金融稳定)的项目尤其如此,而用于统计编制目的大数据项目在发达经济体和发展中经济体没有明显差别。 (二)四种主要的应用程序类型 中央银行承担的大数据项目主要涉及四种类型的应用程序,分别是:自然语言处理、临近预报演习、从细粒度的金融大数据中分析总体经济情况的应用以及监管科技应用程序。 1.通过自然语言处理来处理文本信息。其中一个应用是 收集基于文本的定性信息并对其进行定量汇总。比如计算经济政策不确定性(EPU)指数,以评估经济主体所面临的不确定性程度。这些指数基本上是通过建立数据字典来构建的,允许定义涉及不确定性的术语,然后在文本中进行搜索 (例如在报纸文章中),并对这些术语进行计数和汇总,以便提供一个综合索引,反映所关注的文档中显示的不确定性 程度。另一个应用与政策评估有关。例如,人们可以量化通过发布会议纪要将货币政策传达给公众,同样,可以通过在政策会议之前分析市场评论来评估利率决策的市场期望。此类分析可以经常更新,与传统的市场参与者调查相比,这是一个很大的优势。当未来市场发展不完善或缺乏流动性时,根据市场期望收集的信息可能特别有用。相反,到目前为止,使用文本数据来告知金融稳定政策的情