确定临近预报模型的最佳指标和滞后项 京谢WP/23/45 基金组织工作文件描述了作者正在进行的研究,并发表这些研究以征求意见并鼓励辩论。 基金组织工作文件中表达的观点是作者的观点,不一定代表基金组织、其执董会或基金组织管理层的观点。 2023 3月 ©2023年国际货币基金组织(imf)wp/23/45 国际货币基金组织的工作论文 能力发展研究所 确定谢静准备的临近预报模型的最优指标和滞后项 授权分销的保罗·卡 2023年3月 基金组织工作文件描述了作者正在进行的研究,并发表这些研究以征求意见并鼓励辩论。基金组织工作文件中表达的观点是作者的观点,不一定代表基金组织、其执董会或基金组织管理层的观点。 文摘:许多中央银行和政府机构使用临近预报技术来获取有关商业周期的政策相关信息。然而,现有的临近预报方法在这方面有两个严重的缺点。首先,与机器学习模型相比,它们并没有提供太多的指导,即从临近预报者可用的(通常)更大的变量集中选择最佳外植变量(高频和低频指标)。其次,除了选择解释变量外,基线临近预报回归中使用的自回归和移动平均项的顺序通常是任意设置的 。本文提出了一种简单的程序,可以同时为基线临近预报回归选择最优指标和ARIMA(p,q)项。所提出的AS-ARIMAX(具有外生变量的调整逐步自回归移动平均方法)方法显着减少了六个国家(包括印度,阿根廷,澳大利亚,南非,英国和美国)实际GDP临近预报的样本外均方根误差。 冻胶分类数字:C32、C53E37E52011关键词:临近预报;混合频率;预测;商业周期作者的电子邮件地址: *确认: 我要感谢SamOuliaris先生在整个研究中提供的工具性指导,并感谢PaulCashin先生,FeiHan先生,IvySabuga女士,AlexanderBorodin先生和能力发展研究所同事的有益评论。我也感谢ElisaManarinjara女士在出版过程中给予的支持。 工作底稿 确定临近预报模型的最佳指标和滞后项 由京谢 内容 数据 图1现实预测评估:三个基准模型17 图2实际预测评估:桥式和U-MIDAS模型18 表 表1:临近预报印度实际GDP的预选数据7 表2自动ARIMA逐步变量选择-步骤1和2结果8 表3自动ARIMA逐步变量选择-步骤3结果8 表4自动ARIMA逐步变量选择–所选基线模型9表5自动ARIMA逐步变量选择–调整基线模型9表6所选基准模型14 表7序列相关检验:Q统计15 表8正态性检验:Jarque-Bera检验15 表9异方性检验:布鲁施-异教-戈弗雷检验15 表10预测评价比较:rmse16 表11预测评估比较:TheilU216 表12其他国家的预测评估比较:RMSE19 第一节。介绍 当COVID-19大流行或全球金融危机等重大经济冲击发生时,政府通常会使用反周期政策来减轻对实际国内生产总值(GDP)的负面冲击的严重程度。这种以证据为导向的逆周期政策需要及时了解相对于趋势的经济状况。不幸的是,由于以下原因,所需的数据通常不可用:(a)由于出版滞后或更一般地说,缺少数据点而产生的所谓“粗糙边缘”问题,特别是在实际GDP的情况下(Wallis,1986)和(b)关键经济指标可用的混合/不兼容频率(Armesto,Engemann,&Owyan,2010)。 许多中央银行和政府机构使用临近预报技术(例如,桥接、混合数据抽样和动态因子模型)来解决这些问题。例子包括欧洲中央银行 (Bańbura等人,2013年),马耳他中央银行(Ellul和Ruisi,2022年)和亚特兰大联邦储备银行(Higgins,2014年)。临近预报-预测“此时此地”的艺术-能够使用具有相似或更高频率的更及时的指标实时预测较低频率的变量(例如实际GDP和通货膨胀)。标准临近预报模型通常包括两个步骤:(a)预测首选基线临近预报回归中的高频指标,以消除不规则边缘问题;(b)预测基准临近预报回归中的高频指标,以消除不规则边缘问题;(b)预测基准临近预报回归中的高频指标,以消除不规则边缘问题;(b)预测基准临近预报回归中的高频指标,以消除不规则边缘问题;(b)预测基准临近预报回归中的高频指标,以消除不以及(b)将高频指标转换为基线回归的目标频率。这种转换的进行方式确定了所使用的特定临近预报程序(见第5节)。 然而,现有临近预报方法的一个关键缺点是,它们不能为选择基线回归中包含的右侧变量(通常是外生变量)提供足够的指导。此外,在基线回归中使用的自回归(AR)和移动平均项(MA)的适当顺序很少被讨论,并且经常是任意设置的。事实上,据我们所知,没有多少临近预报练习使用具有外生变量的ARIMA模型(即ARIMAX模型)。 有趣的是,一段时间以来,医学研究人员已经成功地使用ARIMAX模型将谷歌流感趋势作为外源变量来预测流感爆发,与使用更标准的基线模型相比,平均绝对误差(MAE)显着降低,以前的流感水平仅作为解释变量(Preis&Moat,2014)。 本文研究了ARIMA模型对实际GDP等关键经济变量的临近预报的有效性。我们提出了一个简单的程序,用于从更大的经济变量集中选择具有经济意义的指标(从某种意义上说,它们的估计系数与经济先验一致)、具有统计意义,并且在提高临近预报的准确性方面是有效的。 以印度的实际GDP为例,我们表明,应用一个简单的变量选择程序,除了最佳选择的解释变量外,还允许ARIMA(p,q)项,相对于不使用拟议变量选择程序制定的基准模型,显着提高了Bridge和U-MIDAS估计器的临近预报性能。 本文的其余部分组织如下:在第2节中,我们回顾了EViews中可用的自动ARIMA估计程序。第3节提出了一个“调整后的逐步 ARIMA变量选择程序(以下简称AS-ARIMAX)”,以确定“最佳”ARIMA阶和外生变量 临近预报1.该方法使用EViews的自动ARIMA选择程序和自定义代码实现。第4节和第5节定义了我们用于实证研究的三个基准和两个临近预报模型。第6节和第7节将AS-ARIMAX方法应用于印度的实际GDP,相对于基准临近预报模型产生了显着的预测收益。第8节采用AS-ARIMA方法对另外五个国家的实际国内生产总值进行临近预报,以进一步证明该方法的效率和适用性。第9节结束。 第二节。自动ARIMA选拔程序 尽管EViews为用户提供了使用传统(非自动化)Box-Jenkins方法确定ARIMA模型阶次的综合工具,但由于难以将数据的相关图与特定的ARIMA模型相匹配,该过程可能非常耗时,并且存在很大的错误识别风险。为了提高效率和模型识别,EViews还提供了自动ARIMA模型选择程序,以帮助用户自动确定合适的ARIMA规格。此过程涉及以下步骤(EViews用户指南I,第538-540页): 第1步。选择因变量的适当变换 EViews运行以下两个回归来确定适当的转换方法: ()2=1+1(1) ()2=2+2()(2) 这些回归中的每一个都是异方差性的简单检验,其绝对t统计量较低提示同质性多于异方性。EViews使用对数转换,如果绝对t统计量 比这小.自然对数变换适用于具有指数增长率的序列,这些序列通常受到异方差的影响(因为变化是非恒定的)。给定对数变换使关系线性化,则这是低于提示回归(2)表现出相对更多的同性。因此,日志转换更合适。 第2步。选择因变量的差分级别 在确定适当的变换方法之后,必须确定对因变量使用的适当差分级别。EViews使用连续的KPSS单位根检验,以及平稳性的原假设来确定正确的差分水平。基于Hyndman和Khandakar(2008)的工作,EViews运行连续的单位根测试,如下所示:KPSS测试首先在未转换的数据上运行。如果测试拒绝平稳性,则使用差异数据重新运行KPSS测试。这个过程一直持续到EViews不能再拒绝平稳性的原假设。 步骤3。选择外生解释变量 1作者已经开发了EViews代码来实施AS-ARIMAX程序,并很乐意将其提供给感兴趣的各方。如有此类请求,请联系谢静(jxie2@imf.org)。 EViews允许用户指定要包含在ARIMA选择过程中的外生回归量。默认情况下,包含一个常量项。我们将在第3节中定义我们提出的输入外生回归器的方法。 步骤4。选择ARIMA的顺序 以用户指定的外生变量为条件,EViews使用标准模型选择标准来确定最适合一组数据的ARIMAX模型。EViews提供标准信息标准(赤池信息(AIC),施瓦茨(SIC或BIC)和汉南-奎因(HQ))以及均方误差(MSE)作为模型选择标准。有关这两种型号选择标准的基本公式,请参见下文。 信息标准:这三个标准中的每一个都基于拟合模型的估计对数似然、参数数量和模型中的观测值。首选信息准则最小的模型。 𝐴𝑘𝑎𝑖𝑘�𝐼𝑛𝑓�𝐶𝑟𝑖𝑡𝑒𝑟𝑖𝑜𝑛(𝐴𝐼𝐶):−2( 1 )+2() 𝑆𝑐ℎ𝑤𝑎𝑟�𝐶𝑟𝑖𝑡𝑒𝑟𝑖𝑜�(𝑆𝐶):−2()+ ( ) □ □() 𝐻𝑎𝑛𝑛𝑎�−𝑄𝑢𝑖𝑛�𝐶𝑟𝑖𝑡𝑒𝑟𝑖𝑜�(𝐻𝑄):−2()+ □ 在哪里是似然函数的对数值,是使用T观测值估计的参数数。 均方误差(MSE)评价:这也称为样本内预测评估,其中每个模型使用子样本(即前80~90%的数据)进行估计,并对剩余数据(即10~20%)进行预测。然后根据 1 ()= ℎ ∑(𝑦� �=𝑇−ℎ −�)2 在哪里ℎ是预测子样本中的期间数,𝑦�是实际的数据,�是预测在时间t,�是样本中的观测值数。选择具有最小MSE的模型。 EViews自动ARIMA选择程序以用户预先指定的外生变量为条件。也就是说,该过程仅确定自回归和移动平均订单,而不允许自动外生变量选择。在下一节中,我们将介绍一个调整的逐步ARIMAX(AS-ARIMAX)过程,该过程为任意一组外生变量提供定制的逐步选择过程。 第3节.调整后的逐步ARIMA变量选择程序和简单示例 逐步模型选择程序,即根据候选变量的统计显著性在回归中添加或删除变量,已被广泛用于寻找首选的基线预测/临近预报模型。该过程从从最通用的模型向后消除或从尽可能小的模型中向前包含开始。通过前向选择,候选变量将根据显著性水平按顺序添加到模型中 。该过程检查是否所有变量都具有统计显著性,并删除那些不具有统计显著性的变量。通过向后选择,所有候选变量最初都会添加到模型中,如果单个变量不显著,则会将其删除。请注意,如果随后确定“删除”变量具有统计显著性,则该过程将重新引入“丢弃”变量(Chowdhury&Turin,2020年)。 尽管近几十年来逐步模型选择程序很受欢迎,但批评仍在继续出现。Smith(2018)认为,逐步回归的根本问题是,它可能会绕过对因变量有因果影响的解释变量,但包括巧合地具有统计意义的令人讨厌的(虚假)变量。这样的结果通常会导致良好的样本内预测拟合,但较差的样本外预测。 为了解决这些问题,我们提出了一个改进的逐步程序,将重点从统计显著性转移到可归因于特定外生变量(指标)的整体预测改进。从模型中除常量项外没有外生变量开始,我们单独测试每个变量,如果其估计系数与经济先验一致并产生卓越的模型预测性能,则将其添加到基线模型中。 具体来说,我们决定是否一个变量()是一种基于合适的候选人三个标准: 条件1:𝑋�降低赤池信息标准(AIC)值,与没有𝑋𝑡. 条件2:系数的迹象𝑋�匹配经济先知先觉。 条件3:𝑋�在5%置信水平下具有统计显著性。 调整后的逐步ARIMAX(AS-ARIMAX)变量选择程序涉及四个步骤详细的过程图)(见附件1: 第一步:我们添加第一个候选指标作为目标变量(模型1-A)的自动ARIMA程序的外生回归量。