您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾景大数据研究院]:基于腾景AI高频模拟和预测腾景高频和宏观研究团队:大数据疫情观察(二):全国疫情高峰过了么? - 发现报告
当前位置:首页/其他报告/报告详情/

基于腾景AI高频模拟和预测腾景高频和宏观研究团队:大数据疫情观察(二):全国疫情高峰过了么?

2022-12-23腾景大数据研究院温***
基于腾景AI高频模拟和预测腾景高频和宏观研究团队:大数据疫情观察(二):全国疫情高峰过了么?

腾景宏观快报 大数据疫情观察(二):全国疫情高峰过了么? ——基于腾景AI高频模拟和预测腾景高频和宏观研究团队 相关报告 《腾景宏观快报:大数据疫情观察:中心城市率先迎来峰值》2022-12-16 《腾景宏观快报:美国11月CPI同比继续加速回落,或为7.3%》2022-12-03 《腾景宏观快报:类通缩状态下,大规模消费刺激或将成为2023年实现5%左右潜在增长水平的关键》2022-11-29 联系我们 010-65185898|+86 15210925572 IR@TJRESEARCH.CN http://www.tjresearch.cn 北京市朝阳区朝阳门外大街乙6号朝外SOHO-A座29层 本期要点: •针对预测到底准不准,全国疫情是否已经见顶的问题,我们增加了28个城市的地铁客运量日度数据进行辅助判断。非网民样本的缺失可能会导致预测结果有偏。 •大数据不完美,应用大数据做宏观经济预测并非完美无缺,我们分析了谷歌流感趋势何以失灵。原因可能包括:媒体对谷歌流感趋势(GFT)的大幅报道导致人们的搜索行为发生了变化,用户的搜索行为反过来也会影响GFT的预测结果。 •当前全国疫情或尚未达峰,但是达峰进程可能会有所提前。借助地铁客运量数据进行辅助验证,我们判断北京、石家庄、武汉、重庆等城市已经度过疫情峰值,成都、天津、长沙、南京、西安等城市尚未达峰。 一、预测到底准不准?预期与现实相互验证 •在上期《大数据疫情观察:中心城市率先迎来峰值》报告中,我们分析并给出了北京和河北部分城市疫情已经迎来“拐点”,成都、昆明等城市将陆续见顶的预测判断。根据百度搜索指数数据,北京百度“发烧”搜索指数持续下降,“咳嗽”搜索指数后于“发烧”见顶,这基本上印证了我们模型的预测。但是,我们也注意到2022年12月17日(上周六)全国范围内“发烧”指数见顶,这是否意味着全国疫情的见顶?如果这样,这个数据与一些防疫专家的春节前后见顶的判断就有所出入。也有专家认为全国疫情可能虽然尚未达峰,但是进程缩短了。 •但根据字节跳动的“巨量算数”,抖音“发烧”搜索指数于12月17日见顶,但头条“发烧”搜索指数仍在震荡上行。在朋友圈广为传播的知乎“数据帝”的预测里面,2022年12月20日前后大部分省市相继达到感染高峰,那么,很多研究者都想确认的是,站在2022年12月23日,全国范围内的单日新增感染有没有达峰?有人认为预测很准,和自己这些天在互联网上对疫情的感知较为一致;有些人则认为不准,认为身边的亲戚朋友们都阳了,而预测进度条还不到一半,个人体感和预测结果有较大差异。 •与此同时,我们注意到了在2022年12月16日前后,全国几乎所有城市、省份“发烧”搜索指数迎来了“先扬后抑”的脉冲式增长,后续日度数据再也没有高于16日当天的值。这意味着疫情最艰难的阶段已经度过了么?通过对百度、头条疫情病症搜索引擎数据进行数据挖掘和建模分析,可以为疫情未来趋势研判提供重要参考。不过我们理解,为了定量评价疫情进展,还需要引入更多数据。 •由于没有权威数据作为参考,各类疫情的预测仅仅是基于直觉、推理或演绎的带有参数的模型预测,预测准不准,缺乏客观权威作为结果比较,所以很难客观衡量预测是否准确,只能通过参与这件预测的所有观众和读者通过微观的数据,周围疫情扩散程度去验证预测结果,一个城市不同群体感染的先后,不同城市感染达峰的节奏,都会对预测是否准确有不一样的理解。 •模型有局限性,逻辑假设的适用性,缺乏权威数据作为验证,难道就不需要预测了吗?托马斯·库恩(ThomasKuhn)和卡尔·波普尔 (KarlPopper)就“科学哲学”这个概念展开了20世纪最具影响力的对峙。他们都以自己的方式深奥地从哲学的角度质疑科学的基本前提。库恩的《科学革命的结构》(TheStructureofScientificRevolutions)指出,即使现有的范式所预测的结果在现实中存在反例,现有的科学家也不会认为其范式有问题;只有可替代现有范式的新科学范式出现,并且反例达到了一定的数量,现有科学范式才可能被证伪,科学革命才会发生。从批判的角度来看对预测过程的否定也是发现新预测方法的过程。 •量子基金的乔治·索罗斯(GeorgeSoros)推崇的哲学家卡尔·波普尔(KarlPopper)最著名的观点是科学是通过“可证伪性” (Falsifiability)进行的——人们无法证明假设是正确的,甚至无法通过归纳法获得真理的证据,但如果假设是错误的,则可以反驳它。根据波普尔的观点,只有可被经验证伪的理论体系才应被赋予真正的科学地位。因此,波普尔提倡大胆假设,用证伪的方式去不断试错,不断修正,而不是提出假说,然后到处找支持自己理论的根据。“证伪”也是索罗斯所一直推崇与实践的思考方式。 二、地铁客运量作为疫情达峰的重要辅助观察指标 •因此,我们从疫情出发,回到经济,从多维度验证疫情的峰值。地铁客运量无疑是很好的观察指标,一个有地铁城市的客运量受若干因素影响:1、出行管制,2、出行意愿,3、地铁的便利程度。 •从数据上来看,北京、上海作为全国地铁保有量最高的两个城市,也是日均客运量最高的两个城市,地铁数据较高的反映了疫情的高低,同时地铁客运量的日度数据公布滞后1-3天,还算比较及时,从数据收集角度看,地铁数据来自于物联网设备自动采集,人工干预的影响较小,数据具有充分的客观性,可以作为疫情的第二类主要观察变量。 图:上海地铁客运量 数据来源:Wind、腾景AI经济预测 •上图是2019年12月至今的上海地铁客运量数据,比较明显的是2020年初的武汉疫情,2022年4月的上海疫情,和2022年12月的全国疫情。由于地铁客运量遵循周一至周五高,周六日低的原则,日度数据信息量有些冗余,后续我们通过比较周度平均数据,可以过滤短期的日内数据波动。 图:上海地铁客运量(7日移动平均) 数据来源:Wind、腾景AI经济预测 •比较北京地铁客运量,也可以看出2022年4月,上海地铁停运7周左右,北京虽然没有停运,但周度地铁客运量均值从近三年日常的800万降低到100万以下。值得注意的是,2022年9月之后的北京地铁客运量明显低于上海,这一方面是疫情,另一方面也是北京地铁需要全网查验72小时核酸,11月24日进一步缩短到48小时,12月5日起这一政策被解除。 图:北京地铁客运量(7日移动平均) 数据来源:Wind、腾景AI经济预测 •2022年秋冬季疫情开始后,部分疫情严重城市地铁客运量相较于往年是收缩的,从“二十条”到“新十条”,疫情管制政策逐渐放松,地铁客运量也逐渐企稳回升,结合百度搜索指数来看,12月放开后地铁客流先经历了快速的回升,又因“发烧”指数过高而回落,而中心城市的北京,2022年12月19日(周一),地铁客流量达到279万,比上周一增长20%以上,这印证了北京人口聚集区域的感染达峰,至少疫情对人口流动的影响已经达峰。 图:十大城市地铁客运量7日移动平均,协同性高度一致 数据来源:Wind、腾景AI经济预测 •基于此数据,我们认为北京疫情高峰已过,但全国整体疫情高峰并非如百度搜索指数和头条指数显示的那样已经见顶,而是处于快速发展期。我们建立了四阶段数据模型,辅助验证各城市是否达峰。如下图所示,北京、武汉、重庆、沈阳、石家庄、兰州、昆明地铁客运量已经企稳回升,目前处于第四阶段;成都、天津、长春、郑州、广州、厦门、深圳、西安、上海、南京等城市仍处于达峰进程中的第三阶段。由于移动平均有可能会带来数据滞后,后面,我们用真实数据做了测试。 图:疫情扩散进程 数据来源:腾景AI经济预测 图:国内部分城市地铁客运量(7日移动平均) 注:十大城市是指:北京、上海、广州、成都、南京、武汉、西安、苏州、郑州、重庆,下同。 数据来源:Wind、腾景AI经济预测 •在以日度为单位的疫情进展中,如果当天地铁出行数据出现回升,应该主要看两个数据,第一是同比(例如本周一,相较于上周一的客流量),第二看环比(例如今天相较于昨天的客流量)。 •根据日度数据,北京地铁出行,无论是环比还是同比,均处于上行阶段,这与见顶判断一致,其他有可能见顶的是武汉、重庆、成都。而上海、广州、南京、苏州、西安等地铁客运量仍在持续下滑,这表明疫情仍在达峰进程中。 图:国内部分城市地铁客运量 数据来源:Wind、腾景AI经济预测 •由于地铁客运量同比数据(相较于上周本日的数据)下滑严重,我们判断:上海、广州、南京、西安、苏州、郑州等城市的疫情仍在达峰进程中,北京、武汉、重庆同比转正,预计已度过疫情高峰。 图:28个城市地铁客运量及周度同比 数据来源:Wind、腾景AI经济预测 三、预期如何与现实相互影响? •放开疫情管制后的经验有很多,无论是疫情见顶的节奏,对消费,劳动参与率的影响,都有较多国家可以参考。这无疑给了我们一些预期,14亿人口的放开和中等规模人口国家放开又有所区别。国内传染病专家也在各类媒体上表示春节前后,明年一季度疫情达峰等等,释放这样的未来见顶信号。但是从北京和多数城市的感知中,疫情似乎见顶的早于我们的认知,那么到底哪里会出问题呢? (一)政策指标失灵:古德哈特定律 •当多数互联网参与者都知道百度搜索指数能够间接代表疫情的时候,它可能就不准了,在某种程度上,它就是古德哈特定律 (Goodhart’slaw)在疫情上的体现。古德哈特定律是出自于英国经济学家查尔斯·古德哈特(CharlesGoodhart)的说法,指的是:当一个政策变成目标,它将不再是一个好的政策。其中一种解释为:一项社会指标或经济指标,一旦成为一个用以指引宏观政策制定的既定目标,那么该指标就会丧失其原本具有的信息价值。 •毫无疑问,在大多数人不知道“百度疫情指数”的重要性的情况下,它大概率还是有效的,内涵逻辑为搜索量大数据间接反映了大部分的居民自发的网络搜索行为,“发烧”搜索在一定程度上和阳性有症状是一回事。但是,在官方媒体和自媒体都在报道的情况下,这一指标会引发更多的搜索,而这些搜索和疫情本身并没有关系,而是互联网流量带来的效应。 (二)网民搜索行为的偏移可能造成数据污染 •我们比较了石家庄、兰州、北京、武汉、重庆、沈阳、昆明、成都、天津等城市的地铁客运量,发现都经历了政策放松而上行,疫情攀升客运量下行,疫情高峰度过再度上行这一数据变化模式。目前大部分城市仍处在疫情攀升客运量下行这一阶段,全国疫情的顶峰目前并没有到来,而百度指数给出的“发烧”搜索指数已经见顶,我们判断12月16日及之后的百度“发烧”搜索指数可能出现了异常,核心逻辑是12月16日(上周六),全国所有城市都出现了一个攀升,随后下降,这种能够同一时间影响所有城市的因素大概率不是以一定规律传播的病毒造成的,而是其他因素造成的数据“污染”。 (三)样本缺失:60岁及以上老年人非网民群体 •我们知道百度指数(BaiduIndex)、头条指数(ToutiaoIndex)、微指数是基于海量网民行为数据进行数据挖掘分析的数据产品,因此非网民的行为数据自然被排除在研究样本之外。 •中国互联网信息中心(CNNIC)2022年8月31日发布的第50次《中国互联网络发展状况统计报告》显示,截至2022年6月,我国非网民规模为3.62亿,这是一个不小的基数。从地区来看,我国非网民仍以农村地区为主,农村地区非网民占比为41.2%。从年龄来看,60岁及以上老年群体是非网民的主要群体。据此可见,非网民地域上主要分布在农村地区,年龄上以60岁及以上老年群体为主。 •这个基数不小的非网民群体检索行为的缺失导致本来应该出现的检索结果游离于样本之外,导致“发烧”等病症搜索指数被低估。根据美国疾病控制与预防中心(CentersforDiseaseControlandPrevention)的报告,患重症COVID-19的风险会随着年龄、残疾和基础疾病的增加而增加。在后期的奥密克戎期间(2022年4月-6月),大多数院内死亡发生在年龄≥65岁的成年人(8