您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国银河]:海外文献-4通过量化维基百科的使用模式预测股市变动 - 发现报告
当前位置:首页/其他报告/报告详情/

海外文献-4通过量化维基百科的使用模式预测股市变动

2021-09-29吴俊鹏中国银河我***
海外文献-4通过量化维基百科的使用模式预测股市变动

www.chinastock.com.cn 证券研究报告 请务必阅读正文最后的中国银河证券股份公司免责声明 [table_research] 金融工程报告●海外文献 2021年9月29日 [table_main] 行业深度报告模板 海外文献-4通过量化维基百科的使用模式预测股市变动 核心观点:  维基百科与股价变动。金融危机源于一系列灾难性行为的综合作用,而庞大的股市数据能为理解促成这些危机的某些行为提供新的视角。是否可以基于投资者做出股票交易决策前从网上搜集的信息,预测其交易行为。文献中提供的证据支持了这个猜想,即Wikipedia中金融相关页面被浏览的频率变化数据,可能可以预示股市的波动。结果表明,网络流量数据可能为文献中探究投资者决策初期如何进行信息收集提供新的视角。 分析师 吴俊鹏 :010-80927631 :wujunpeng@chinastock.com.cn 分析师登记编码:S0130517090001 相关研究 [table_report] 《海外文献-1基于谷歌趋势的量化交易》 《海外文献-2社交媒体胜过新闻吗》 《海外文献-3 Google趋势搜索可否被用于分散风险?》 请务必阅读正文最后的中国银河证券股份公司免责声明。 2 [table_page1] 金融工程报告/资产配置 目 录 一、引言 ......................................................................................... 3 二、数据分析及结果 ................................................................................ 3 三、讨论分析 ...................................................................................... 9 四、风险提示 ..................................................................................... 11 请务必阅读正文最后的中国银河证券股份公司免责声明。 3 [table_page1] 金融工程报告/资产配置 金融危机源于一系列灾难性行为的综合作用,而庞大的股市数据能为理解促成这些危机的某些行为提供新的视角。该文献研究了是否可以基于投资者做出股票交易决策前从网上搜集的信息,预测其交易行为。 文献中提供的证据支持了这个有趣的猜想,即Wikipedia中金融相关页面被浏览的频率变化数据,可能可以预示股市的波动。该文献的结果表明,网络流量数据可能为文献中探究投资者决策初期如何进行信息收集提供新的视角。 一、引言 复杂的社会现象是众多个体决定的综合结果。某些情形下,大量的个体决定可以突然引发灾难,如群体性灾难和金融危机。股票市场数据能极其详细地记录交易者在被灾难深刻影响的领域的决策过程。因此,这些股市数据已引经起了科学界的广泛关注1-14。 但是,人们的决策不仅包括决定的最终执行,如证券交易所的一笔交易记录。而是在资源有限的条件下,从收集能预测各种行为相应结果的信息开始,直到最终的决策15。 随着互联网的普及,网络资源已成为许多人搜集新信息的首选。资源提供者也能从用户对资源的使用中获取大量数据。使一系列新的大规模观测群体行为的方法成为可能16-21。这样,互联网在日常生活中的普及不仅改变了人们做决策时获取信息的方式,而且为科学家们研究人们决策过程的早期信息收集阶段开辟了新途径。 研究表明,分析网络搜索数据可以洞悉现实中人们当前甚至未来的行为。例如,用户在Google和Yahoo!等搜索引擎上的搜索频率变动数据已被学界用于相关性分析22,其中被关联的数据有已报道的美国流感感染人数变动数据、电影,游戏和音乐发行热度数据23,失业率数据24-25,游客数据25和美国股市交易量数据等26-27。一项近期研究表明,人均GDP更高的国家的互联网用户成比例地更多搜索关于未来而不是过去的信息28。 在与该文献最相关的研究中,Preis,Moat和Stanley概述了一项对历史数据的分析,表明与财务相关的搜索词的搜索量变化可以与股市的走势联系起来29。进一步的研究分析了源自Twitter的数据,并考虑了交易者情绪,而非其信息收集过程。该研究表明Twitter动态反映出的投资者心情平静程度的变化与股价变化相关30。 该文献研究了是否可以通过分析投资者使用维基百科31-34的数据,预测其后续在股市的交易决策。具体而言,是否能证明,通过分析用户对维基百科上公司等财务相关主题的文章的查看或编辑次数的变化,可以洞悉投资者决策前的信息收集过程。 二、数据分析及结果 复杂的社会现象是众多个体决定的综合结果。某些情形下,大量的个体决定可以突然引发灾难,如群体性灾难和金融危机。股票市场数据能极其详细地记录交易者在被灾难深刻影响的领域的决策过程。因此,这些股市数据已引经起了科学界的广泛关注1-14。 为研究Wikipedia上大规模信息收集行为的变化与市场参与者交易决策之间的关系,该文献分析了Wikipedia英文界面被查看和编辑的频率。任何用户都可以查看和编辑Wikipedia条目。Wikipedia“查看”页面上的数据下载自stats.grok.se在线服务,“编辑”页面上的数据源 请务必阅读正文最后的中国银河证券股份公司免责声明。 4 [table_page1] 金融工程报告/资产配置 自用户对文章相关的 “修订历史”页面的解析。文献中分析了2007年12月10日(维基“查看”页面数据可从stats.grok.se上下载的最早日期)和2012年4月30日之间的数据。 文献中以两种方式衡量Wikipedia用户活跃度:对于一个给定的Wikipedia网页第t周(以星期日结束)中平均页面浏览量和平均页面编辑量。该文献所用的所有Wikipedia网页名及进一步的数据预处理细节见“Supplementary Information”。为量化用户们信息收集行为的变化,文献中在页面浏览量或页面编辑量中选一种作为用户活跃度n(t)的度量指标,并计算第t周的页面浏览量或编辑量与第t周前Δt周这段时间内平均页面浏览量或编辑量之间的差异。其第t周的前Δt周平均页面浏览或编辑量计算公式为:Δn(t,Δt)= n(t)-N(t-1,Δt),N(t-1,Δt) =(n(t-1)+n(t-2)+ ... +n(t- Δt))/Δt,t以周为单位。 该文献借鉴Preis, Moat和Stanley的做法29,通过比较Wikipedia上衡量用户活跃度的指标变动与随后股市走势,据两者关系形成虚拟的交易策略,用该策略交易道琼斯工业平均指数(DJIA)。具体而言,如果第t周Wikipedia财经相关网页的浏览量或编辑量增加了,即Δn(t, Δ t)>0,则第t+1周的第一个交易日以收盘价p(t+1)卖出DJIA,并于第t+2周的第一个交易日以收盘价p(t+2)买入DJIA以平仓。注意,金融市场中存在融券的交易机制使在不持有证券的情况下也可以卖出。反之,如果第t周Wikipedia财经相关网页的浏览量或编辑量减少或不变,即Δn(t, Δ t)<=0,则第t+1周的第一个交易日以收盘价p(t+1)买入DJIA,并于第t+2周的第一个交易日以收盘价p(t+2)卖出DJIA以平仓。 然后,文献中通过在下周t + 2的第一个交易日结束时以价格p(t + 2)购买道琼斯工业平均指数来关闭头寸。请注意,存在一些机制可以在a没有先拥有它们的金融市场。如果取而代之的是,在第t周内浏览或编辑的数量减少或保持不变,使得Δn(t,Δt)≤0,则文献中在在第(t + 1)周第一个交易日以收盘价p(t + 1)购买DJIA,并以价格p(t+ 2)在接下来一周的第一个交易日末t + 2平仓。 文献中通过计算最终投资组合价值与初始投资组合价值之比的自然对数来计算策略的累积收益R。在做空策略即先以p(t + 1)卖出再以p(t + 2)买入股指期货的交易中,累积收益R为log(p(t+1))-log(p(t + 2))。反之,多头策略的累积收益为log(p(t + 2))− log(p(t + 1))。如此便使多空策略对累积收益R的影响是对称的。此外,该文献忽略了交易费用,因为此策略每年最多仅仅交易104次,每周平均只进行一次开仓和平仓交易。文献中注意到,如果在现实中使用这种策略,那么交易费用的存在当然会降低利润。况且,假设交易费用为零不影响该文献的结论的得出,即维基百科用户活跃度变化和DJIA走势有关。 该文献将基于维基百科用户活跃度数据形成的交易策略的收益与随机策略的收益进行比较。在随机策略中,每周都会以相等的概率做多或做空DJIA,且每周的多空决定不受以前时期的影响。这种随机策略不会导致重大的盈利或亏损。下文所展示的统计结果比较中,该文献以10000次独立重复的随机策略对2007年12月10日至2012年4月30日间DJIA进行交易,并画出该10000次试验累积收益率的概率分布。发现没有证据表明这10,000次随机交易的收益显著为正或为负(平均收益率= 0.02%,V = 25012353,p = 0.97,α= 0.05,基于单样本的双侧收益率分布对称性的Wilcoxon符号秩检验接近于0)。因为随机策略的累积收益率的分布明显偏离正态分布(D = 0.1716,p <0.001,α= 0.05,Kolmogorov-Smirnov检验),该文献用非参数检验来检验其正态性。同理,该文献其余收益分布分析也使用非参数检验。下文所有非随机策略的累积回报率R均以高或低于随机策略平均累计回报率的标准差的倍数表示。 图1显示了每周交易的2类(各以30种DJIA成分股相关文章的浏览量和编辑量)为依 请务必阅读正文最后的中国银河证券股份公司免责声明。 5 [table_page1] 金融工程报告/资产配置 据,按前定交易原则对DJIA进行交易的策略的收益率分布。这两类策略分别基于2007年12月至2012年4月期间30篇关于DJIA指数成分股的维基百科网页被浏览(蓝色)和编辑(红色)的频率变化,每周按照上述原则(其中Δt =3)判断多空进行交易。还绘制了10,000个独立实现的随机策略的收益率分布(灰色)函数作参照。 图 1:Returns from trading strategies based on Wikipedia view and edit logs for articles relating to the companies forming (DJIA) 资料来源: Helen Susannah Moat, Chester Curme, Adam Avakian, Dror Y. Kenett, H. Eugene Stanley& Tobias Preis SCIENTIFIC REPORTS ,3 : 1801,银河证券研究院 图1说明:基于DJIA构成股相关维基网页被浏览和编辑频率变化的策略的收益率 图1为用核密度估计和ggplot236作出的收益率分布,并以Silverman经验法则37计算高斯内核和带宽。 尽管随机策略不会导致明显的损益,但该文献发现基于Wikipedia文章浏览量的策略在此期间的收益率显着高于随机策略的收益率(平均R = 0.50;W = 199690 ,p = 0.005,α= 0.05,以Bonferroni校正的双侧两样本Wilcoxon秩和检验)。但基于Wikipedia网页编辑量变动的交