您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国银河]:海外文献~7:基于Tweet的舆情交易策略,用社交媒体文本挖掘和稀疏矩阵分解预测股市波动 - 发现报告
当前位置:首页/其他报告/报告详情/

海外文献~7:基于Tweet的舆情交易策略,用社交媒体文本挖掘和稀疏矩阵分解预测股市波动

2021-12-13吴俊鹏中国银河温***
海外文献~7:基于Tweet的舆情交易策略,用社交媒体文本挖掘和稀疏矩阵分解预测股市波动

www.chinastock.com.cn 证券研究报告 请务必阅读正文最后的中国银河证券股份公司免责声明 [table_research] 金融工程报告●海外文献 2021年12月13日 [table_main] 行业深度报告模板 海外文献-7基于Tweet的舆情交易策略:用社交媒体文本挖掘和稀疏矩阵分解预测股市波动 核心观点:  基于Tweet文本信息预测股市。研究以用户微博中的文本信息预测股市的潜在效果。用Wong等人提出的“潜空间模型”(2014),将股价和社交媒体内容的变动联系起来。本研究与以往研究所用的模型有两个显著的区别:(1)充分利用包含在大量社交媒体中的市场信息而非新闻文章中的市场信息(2)不评估情绪。本文用2011年到2015年之间S&P 500大多数成分股数据测试模型,发现此模型优于基准回归。最后,本文提出一个收益率和夏普比率较好的交易策略。 分析师 吴俊鹏 :010-80927631 :wujunpeng@chinastock.com.cn 分析师登记编码:S0130517090001 相关研究 [table_report] 《海外文献-1基于谷歌趋势的量化交易》 《海外文献-2社交媒体胜过新闻吗》 《海外文献-3 Google趋势搜索可否被用于分散风险?》 《海外文献-4通过量化维基百科的使用模式预测股市变动》 《海外文献-5量化财经新闻与股市的关系》 《海外文献-6 Twitter情绪指数能用于预测加密货币走势吗》 请务必阅读正文最后的中国银河证券股份公司免责声明。 2 [table_page1] 金融工程报告/资产配置 目 录 一、引言 ......................................................................................... 3 二、文献综述 ...................................................................................... 3 三、数据 ......................................................................................... 4 四、方法 ......................................................................................... 6 五、结果 ........................................................................................ 10 六、结果 ........................................................................................ 14 七、风险提示 ..................................................................................... 16 nMqNtNxPtMvNtQxOrMuNnR7N8Q7NtRnNtRoPfQoPtReRqRrN8OmNoPxNtOsRxNrRrP 请务必阅读正文最后的中国银河证券股份公司免责声明。 3 [table_page1] 金融工程报告/资产配置 本文研究了以用户微博中的文本信息预测股市的潜在效果。用Wong等人提出的“潜空间模型”(2014),将股价和社交媒体内容的变动联系起来。本研究与以往研究所用的模型有两个显著的区别:(1)充分利用包含在大量社交媒体中的市场信息而非新闻文章中的市场信息(2)不评估情绪。本文用2011年到2015年之间S&P 500大多数成分股数据测试模型,发现此模型优于基准回归。最后,本文提出一个收益率和夏普比率较好的交易策略。 一、引言 自Fama于1970年首次提出有效市场假说以来,可获得的公共信息急剧增长。除了传统信息源如新闻、分析师报告和财务报表数据的增长外,社交媒体上的用户数据也不断增加。例如,Twitter主页上报道有3.2亿月度活跃用户每天发约5亿条推特。Kalampokis等人(2013)对关于社交媒体数据扩张的研究进行综述,强调社交媒体的在各种场景下的预测潜力。社交媒体数据已经成为一种流行的市场预测数据源,而且已被广泛用于探究与金融市场间的关系。 本文提出了一个基于文本分析的股价预测模型,并同时用样本内和样本外评估方法,探讨了该模型基于利用本文提出的交易策略的有效性。 二、文献综述 2.1 基于传统新闻的文本挖掘 用文本挖掘(即自然语言数据的统计分析)收集数据是当前研究人员关注的焦点。Loughran & McDonald(2011)通过分析10-K文件寻找能更好地反映财务语境的替代词。他们试着找出包含金融市场信息的特定词语,并将这些词与收益、交易量和其他市场指标联系起来。Nassirtussi等人(2014)总结了以文本预测资产价格变动的研究,并综合评价了对各种数据源以各种文本挖掘方法预测各类资产的效果差异。 最早将语言的量化指标与股价联系起来的论文之一是Tetlock(2007),他检验了媒体报道和股市之间互动关系,发现可以利用投资者悲观情绪预测市场的变化模式。此外,Tetlock等人(2008)用“单词包”方案收集Wall Street Journal(WSJ)和Dow Jones News Service (DJNS)上的所有单词,并依据哈佛-IV-4心理学词典将其区分为积极和消极型词语。他们发现财经媒体中使用的消极词汇常预示着企业的低利润,而且市场价格对新闻文本信息的反映仅有轻微的延迟。 Schumaker等(2012)也试图用其自己开发的金融文本量化系统——亚利桑那州金融文本(AZFinText)系统,评估文本和股价变动之间的相关性。研究过程分为两步:情绪分析和价格预测。所用的数据源为雅虎财经,先区分文本是客观的还是主观的,然后将主观文本筛选出来并准确将情绪进行分类,依据MPQA观点库校对类别划分。其中,MPQA是一个包含大量新闻报道的数据库,该数据库手工对报道中的观点和其他私人状态,如情感、信仰和情感等进行了注释。以MPQA为标准,Schumaker等的情绪分析准确率达74%。他们发现,以AZFinText系统提取主观文本中的情绪并预测股价变动的准确率达59%。此外,反映积极情绪的文章发布后股价下跌的概率为53.5%,反映消极情绪的文章发布后股价增长的概率为52.4%,由此可推出一个异于常规的交易策略:利好消息冲击时做空,不利消息冲击时做多。 Mamaysky和Glasserman(2015)的研究表明,文本数据也可以预测市场波动。他们汇总 请务必阅读正文最后的中国银河证券股份公司免责声明。 4 [table_page1] 金融工程报告/资产配置 了1996年至2014年间36万多篇关于50家大型金融公司的文章,并研究n-grams即n个反映积极或消极情绪单词的词频序列。发现消极词汇词频的异常增加往往伴随后续几个月市场波动性(以VIX指数衡量)的提高。 通常,将文本分析与股市预测联系起来的方法第一步先对文本源进行情感分类。相反,Wong等(2014)采用了一种忽视情绪评估的方法。他们首先统计出《华尔街日报》2008年到2011年的文章中出现频率最高的1354个单词,并收集了每篇文章报道公司在每个交易日的股价。用潜在因素表示法将词频与每只股票的对数收益率联系起来,他们开发了一个以文章词频预测收盘价的模型。Wong等(2014)提出的方法与大多数研究的不同之处主要有两点:(1)不评估情绪,避免任何积极消极情绪的划分错误(2)可以推广预测华尔街日报中未提及的股票的价格。鉴于该方法的简洁性和稳健性,本文在第4节中运用类似的方法。 2.2 基于社交媒体的文本挖掘 长期以来学者们一直在探索社交媒体数据的预测能力;Kalampokis等(2013)对社交媒体如何用于各类预测的研究进行了汇总。例如,有研究以谷歌数据跟踪流感类疾病的传播情况,以亚马逊评论预测产品销售情况、以推特发帖数据预测降雨情况等。最早探究社交媒体对股市影响的实证研究之一是Antweiler & Frank于2004年开展的,该研究聚焦于用雅虎财经留言板中的文本预测股市的波动性。这些研究表明从社交媒体信息中可以得出对市场有预测力的指标。 近期,学者们对以Twitter作为社交媒体内容来源进行市场预测的有效性进行了探索。尽管每条帖子或推文的字数限制在140个字以内,但总体而言,Twitter被认为可以准确反映公众情绪。通过分析tweet文本和股票的上市表现,Liew & Wang(2016)发现,股票上市的推特平均人气与股票上市首日的收益率之间存在显著的正相关性,这种关系不仅在首个交易日,而且在上市前两三天都是显著的。进一步检验推文和财报公告之间的关系,Liew et al.(2016)发现,不仅利用公众对盈利的一致预期能更精确地预测股价表现(准确度约提高了60%),而且财报公布前推文中反映的公众情绪也能用于预测财报公布后经风险调整的股票超额收益率。此外,Azar&Lo(2016)的研究表明,联邦公开市场委员会(FOMC)开会期间Tweet上推文中包含的信息可用于预测股市收益和构建表现优于基准收益的投资组合。 另一个值得一提是Liew & Budavri 在2016年开展的基于StockTwits数据的研究。该研究表明,社交媒体中的数据能有效地解释收益率时间序列的波动。他们随后提出对预测收益有重要意义的,区别于Fama-French模型中五个因素的第六个因素,即“社交媒体因素”。本文首次将Wong等(2014)提出的算法应用于社交媒体数据,具体为每日和日内StockTwits上的数据,深化了金融文本挖掘领域的研究。 三、数据 本节描述相关数据并解释预处理过程。 3.1 源自StockTwits的文本数据 该研究使用的文本数据来自StockTwits.com。StockTwits®是一个专注于个股和股票市场的以投资者为目标用户的财经交流平台。$TICKER标签有助于从全网筛选并汇总关于股票和市场的信息“流”。截至2016年,StockTwits上30万多名用户发帖的全球浏览量达四千万次。发帖内容可以与许多其他财经网站的内容集成,如雅虎财经、CNNMoney、Reuters、 请务必阅读正文最后的中国银河证券股份公司免责声明。 5 [table_page1] 金融工程报告/资产配置 TheStreet.com、Bing.com和The Globe and Mail等。StockTwits在过滤掉非财经相关内容方面投入了大量精力,为文本挖掘提供了大量高质量文本。 图 1:Plot of per day number of mentions and price of “oil” and “aapl” against time 资料来源:A. Sun et al. / International Review of Financial Analysis 48 (2016) 272–281,银河证券研究院 本文获取了StockTwits上2011年1月1日至2015年8月31日约4500万条信息。每条数据有约40种不同属性,包括内容、追随者数、点赞数、发布时间和标签信息等。然而,本文只关注发帖内容和时间。用StockTwits数据前,本文用R library tm进行数据预处理。第一步,将一天内的数据合并。对于日内交易,进一步将数据分为上午、中午和下午的数