证券研究报告/金融工程报告2022年11月23日 机器学习在中文财经文本上有效吗?【中泰金工”文献掘金“系列三】 分析师:李新春 报告摘要 电话:18019761462 执业编号:S0740520080002 Email:lixc@r.qlzq.com.cn 研究助理:汤伟杰电话:18217397163 Email:tangwj@r.qlzq.com.cn ◆推荐语 学术文献做中国市场的主题很少,顶流做中国市场的更少。范剑青老师等人提出了一个通用的和自适应的高维数据机器学习框架FarmPredict,该模型可以从文本数据中提取潜在因子和特质因子,用来输入惩罚回归预测股票未来收益。他们在中国股市的实证结果表面,基于FarmPredict可以提取的情绪主导词汇,并且根据情绪评分指标构建的投资组合收益年化高达116%,这个结果显著优于其它模型。这项研究开辟了非结构数据在金融应用中的全新范式,更是证明了大数据无论在数据上还是在方法论上都在“金融投资”中有其核心地位。 ◆摘要 权益市场上的大多数研究使用的文本数据仅限于英文环境的情绪词典或主题建模。但是,我们能否直接从文本数据预测新闻的影响?从这样的直接过程中我们能“学习”到多少内容?基于因子模型和稀疏正则化(FarmPredict),我们提出了一种全新的文本学习框架,让机器自动地学习金融收益。不同于其它基于字典或者有严格预处理过程的主题模型我们的框架允许模型从整篇文章中更全面地提取信息。我们在中国股市上实证了我们的研究,中文文本在单词和短语间没有自然的空格而中国股市有非常高比例的个人投资者。这两个特性使得我们的研究显著不同于前人聚焦英文文本和美国市场的作品。我们使用中国 股市的资料和几种现存的方法验证了本文模型。结果显示,由FarmPredict方法得到积极情绪评分的股票平均每日超额收益约83bps,而负面新闻在发布日期带来了26bps的负向影响,这两种影响都能持续数天。这种非对称的效应与中国股市的做空限制相吻合。作为总 结,我们的研究显示机器学来的情绪确实提供了强大的预测能力,使得一个简单策略的年化回报率约为116%;基于我们模型的投资组合显著战胜了其他模型。这进一步支持了我们 的FarmPredict可以学习金融新闻中的情绪。我们的研究也证明了使用机器学习文本数据有强大的潜力。 ◆文献信息: Fan,JianqingandXue,LirongandZhou,Yang,HowMuchCanMachinesLearnFinanceFromChineseTextData?,(January11,2021). ◆作者信息 JianqingFan PrincetonUniversity-BendheimCenterforFinanceLirongXue PrincetonUniversity-DepartmentofOperationsResearch&FinancialEngineering(ORFE)YangZhou InstituteforBigData,FudanUniversity 风险提示:模型仅根据历史数据获得的历史经验,应用在未来可能产生风险。 正文目录 1.引言3 2.方法论5 3.数据和分析9 4.主要结论12 5.总结18 1.引言 文本数据作为最常见的记录和通信工具,在社会科学研究中作为传统结构化数据的补充起着至关重要的作用。由于媒体、新闻和报道中的文本数据可以反应经济体参与人的态度,例如他们的评论、观点、目标和情绪等,所以文本数据对金融研究很有帮助。但是,从非结构化且复杂的文本数据中提取准确的含义和信息,我们需要面对其高维特征的统计障碍。一种普遍的方法是将非结构的文本数据转为结构指标,通过执行例如单词筛选、语义学习和情绪识别等分析过程。这里情绪度量可用于预测资产价格或股票市场的回报,作为投资组合选择或资产定价的有效工具 (Gao等,2020;Sun等,2016)。随着数据科学和现代算力的发展,现在我们可以使用统计机器学习方法从编码文本中直接提取此类信息。 方法简介 受前人著作的启发,本文引入了一种全新的因子增强正则化预测模型(FarmPredict),可以从考虑短语结构和交叉影响的全部词汇中提取潜在主题(因子)来预测股票收益。由于FarmPredict在初始步骤中不对词汇做应用边际筛选过程,因此它是一个更通用的分析框架,具有更广泛应用的潜力,提供了用于文本数据研究的高度自适应建模过程。 FarmPredict由三个步骤组成。第一步是从高维文章中使用无监督学习隐藏的特征。为此,我们使用主成分分析(PCA)将文章转换为包括多个潜在因子和特质因子组成的隐式成分的向量。潜在因子的数量由调整后特征值阈值方法估计(Fan等,2020a)。这是一个纯粹的无监督学习过程,不需要先验假设的干预,所有的信息均从文章本身中学习。我们还解释了在文本数据中使用无监督学习的必要性,因为它可以避免主观假设和限制数据使用的潜在偏差。第二步,我们通过特质因子与学习目标(关联股票的 贝塔调整后收益)的基于因子条件相关性做筛选。此步骤是可选的,但有助于我们将维度降低到更易于管理的级别。最后我们使用LASSO模型基于潜在因子和筛选后的特质因子预测资产价格。在每个分析步骤中FarmPredict也提供了高度的灵活性。 实证检验 我们的研究收集了来自中国新浪财经的金融新闻,这是中国股市主要的新闻中心之一。该网站每天发布500多条新闻,提供即时和全面的中文流行财经新闻报道。我们使用WebCrawler技 术从其网站下载公开可用的新闻网页并提取所关注数据的相关时间、文本和股票信息。文本用隐马尔可夫模型切词,并与相应股票代码和发布时间的收益拼配。用来模型训练的每篇文章都与有效的贝塔调整后收益匹配。我们在数据的二分词袋向量上拟合FarmPredict,使用2015年至2019年的数据评估模型在估计情绪得分和相应的回报上的表现。 我们随后使用多种方法验证FarmPredict的情绪评分。第一,我们检查了我们的模型选择的主要情绪主导词汇的含义。与adhoc主题模型获得的词汇相比,我们证明了FarmPredict能够捕获更多会被边缘筛选忽略的交互式信息。面板回归还表明,FarmPredict可以学习目标股票的特定信息,使之与目标股票的贝塔调整后收益产生显著相关性。我们还将本文中的新闻视为“事件”,并估计了基于事件研究的股票回报范式。这揭示了令人意外的新闻如何发生以及他们如何影响中国金融市场的潜在机制。结果显示,在利好消息发生前大约7天,贝塔调整后收益已经开始增加,而负面新闻情况没有观察到这样的结果。这种不对称的影响与中国股市的卖空约束和监管机制非常吻合,这使得市场更难对负面新闻的泄漏或预期做出反应(Chen等,2019;Nagel,2005)。在新闻发布当天的冲击峰值后,正面新闻情绪可以带来83bps的收益而负面消息情绪带来26bps的损失,(正面/负面)新闻的影响都可以持续几天。安慰剂测试的结果进一步支持了这个结论,从而意味着投资机会。 我们也依据金融投资模拟测试了我们的机器学习情绪评分。我们根据预测的情绪得分建立了每日投资组合,并记录了它们的回报。这些投资组合表现出稳健积极的收益,对等权多空组合,年化收益率达到116%(夏普比率:9.37);对市值加权多空组合,年化收益率约48%(夏普比率:3.34);在2015-2019年的测试期表现明显超过其他模型。这个结果也验证了中国股市中的新闻和动量效应。我们进一步分析了投资组合的风险、α(贝塔调整后收益)和其它部分。α的年化收益率高达115%,夏普比率约为9.37。上述测试中也考虑了有关中国股市的现实细节,例如交易成本和日度价格限 制。为了进一步验证FarmPredict的稳健性,我们测试了模型在面对以下情况的敏感性:输入和输出的各种变形,因子选择,构建投资组合中的股票数量,以及新闻输入的数量。结果保持稳定,从而证明了FarmPredict的鲁棒性。 2.方法论 本章节讨论使用机器学习文本数据的框架。我们首先总结了不同模型共享的框架和符号,然后介绍了一种使用因子增强的新型回归方法(FarmPredict);随后是FarmPredict框架的变形应用。我们还简要介绍了主题模型(adhoc)及其扩展以便进行比较。 2.1参数设置 ii,k 在本小节中,我们主要将接下去会使用的一些参数进行声明。我们使用单词级别的统计信息作为n篇文章(即词袋)的主要内容。设D是n篇文章的数据中所有可能的中文单词的集合,dND是第i篇文章中每个单词的词向量,d为文章中第k个单词出现的次数。每篇文章由几个基本主题(topic)组成,每个主题都有自己的首选词汇表。因此,我们假设一篇文章的字数向量di受到少量潜在因子(latentfactors)的影响。这些因子或主题可以是简单的正面或负面,也可以是更复杂的因素,包括文章的态度、相关行业部门、作者自己的词汇偏好等。这是主题模型一个最基本的模型设置。 在本文中,Yi将是新闻发布当天文章i所关联股票的贝塔调整后收益。因变量Yi主要受小的词汇子集的影响。我们称这组词为情绪主导词(sentiment-chargedwords)。这样处理有助于将维度降低到一个合理的水平。因为每一个词袋的维度非常高,但是词向量又表现得很稀疏。举例来说,在文章所搜集到的214000篇文章中一共包含了 110多万个词语,但是这些词语出现次数为50次以上的只有71000个。 所有的词都被分为两类:情绪主导词集S和情绪中性词集N,因此DSN。一篇文章的情绪得分主要与文章中的情绪主导词有关。di,s表示仅包含S集合内词语的词向量。 2.2FarmPredict模型 在大多数传统的文本分析中,如主题模型或基于字典的方法,模型有许多限制,导致不灵活和对情绪的不准确估计。那么我们自然会问,是否可以直接从高维回归学习情绪?因为情绪预测在金融研究中本质上是一个回归问题。在这里,我们提出了一个直接回归框架,称为因子增强正则化预测模型(FarmPredict)。该部分主要分为六个模块。 筛选高频词汇: 在收集的110万个不同的词语中,大多数个体都很少出现。它们的语义信息很难被学习。因此,我们首先过滤掉这些只出现在一小部分文章中的不常见词汇。筛选帮助我们聚焦到一个合理全面的单词Dfreq集合(1,0000个词汇左右)。对于词汇的筛选我们遵循以下规则: j DfreqjthwordinD:k 其中kj表示第j个词汇在所有文章中的出现频次,代表我们事先设置的阈值,是一个超参数,它的作用是在Dfreq的全面性以及不常见单词引入的噪声之间取得一个平衡。 因子模型: ii,j 令X为特征向量,其中X表示Dfreq中第j个单词在第i篇文章中的特征,这既可以是0-1变量表示是否出现,也可以是表示出现频次的数值特征。不同单词之间的独立性我们假设是由一些潜在的因素影响的,也就是说Xi遵循: XiBfiμi 2.1 其中fi Rk是潜在因子,B是因子载荷矩阵。残差项μRDfreq称为特质因子,一个无 i 法由fi解释的部分所组成的向量,即与fi不相关的部分。将上述模型写成矩阵形式: XFTBU 2.2 其中X、U均为nDfreq的矩阵,F为nk的潜在因子矩阵。这里仅有X已知,而 F、B、U都需要使用PCA估计。这些因子可以被理解为类似主题分数,而B给出了这些主题的不同组合。 借鉴Fan等(2020b)的思路,我们可以利用潜在因子fi与特质因子μi建立对收益Yi的估计: YabTfβTμ 2.3 iiii 其中i为误差项,使用fi与μi作为自变量会使得变量之间的相关性大幅降低,从而有效地避免共线性对模型造成的影响。同时我们还会对β施加稀疏性约束,因为大多数词语并不携带影响情绪或股票回报的信息。 求解潜在因子与残差项: 在给定因子数量k的情况下,我们使用最小二乘对2.2式进行求解,得到PC