金融工程 专题报告 股票因子个性化:基于股票嵌入的因子优化 ——“学海拾珠”系列之一百四十� 主要观点: 报告日期:2023-06-13 分析师:骆昱杉 执业证书号:S0010522110001邮箱:luoyushan@hazq.com 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 相关报告 1.《动量、反转和基金经理过度自信 ——“学海拾珠”系列之一百四十四》 2.《模糊因子与资产配置——“学海拾珠”系列之一百四十三》 3.《chatGPT交易策略15个月收益 500%+——“学海拾珠”系列之一百四十二》 4.《前景理论能否解释共同基金的业绩——“学海拾珠”系列之一百四十一》 5.《是否存在宏观公告溢价现象——“学海拾珠”系列之一百四十》 6.《利用深度神经网络改进时间序列动量策略——“学海拾珠”系列之一百三十九》 7.《基金的协偏度择时能力——“学海拾珠”系列之一百三十八》 8.《ETF交易与分析师预测——“学海拾珠”系列之一百三十七》 本篇是“学海拾珠”系列第一百四十�篇,本文提出了一种优化技术因子的通用框架。作者经过观察发现对于不同属性的股票,同一技术因子表现出不同的契合度,这对因子导向的选股和投资策略提出了挑 战。为了解决这一问题,本文提出了一种利用股票自身性质对因子进行优化的通用框架。该框架首先根据基金经理集体投资行为形成的有价值的知识库生成股票嵌入特征,即股票embedding,然后根据embedding为每只股票生成缩放系数对标准化后的因子进行二次缩放。实证表明,此种优化方法生成的优化因子可以产生比原始因子更强的投资指导。 因子对具有不同特性的股票的影响不同 传统方法根据股票量价等数据按某种特定映射生成技术因子,但事 实表明,对于具有不同性质的股票,相同因子的解释可能有较大差异,然而却有可能在某种因子上取得相近数值,这会使技术分析结果与现实情况有较大偏差。因此有必要根据股票性质对因子进行相应的调整。 如何对股票属性进行有效表示 本文的目标是根据股票的自身性质对因子进行适当调整,因此首要 问题是如何对股票的特性进行抽象化表示。这实际上是一个数据挖掘的过程,近年来“序列embedding化”是自然语言处理中一个重点问题,本文借鉴Skip-Gram算法学习股票的嵌入特征。 新型技术交易因子优化框架(TTIO框架) 本研究提出了一种新的技术交易因子优化框架,结合股票嵌入技术 进行因子优化。设计了一层缩放网络,使得股票的新因子是原始因子的缩放版本。在此基础上,提出了一个用于优化因子的缩放模型,该模型基于股票嵌入为每个因子生成缩放权重。考虑到投资的动态性,该研究还提出了滚动学习机制,根据时间变化调整模型参数。 TTIO框架在因子优化和投资策略中的表现优于传统方法 实证结果显示TTIO优化因子在2014年和2016年均显著优于 baseline。同时,通过因子驱动的投资策略的实验,可以看出无论是单一因子还是多因子投资策略,TTIO模型在除2015年外的所有年份都能产生更多的累积收益。最后,实例研究中发现,不同的因子对不同的股票表现出不同的敏感性,而不是简单地给予类似的权重,这证明了TTIO模型的有效性。 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建 议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1引言4 2研究背景6 2.1技术面分析6 2.2技术因子6 2.3构建基于因子的投资组合7 2.4因子有效性评价指标7 3股票嵌入特征7 3.1基金经理的历史投资组合8 3.2构造二分图9 3.3通过基金-股票二分图学习股票嵌入特征9 4技术交易因子优化模型10 4.1模型设计10 4.2用于因子优化的缩放模型10 4.3滚动学习机制11 5实验11 5.1实验设置11 5.2实验结果12 6相关研究17 7结论17 风险提示:18 图表目录 图表1两只特定股票的价格和30天内乖离率因子的时间序列数据5 图表2一套普遍的技术因子及相应的计算公式7 图表3基金经理历史投资组合的通用数据图8 图表4滚动学习算法11 图表5不同年份采用不同优化方法的因子的平均RANKIC13 图表6不同因子驱动的投资策略在不同年份产生的累计回报14 图表7在BIAS、MACD和ROC上获得最大和最小原始缩放权重的前5只股票15 图表8经过T-SNE降维的最大和最小缩放权重股票的EMBEDDING16 1引言 技术面分析(Charles(2006),Christopher等人(1997),Paul等人(1997))作为量化投资的基本方法之一,侧重于从价格和成交量的角度解释和预测股票走势。技术面分析的核心假设在于,投资决策的所有相关信息都反映在价格和成交量的变化中。因此,价格和成交量数据构成了足够的信息,可以为各种任务做出各种决策,包括市场趋势预测、选股和投资组合管理。 在真正的量化投资中,技术面分析主要用于选择未来回报率较高的股票。特别是,为了应对金融市场的噪声和波动性,已有许多成果基于价格和成交量开发技术交易因子,用来提供可靠的交易信号(Chalothon等人(2012),Abeyratna和David(2001),Massoud等人(2012),Christopher等人(2011)),这类似于机器学习方法中的特征工程。更具体地说,通用技术交易因子通常是基于对每只股票的原始价格和成交量数据的一致性数学变换而生成的。在现实世界中,人类专家根据他们在金融市场的领域知识总结了各种鲁棒的技术交易因子。作为特征工程中人工生成的特征,各种技术因子基本上代表了不同方面的价格和成交量,并从稳健和全面的角度评估了股票的走势。例如,平滑价格序列并丢弃一些随机性的移动平均因子,是描述趋势的好选择。乖离率表现了当前价格与其移动平均值的偏差,可以稳健地反映股价的现状。因此,技术因子作为所有股票价格和成交量的统一变换,在各种投资任务中发挥着至关重要的作用。 然而,这种统一的计算方法对选择未来利润更高的股票这一任务产生了一定的限制,因为它没有考虑股票的内在特性。事实上,我们观察到,具有不同性质的股票对因子的契合度并不相同。我们发现:即使两只股票在一个特定因子上表现出完全相同的值,由于股票本身的性质,它们也可能保持在本质上完全不同的状态。例如,图表1显示了两只特定股票的价格和30天内乖离率因子的时间序列数据。从这些数据中可以发现,对于周期性股票1b,它随着更广泛的市场而变化,并且往往具有更大的波动性,乖离率很容易跳到极值;而对于另一只股票示例1a,它是一只强大、稳定、成熟的股票,具有长期连续季度分红的历史,在大多数情况下,乖离率会被限制在一定的范围内。因此,即使两种股票都获得了相同的乖离率极值,其意义也完全不同。周期性股票将被视为处于正常状态,因此对它来说该因子几乎没 有可供参考的作用。而对于价格稳定的股票,较大的乖离率值将提供丰富的信息,这对预测和投资都很有用。这一现象清楚地表明,一个技术因子对不同股票采取相同的计算方法不足以区分不同股票的未来回报趋势。 图表1两只特定股票的价格和30天内乖离率因子的时间序列数据 资料来源:《IndividualizedIndicatorforAll:Stock-wiseTechnicalIndicatorOptimizationwithStockEmbedding》,华安证券研究所 基于这一观察结果,本文认为挖掘股票的原始价格和成交量数据蕴含的信息对于生成更有力的因子是必要的。一个简单的方法是为每只股票创建一个缩放系数,然而,这很容易导致过拟合。进一步的观察表明,具有共同特征的股票对因子值具有相似的契合度。例如,蓝筹股公司的大多数股票,其股价通常在小范围内变化,在大多数情况下往往会产生低乖离率值。这样的观察启发我们基于股票的普遍性特征进行股票信息转换,以避免潜在的过拟合问题。因此,本文提出了一个技术交易因子优化(TTIO)模型,该模型通过基于股票性质的二次缩放来优化原始因子系数。 关键之处在于如何生成股票的有效表示,以反映经验丰富的投资者的知识和想法。例如,如图表1所示,有效表示应该能够区分稳定股票和周期性股票。一个简单的方法是从经验丰富的基金经理那里手动收集这些信息。然而,这种方法由于人类对股票的主观本能导致了对人力成本的高需求和不稳定的准确性,效率相当低。为了解决上述问题,本文建议从一群经验丰富的基金经理的集体行为中学习股 票表示,即股票embedding。由于每个基金经理对各种特征的股票都有自己的偏好和专业化,例如,一些基金经理会更喜欢稳定的股票以获得低风险的利润,而另一 些基金经理则可能更喜欢波动较大的股票以获取更大的回报。基于这一事实,本文 假设同一基金的持仓股票可能具有一些共同的特征。因此,本文试图学习股票的嵌入表示,目的是保留股票之间的这种关系,即同一基金持有的股票将获得类似的embedding。 在得到股票embedding后,设计一种有效的方法来利用这种表示优化技术交易因子至关重要。为此,本文提出了TTIO模型,该模型利用股票embedding的信息对原始技术因子进行优化,以最大限度地提高优化技术因子的有效性。此外,为 了避免复杂建模可能导致的过拟合问题,本文仅用一个简单的单层神经网络来构建 TTIO模型以优化原始技术因子。 根据经验,本文在真实数据上进行实验,通过检查其IC来评估因子。此外,我们还根据优化因子对股票投资进行了模拟。并且还利用优化因子来预测回报排序,并通过应用一些交易策略来评估其有效性。与传统因子相比,结果表明,近年来本文生成的优化因子表现明显更好、更稳定。 总之,本文工作的主要贡献包括: (1)提出了一个因子优化模型,通过整合股票的不同属性来实现更好的因子表现。 (2)为了表示具有不同性质的股票,本文设计模型学习了基于基金经理集体行为的股票嵌入特征。 (3)对真实的股票数据进行了实验,并通过实际投资策略中使用的优化因子表现来评估本文因子优化方法的有效性。 2研究背景 本节将对技术分析和一些技术交易因子进行基本介绍。在本节中,我们展示了如何将价格和成交量映射到技术交易因子,此外,我们还将描述如何使用此类交易因子来构建投资组合(选择股票),以及介绍评估因子有效性的评估指标。 2.1技术面分析 一般来说,分析股票和做出投资决策有两种主要方法:基本面分析和技术面分析。基本面分析需要分析公司的财务报表以确定业务的公允价值,而技术分析则假设股票价格已经反映了所有公开信息,因此其侧重于统计分析。从形式上讲,技术分析是研究给定金融市场中过去和现在的价格走势如何用于确定其未来方向(Martin,2002)。因此,价格和成交量数据包括了技术分析中进行预测的所有信息。 2.2技术因子 为了在技术分析中根据相应的价格和成交量数据识别特定资产的交易模式,研究人员对股票价格或成交量设计了某种形式的数学计算,即技术交易因子,以预测市场趋势。 本文将研究那些公认的技术因子,这些因子是根据价格和收益的时间序列进行计算得到的。图表2展示了一组普遍的技术因子指标及其计算公式,其中在第i天, 𝑃ℎ𝑖𝑔ℎ(𝑖)表示最高价,𝑃𝑙𝑜𝑤(𝑖)表示最低价,𝑃𝑜𝑝𝑒𝑛(𝑖)和𝑃𝑐𝑙𝑜𝑠𝑒(𝑖)分别表示开盘和收盘价,它们的主要用途如下: 指数移动平均线(EMA)是一种衡量价格日常波动的指标,最近的数据会占据更大的权重。 指数平滑异同移动平均线(MACD)是通过两条指数移动平均线之间的差来计算的,其中一条线来自长周期(慢线),另一条来自短周期(快线)。M和n的值通常为12和26。 基于K线(KL)的因子通常用于发现股票的趋势和波动。KL相关因子包括K 上长度、K下长度和K长度。 与乖离率相关的因子衡量价格与简单移动平均线相比的偏差水平。 ROC相关因子意味着与前几天相比的变化幅度 振幅相关指标量化了最近