您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华创证券]:基于排序学习的行业轮动模型 - 发现报告
当前位置:首页/其他报告/报告详情/

基于排序学习的行业轮动模型

2023-05-25王小川华创证券在***
基于排序学习的行业轮动模型

金融工程 证券研究报告 专题报告2023年05月25日 【专题报告】 基于排序学习的行业轮动模型 华创证券研究所 证券分析师:�小川 电话:021-20572528 邮箱:wangxiaochuan@hcyjs.com执业编号:S0360517100001 相关研究报告 《2023年Q1量化策略总结与未来市场展望》 2023-04-05 《基于canslim与FESC的沪深300指数增强策略》 2023-03-07 《2022年四季报公募基金十大重仓股持仓分析》 2023-01-24 《K线形态研究开篇:形态学初识与应用》 2023-01-13 《短期转好,但或未见底——2022年策略总结与 2023年初行业推荐》 2022-12-08 排序学习的定义 排序学习(LearningtoRank,LTR)又名“机器排序学习”(Machine-learnedRanking)是一种监督学习方法,此机器学习算法通过在数据集上对大量特征进行训练,从而学习生成排序模型,以用于解决实际中的排序问题。排序学习 在文档检索、过滤和推荐系统等领域,已得到广泛应用。 排序学习与量化投资 在量化投资领域,排序学习有着出类拔萃的内在逻辑,类比于信息检索和推荐系统中使用的相关性指标,同样可以通过使用能够代表金融资产表现的金融指标,来将排序学习应用于在量化投资中,并为投资者提供更加智能化和高效的投资决策工具。并且排序学习不仅仅关注计算出代表行业优劣的具体指标或打分数值,而是注重行业与行业之间的相对优劣程度,从而为用户提供满足其需求的推荐。 LGBMRanker行业轮动模型 本文通过使用LGBMRanker模型对中信一级排序学习,构建行业轮动型号,经回测该策略从2007年至今在中信一级上的年化绝对收益率为17.53%,超额年化为9.81%,夏普比率为0.59,信息比率为0.921。相对于行业等权为基准而言,周度胜率为53.65%,月度胜率为60.62%。 风险提示: 本报告中所有统计结果和模型方法均基于历史数据,不代表未来趋势。 投资主题 报告亮点 本篇报告作为排序学习系列研究的开篇报告,首先对排序学习做了系统性的概括与总结,通过论述排序学习的理论基础与算法逻辑,从而推导出了排序学习与量化学习之间相得益彰的契合性。并且使用LGBMRanker在中信一级行业上构建出基于排序学习的行业轮动模型,表现相当优异。 投资逻辑 排序学习在量化投资中将行业的特征作为参数输入,将其转化为当期对行业未来走势的相对优劣排序。通过持仓排名较前的行业,有望取得一定的相较于行业等权的超额收益。 目录 一、什么是排序学习?5 (一)排序学习的背景5 (二)排序学习的特殊之处5 (三)排序学习的算法分类7 1、PointwiseMethod7 2、PairwiseMethod7 3、ListwiseMethod7 4、小结8 (四)排序结果评价指标——归一化折损累计增益(NDCG)8 1、累计增益CG9 2、折损累计增益DCG9 3、归一化折损累计增益NDCG10 二、排序学习在量化投资里的运用11 (一)排序学习与量化投资11 (二)行业轮动理论依据11 三、LGBMRanker行业轮动模型12 (一)LGBMRanker简介12 (二)LGBMRanker模型设计12 1、特征选取12 2、标签选择13 3、训练方法14 4、回测结果14 四、总结20 图表目录 图表1排序学习的结构6 图表2其他机器学习模型的结构6 图表3排序学习范例8 图表4DCG9 图表5NDCG计算10 图表6IDCG10 图表7其他机器学习模型的结构12 图表8特征选取12 图表9训练方法14 图表10LGBMRanker行业轮动策略净值图15 图表11绝对净值表现15 图表12相对净值表现15 图表13换手率16 图表14分年度表现16 图表15今年年初至今模型NDCG@517 图表16推荐行业表现统计18 图表17推荐行业热力图18 图表18今年一季度历史推荐行业19 图表19历史每年推荐次数最多行业19 一、什么是排序学习? (一)排序学习的背景 随着数字时代的来临,社会信息化程度的不断加深,互联网上承载的信息量呈指数级增长。想要在海量的数据中检索到自己需要的信息或者想要提高用户的需求与信息之间的匹配程度,就会涉及到排序问题。排序问题,简单来说就是如何从信息膨胀下的数据洪流中便捷的检索出用户最感兴趣的结果,重要性不言而喻,同时也引起了学术界和工业界的广泛关注与研究。与此相关的推荐系统在过去十几年的时间里取得了长足的发展并普遍运用于搜索、推荐、广告等各个领域。而处理排序问题的方法不同也会产生不同的推荐系统,同样的关键词,一个搜索引擎可以让用户在搜索结果的前几页就快速找到想要的信息,而另外一个搜索引擎则无法做到,或者经常浏览的两个软件,一个总能推送出用户最新最感兴趣的内容,而另一个只能生硬的根据用户所选的标签静态的匹配内容,这些显著的差异就是因为其核心的推荐算法不同。 “排序学习”(LearningtoRank,LTR)又名“机器排序学习”(Machine-learnedRanking),顾名思义是使用机器学习用于解决分类与回归问题的方法,来解决排序问题。通过机器学习算法在数据集上对大量的特征进行训练,构建出排序模型,让其能够依据数据的相关性、重要性等衡量指标对数据进行排序,从而满足用户的需求。 (二)排序学习的特殊之处 相比于传统的分类和回归模型,排序学习有着一些显著的不同之处。首先,排序学习关注的是多个对象之间的相对排序关系,而不是单个对象的分类或回归问题。其次,由于排序学习需要处理多个对象的排序信息,所以排序学习模型通常更加复杂,需要考虑对象之间的交互信息和排序关系。 其他机器学习方法通过对一系列数据进行训练不断优化迭代从而得到一个预测模型,再把验证数据一个一个放到预测模型中,生成其对应的预测值再加以利用,最终目的是要降低预测值与真实值之间的差异来达到精确预测。而排序学习训练集是以(q,D)的形式输入模型,其中q为query查询,对于每一个查询queryq,我们由n个文档D= [d1,d2,…,dn],n>=1,以此作为模型的参数并让模型对其进行排序,然后根据真实排序与预测排序衡量排序效果,再以提升排序效果为目的不断优化迭代。 由此可以看出,排序学习中使用的评估指标也不同于传统的分类和回归任务。对于排序学习而言,传统分类和回归任务中使用的评估指标如准确率、均方误差等都不再适用,而常用的排序学习评估指标包括NormalizedDiscountedCumulativeGain(NDCG),则用于度量模型在对象排序上的性能。 图表1排序学习的结构 资料来源:华创证券 图表2其他机器学习模型的结构 资料来源:华创证券 (三)排序学习的算法分类 在LTR(LearningtoRank)训练中,根据输入数据和选择的损失函数,我们通常有三种基本分类方法:pointwise、pairwise和listwise。 1、PointwiseMethod PointwiseMethod类似于传统的机器学习回归方法,将排序问题转化为回归问题。它将每个查询下的文档相关性得分作为训练目标,并将损失函数定义为真实相关性得分与预测相关性得分之间的差距之和。通过构建模型来预测指定输入的相关性得分,再根据预测的得分高低来完成最终的排序任务,常见的模型包括线性回归和逻辑回归等。可以看出,这种方法的算法实现简单,易于理解,但其关键的缺陷是它只对每个查询下的单个文档的相关性进行建模,没有考虑文档间的相对顺序关系,而这恰恰是排序问题的本质,即排序问题关注的不是打分的精准度,而是文档之间的得分的相对程度。 2、PairwiseMethod PairwiseMethod则采用将排序问题转化为分类问题的思路,将任意两个文档组成的文档对作为输入放入模型中进行训练,对每一对文档给出分类标签1或0,即对于每一对文档,判断哪一个应该排在前面,哪一个应该排在后面。最后,通过对所有文档对进行分类,我们可以将得到的偏序关系序列转化为整个文档集的排序关系。训练原理是通过降低文档对的错误偏序对来优化排序结果。常见的算法包括RankSVM和RankBoost等。因为考虑到了不同文档之间的相关性,相对于PointwiseMethod,PairwiseMethod的优化结果更加准确。但此方法仍存在明显缺点,首先输入样本由单个样本变成了样本对,导致时间复杂度会大幅度的提高,在大数据情况下,训练成本会显著提高。其次,该方法侧重于优化两两文档之间的相对关系,但对于用户而言,真实绝对排名靠前的文档的排序准确性更加重要,就像在使用搜索引擎时,用户不会特意点击尾页获取信息,而是在前几页查找有价值、相关性高的信息。因此,仅考虑两两文档之间偏序关系的PairwiseMethod在理论上仍存在局限性。 3、ListwiseMethod ListwiseMethod在LT训练中采用了一种不同于Pointwise和Pairwisemethod的策略,即直接对输入查询(query)下的所有文档进行整体排序,并在定义损失函数时考虑了所有文档的排序结果。通过构建合适的度量函数来衡量当前排序的表现,并进行不断优化迭代。 相比于Pointwise和PairwiseMethod,ListwiseMethod不对问题进行转化,而是直接对排序序列进行评估和优化,使得模型更加贴合排序问题的本质。ListwiseMethod的优点在于它可以充分考虑到文档之间的相对顺序关系,并通过全局优化对整体排序进行调整,从而获得更准确的排序结果。与PairwiseMethod相比,ListwiseMethod避免了时间复杂度带来的训练成本的显著提高。此外,ListwiseMethod还强调了对真实排名靠前的文档排序准确性的重要性,这与用户在使用搜索引擎时更关注前几页的相关性高信息的行为一致。尽管规避了时间复杂度的提高,但往往因为需要对整个列表直接进行排序评估,所以导致ListwiseMethod的算法复杂度也比较高,并且如何合理的评估整体序列的排序表现在ListwiseMethod中也表现得尤为重要,不同的衡量标准会导致模型的表现截然不同。 4、小结 综上所述,不同的排序学习方法各有优劣。首先,PointwiseMethod简单直观,它将排序问题转化为一个分类问题,通过为每个样本分配一个相关性得分,然后将样本按照得分进行排序。这种方法在训练和计算复杂度上相对较低,适合小规模数据集和简单的样本关系。然而,PointwiseMethod可能忽略了样本之间的相互关系,无法考虑到不同样本之间的排序关系。 其次,PairwiseMethod通过比较一对样本之间的相对排序关系来进行训练。这种方法能够考虑到样本之间的相对排序关系,对于复杂的样本关系较为适用。然而,PairwiseMethod的时间复杂度较高,需要比较所有可能的样本对,可能导致计算复杂度的显著提高。并且一个错误排序的样本对可能会对整体排序结果造成很大的影响,所以相对而言,PairwiseMethod对于噪音更加敏感。 最后,ListwiseMethod直接对整个样本列表进行排序,可以全局优化排序结果,考虑到了样本之间的全局排序关系。然而,ListwiseMethod中直接衡量排序表现的训练方式导致其计算复杂度较高,可能会导致训练时间较长。 在实际应用中,也有一些将不同基础算法相结合的组合方法,如LambdaMart,其将PairwiseMethod和ListwiseMethod相结合,既考虑了样本之间的相对排序信息,又一定程度上降低了计算复杂度。所以在选择排序算法之前,应根据具体问题和数据集的特点来选择合适的排序学习方法。 (四)排序结果评价指标——归一化折损累计增益(NDCG) 在排序学习中,为了能够客观地评估模型的性能优劣,许多排序学习特有的评价指标应运而生。其