您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:ETF投资宝典之一:热点概念相关ETF的自动匹配与对比 - 发现报告
当前位置:首页/其他报告/报告详情/

ETF投资宝典之一:热点概念相关ETF的自动匹配与对比

2024-12-24高智威、赵妍国金证券华***
ETF投资宝典之一:热点概念相关ETF的自动匹配与对比

被动投资时代需要更方便的指数检索方式 2021年以来,跟踪行业、主题类指数的被动指数基金迎来了爆发式的发行。除了产品数量的急剧增加,同行业类别行业指数更是层出不穷,增加了被动指数产品的筛选难度。传统的指数筛选方式,可以通过关键词搜索指数名称、计算成分股行业占比的方法完成,但由于关键词难以穷举、行业概念可能较为抽象、行业概念与常见行业分类难以一一对应的问题,进行目标行业概念指数的检索仍然较为繁琐。借助大语言模型的逻辑推理能力,可以为我们提供更为便捷的指数检索方式。 大语言模型在筛选行业概念指数中的应用 为了便于搜寻目标概念的指数及对应的被动指数基金产品,我们利用大语言模型,结合指数要素(名称及编制方式)、指数成分股信息、个股主营业务描述信息进行综合判断,输入目标概念名称即可自动获取概念指数清单及指数概念含量,为投资者提供投资参考。 首先,我们利用指数的名称及编制方式,让大语言模型对市场中的众多股票指数进行判别,初步筛选概念指数池。然后,我们根据初选指数池的成分股,结合定期报告中对上市公司主营业务的介绍,对成分股逐一进行概念股的判别。最终根据各指数中概念股的占比,筛选出行业概念占比最高的指数。 这种筛选方法不需要通过固定的行业关键词进行判断,可以自行定义概念股筛选标准,能够调用大语言模型的API接口及python编程,实现指数的自动化筛选,提高投研生产力。 部分热门行业概念被动指数比较 基于上述方法,我们筛选出新兴消费、芯片、苹果产业链、创新药、新能源车、光伏等行业概念指数,这些行业概念均能够搜索出较多的同类指数,我们从指数编制方式、指数成分股构成、历史业绩表现、挂钩的被动指数基金产品情况对各行业概念指数进行对比分析。 风险提示 大语言模型输出的结果仍具有一定的随机性,不同的提示词也可能产生不同的筛选结果;大语言模型对于行业概念的理解可能存在一定的片面性,可能会对指数及概念股的判断可能存在一定的误差;我们的筛选范围中仅保留了部分指数公司发布的指数,在分析概念含量时也仅考虑了A股和港股,因此搜索结果中可能会有少量遗漏的风险;指数历史业绩不代表未来。 内容目录 一、被动投资时代需要更方便的指数检索方式5 1.1行业、主题被动指数产品爆发式增加5 1.2传统行业指数筛选方式的不足5 二、大语言模型在筛选行业概念指数中的应用5 2.1本次使用的大语言模型介绍5 2.2如何用大语言模型判断行业概念股?6 2.3行业概念指数判断方法与流程9 2.4方法优势10 三、部分热门行业概念被动指数比较11 3.1新兴消费概念指数11 3.2芯片概念指数13 3.3苹果产业链概念指数16 3.4创新药概念指数19 3.5新能源车概念指数22 3.6光伏概念指数24 四、附录27 4.1各行业概念挂钩被动指数产品清单27 五、风险提示31 图表目录 图表1:行业、主题被动指数产品历年成立数量(单位:只)5 图表2:DeepSeek官网大语言模型能力评价榜单6 图表3:DeepSeekAPI价格6 图表4:半年报中“第三节管理层分析与讨论”部分对主营业务的描述示例7 图表5:大语言模型判断行业概念股流程8 图表6:大语言模型判断行业概念股示例8 图表7:获取行业概念指数清单及概念含量计算流程9 图表8:大模型初步判断概念指数方法10 图表9:部分筛选出来的指数信息样例10 图表10:指数成分股中芯片概念含量示例10 图表11:新兴消费概念指数要素对比11 图表12:指数成分股中信一级行业配置差异对比12 图表13:指数成分股港股占比差异对比12 图表14:新兴消费概念指数各项指标表现12 图表15:新兴消费概念指数近5年累计收益率变化12 图表16:新兴消费概念指数挂钩产品情况13 图表17:芯片概念指数基本信息13 图表18:芯片概念指数编制方式13 图表19:各芯片概念指数成分股中信三级行业分布15 图表20:芯片概念指数各项指标表现15 图表21:芯片概念指数近5年累计收益率变化16 图表22:芯片概念指数挂钩产品情况16 图表23:苹果产业链概念指数基本信息16 图表24:苹果产业链概念指数编制方式17 图表25:苹果产业链概念指数中信三级行业配置18 图表26:苹果产业链概念指数各项指标表现对比18 图表27:苹果产业链概念指数近5年累计收益率变化18 图表28:苹果产业链概念指数挂钩产品情况19 图表29:创新药概念指数基本信息19 图表30:创新药产业链概念指数编制方式19 图表31:创新药概念指数成分股中信三级行业占比20 图表32:创新药概念指数成分股中港股比例对比20 图表33:创新药概念指数各项指标表现21 图表34:创新药概念指数近5年累计收益率变化21 图表35:创新药概念指数挂钩产品情况21 图表36:新能源车概念指数基本信息22 图表37:新能源车概念指数编制方式22 图表38:新能源车概念指数成分股中信三级行业分布23 图表39:新能源车概念指数各项指标表现24 图表40:新能源车概念指数累计收益率24 图表41:新能源车概念指数挂钩产品情况24 图表42:光伏概念指数基本信息25 图表43:光伏概念指数编制方式25 图表44:光伏概念指数成分股中信三级行业分布26 图表45:光伏概念指数各项指标表现26 图表46:光伏概念指数累计收益率变化27 图表47:光伏概念指数挂钩产品情况27 图表48:芯片概念相关被动指数基金产品列表27 图表49:苹果产业链概念被动指数基金产品列表28 图表50:创新药概念被动指数基金产品清单29 图表51:新能源车概念被动指数产品列表29 图表52:光伏概念被动指数基金列表30 一、被动投资时代需要更方便的指数检索方式 1.1行业、主题被动指数产品爆发式增加 我们根据被动指数基金所跟踪指数的wind风格分类,统计了主题、行业类风格指数对应的被动指数基金历年成立数量。从2009年首只行业主题被动指数基金产品成立,行业主 题被动指数产品持续发行,而2021年更是迎来了爆发式的产品发行。截至2024年12月 18日,全市场已有1089只行业、主题类被动指数产品(含联接基金)。 除了产品数量的急剧增加,同行业类别行业指数更是层出不穷,增加了被动指数产品的筛选难度。 图表1:行业、主题被动指数产品历年成立数量(单位:只) 300 250 200 150 100 50 0 2009201020112012201320142015201620172018201920202021202220232024 来源:Wind,国金证券研究所注:数据截止2024.12.18 1.2传统行业指数筛选方式的不足 1.2.1关键词搜索:行业概念的抽象性 我们可以通过指数名称初步搜索相关行业概念指数,但由于很难穷举该行业概念的全部关键词,如果通过关键词的方式进行搜索初筛,容易出现遗漏相关指数的情况。例如,如果只搜索“芯片”关键词,可能会遗漏很多包含了大量芯片概念股的指数。而在新能源的概念指数中,指数中可能包含清洁能源、绿色能源、环保等词汇,只搜索“新能源”字样,难以检索出全部的相关行业指数。 而由于部分行业概念较为抽象,部分行业概念名称并没有在行业指数名称中直接体现,例如“苹果产业链”这一行业概念,目前市场中的行业、主题指数,并不包含“苹果产业链”关键词,需要对行业概念进一步理解,再去寻找相关关键词进行搜索,增加了检索步骤。 1.2.2成分股判断:行业概念与行业分类难以一一对应 我们也可以通过计算指数成分股中行业概念的占比来判断行业概念指数。但行业概念与行业分类(如中信行业)难以一一对应。以光伏为例,如果把光伏的行业概念对应到“电力设备与新能源”上,则可能产生较大的误差,无法获得指数成分股中真正涉及光伏产业链的股票比例。 此外,如果依赖行业概念指数成分股去判断成分股,对于尚未编制概念指数的概念仍然无法进行判断。而且现有行业概念指数成分股的筛选标准,可能与自己的筛选标准不一致。 借助大语言模型的逻辑推理能力,可以为我们提供更为便捷的指数检索方式。 二、大语言模型在筛选行业概念指数中的应用 2.1本次使用的大语言模型介绍 我们本次使用了深度求索(杭州深度求索人工智能基础技术研究有限公司)发布的大语言模型DeepSeek。2024年12月10日,深度求索发布了DeepSeekV2.5的最终版微调模型 DeepSeek-V2.5-1210,这也是我们任务中最终使用的版本。 据DeepSeek官网介绍,DeepSeek-V2.5的综合能力在目前大模型主流榜单中均表现出色,其中中文综合能力位列榜首,而逻辑推理能力也有较强的表现。 图表2:DeepSeek官网大语言模型能力评价榜单 来源:DeepSeek,国金证券研究所 DeepSeek为使用者提供了API接口,虽然DeepSeek目前支持的上下文长度仅有64K,但DeepSeek的API接口在价格上具有极大优势。 图表3:DeepSeekAPI价格模型 上下文长度 最大输出长度 DeepSeek-V2.5 64K 4K ChatGPT-4o 128Ktokens 4K (缓存命中) 0.1元/百万tokens (缓存未命中) 1元/百万tokens 2元/百万tokens 1.25美元/百万 2.5美元/百万 10美元/百万 tokens tokens tokens 输入价格输入价格 输出价格 来源:DeepSeek,OpenAI,国金证券研究所 注:缓存命中指的是多轮对话情况下涉及到的重复输入的部分 2.2如何用大语言模型判断行业概念股? 上市公司主营业务是判断上市公司所属行业的重要依据。并且较多行业指数在编制时,均通过公司主营业务范围来判断个股是否属于该行业概念,如中证光伏产业指数的编制方式中规定,“将主营业务涉及光伏产业链上、中、下游的上市公司证券作为待选样本,业务范围包括但不限于硅片、多晶硅、电池片、电缆、光伏玻璃、电池组件、逆变器、光伏支架和光伏电站等”。 我们从A股上市公司最新披露的半年报/年报中的“管理层分析与讨论”部分,获取了上 市公司主营业务的最新描述。相比于经营范围、主营产品名称、主营产品范围等字段,定期报告中管理层分析于讨论部分对于主营业务的描述更加详细,对其主要业务及主要产品会进行详细的介绍,并且如果主营业务发生变化会进行更新。宁德时代2024年半年报中描述的主营业务如下表所示。 股票名称2024年半年报中“第三节管理层分析与讨论”部分对主营业务的描述 图表4:半年报中“第三节管理层分析与讨论”部分对主营业务的描述示例 宁德时代 二、报告期内公司从事的主要业务 公司需遵守《深圳证券交易所上市公司自律监管指引第4号——创业板行业信息披露》中的“锂离子电池产业链相关业务”的披露要求。 (一)主要业务 公司是全球领先的新能源创新科技公司,主要从事动力电池及储能电池的研发、生产及销售,以推动固定式化石能源替代、移动式化石能源替代,并以电动化+智能化为核心,推动市场应用的集成创新。公司在电池材料、电池系统、电池回收等产业链领域拥有核心技术优势及前瞻性研发布局,致力于通过材料及材料体系创新、系统结构创新、绿色极限制造创新及商业模式创新为全球新能源应用提供一流的解决方案和服务。 (二)主要产品及其用途 公司主要产品包括电池系统及相关电池材料。1、电池系统 (1)动力电池系统 公司动力电池产品包括电芯、模组/电箱及电池包。公司可提供凝聚态电池、三元高镍电池、三元高压中镍电池、M3P电池、磷酸铁锂电池以及钠离子电池等覆盖不同能量密度区间的多种化学体系产品系列,能满足快充、长寿命、长续航、高安全、宽温度适应性等多种功能需求。公司根据应用领域及客户要求,通过定制或联合研发等方式设计个性化产品方案,以满足客户对产品性能的不同需求。 乘用车应用领域,公司产品可应用于BEV、REV、PHEV、HEV等不同细分市场,广泛应用于私家 车、运营车等领域;商业应用领域,公