您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:量化掘基系列之三:ChatGPT概念加速起飞,大数据产业链投资指南 - 发现报告
当前位置:首页/其他报告/报告详情/

量化掘基系列之三:ChatGPT概念加速起飞,大数据产业链投资指南

2023-02-24国金证券北***
量化掘基系列之三:ChatGPT概念加速起飞,大数据产业链投资指南

gaozhiwgjzq.com.cn S1130522110003 S1130522050001 mengcangjzq.com.cn zhao_yangjzq.com.cn S1130522080001 wangqianwengjzq.com.cn ChatGPT带动AI板块景气度持续提升 2022年11月OpenAI发布语音聊天机器人ChatGPT,推出仅2个月用户数已过亿。模型可赋能语音客服、搜索引擎、文字创作等丰富场景,并衍生出更多算力和数据需求,有望带动AI板块景气度持续提升。ChatGPT作为迄今为止AI大模型最接近商用落地的成果,输出内容接近人类的常识、认知、需求和价值观。其采用的InstructGPT方法有望成为新一代AI开发范式,将极大程度促进语言类AI大模型的多场景落地。 目前国内在ChatGPT相关领域进展较快的企业包括百度、科大讯飞、商汤科技、阿里巴巴等。其中,百度宣布将于3月推出人工智能聊天机器人“文心一言”(ERNIEBot),目前已有包括企业软件、媒体、汽车、互联网等多个行业近300家头部企业宣布加入“文心一言”生态。此外,百度还于2月17日宣布“文心一言”将通过百度智能云对外提供服务,赋能更多行业发展。 大模型对算力和数据均提出更高要求,将提振上游GPU等硬件设备、云计算及数据标注行业的景气度。从算力角度看,大模型对算力有着极大的消耗。增加训练参数规模是提升大模型性能最直接的方法之一,预计未来各头部AI厂商的“大模型军备竞赛”仍将持续。从训练数据角度看,ChatGPT对高质量训练数据集需求提升。未来其他大模型训练或也将引入更多人工标注数据,将为相关企业带来新的发展机遇。随着未来GPT系列模型对数据质量的要求进一步提升,拥有高质量数据的流量平台或可通过提供数据等方式进入产业链,带动大数据领域加速发展。 大数据指数布局ChatGPT概念板块 中证大数据产业指数由中证指数有限公司发布,经过测算发现,在目前市场上与ChatGPT相关的中证指数中,中证大数据产业指数与万得ChatGPT概念指数的相关性最高,两者日度收益率相关系数达到86.00%,为广大投资者提供了投资ChatGPT概念的绝佳机会。 中证大数据产业指数成分股共覆盖13个中信三级行业,主要集中在行业应用软件(29.82%)、通用计算机设备(16.38%)、云软件服务(15.67%)、云基础设施服务(14.93%)和新兴计算机软件(9.57%)这5个行业,合计权重占比达到86.37%。在13个中信三级行业中,其中7个行业同样出现在万得ChatGPT概念指数成分股中,较全面的涵盖了ChatGPT的概念股票所处细分行业。 长期来看,中证大数据产业指数相较于宽基指数获得了显著的超额收益。夏普比率和今年以来收益率也显著高于三大宽基指数。根据万得一致预测净利润同比(FY2比FY1),大数据产业指数的预测净利润同比达到53.12%,远高于各宽基指数的水平。充分说明了分析师对于未来大数据产业高速成长的乐观预期。 大数据ETF(515400)优势明显,快速把握ChatGPT投资机会 大数据ETF(515400)是国内最早跟踪中证大数据产业指数的ETF基金产品,截至2月17日,基金总资产净值达到 6.97亿元,2月份成交金额达到9.64亿元,流动性上优势明显。近期成分股中北上资金持股占比稳步上升,受到外资的广泛关注。管理人富国基金在ETF领域全面布局,拥有丰富的ETF管理经验。综上,大数据ETF(515400)是投资者参与ChatGPT概念投资可选择的优质投资标的。 风险提示 基金历史业绩不代表未来;以上结果通过历史数据统计和测算完成,在政策、市场环境发生变化时存在失效风险;行业发展不及预期风险。 内容目录 一、ChatGPT带动AI板块景气度持续提升,看好上游算力及数据标注行业增长4 1.1人工智能算法实现底层骨干网络统一,无监督、半监督成为主流训练模式4 1.2ChatGPT有望赋能丰富场景,将带动算力和数据需求提升5 二、大数据指数布局ChatGPT概念板块7 2.1指数基本信息7 2.2大数据指数与ChatGPT概念相关性分析7 2.3指数成分股行业分析7 2.4指数成份股市值分析8 2.5指数前十大成分股分析8 2.6指数表现9 2.7指数盈利预测10 三、大数据ETF(515400)优势明显,快速把握ChatGPT投资机会10 3.1ETF基本信息10 3.2规模大,交易活跃,大数据ETF(515400)优势明显11 3.3大数据ETF(515400)获得北上资金青睐11 3.4ETF跟踪误差分析11 3.5基金管理人介绍12 3.6基金经理简介13 风险提示13 图表目录 图表1:ChatGPT模型演进历程4 图表2:监督学习与无监督学习方式对比4 图表3:ChatGPT有望促进AI大模型多场景落地5 图表4:GPT-3API定价情况5 图表5:百度“文心一言”合作生态丰富5 图表6:语言类大模型规模快速提升6 图表7:大模型训练所需算力呈指数增长6 图表8:训练成本与模型参数量正相关6 图表9:中证大数据产业指数(930902)基本信息7 图表10:万得ChatGPT概念指数与各指数相关系数7 图表11:万得ChatGPT概念指数VS中证大数据产业指数7 图表12:中证大数据产业指数行业分布8 图表13:指数成分股总市值不同区间数量分布8 图表14:指数成分股总市值不同区间权重分布(%)8 图表15:中证大数据产业指数前十大成分股信息8 图表16:中证大数据产业指数与各宽基指数净值走势比较9 图表17:中证大数据产业指数与各宽基指数收益波动表现9 图表18:中证大数据产业指数与各宽基指数一致预测净利润同比(%)(FY2比FY1)10 图表19:大数据ETF(515400)产品要素10 图表20:大数据ETF(515400)月度成交额及规模变化11 图表21:大数据ETF成分股北上资金持股占比11 图表22:大数据ETF成分股北上资金持股占比变化11 图表23:大数据ETF(515400)净值与跟踪指数净值走势12 图表24:富国基金旗下ETF产品分布(单位:只)13 图表25:基金经理在管基金一览(截至2023.02.17)13 一、ChatGPT带动AI板块景气度持续提升,看好上游算力及数据标注行业增长 目前在AI算法层面,Transformer已完成底层骨干网络的统一,开启大模型时代;在模型训练层面,无监督和半监督学习成为大模型训练的主流方式。以此为基础,2022年11月OpenAI发布语音聊天机器人ChatGPT,推出仅2个月用户数已过亿。模型可赋能语音客服、搜索引擎、文字创作等丰富场景,并衍生出更多算力和数据需求,有望带动AI板块景气度持续提升。 1.1人工智能算法实现底层骨干网络统一,无监督、半监督成为主流训练模式 神经网络的发展以Relu激活函数的提出为分水岭,分为浅层神经网络和深度学习两个阶段。目前深度学习算法主要是基于Transformer骨干网络进行分支网络的创新,如引入扩散模型、强化学习等方法。模型骨干网络的统一有望加速应用落地节奏。 在浅层神经网络阶段,最重要的任务就是解决梯度不稳定的问题。在这个问题未被妥善解决之前,神经网络应用性能不佳,而属于非神经网络的支持向量机算法(SVM)是解决人工智能模式识别的主流方法。 2011年Relu激活函数被提出、梯度消失问题被大幅缓解之后,神经网络进入深度学习时代,算法和应用的发展均突飞猛进。最初CNN、RNN等模型在不同的模态和任务中均各有擅长,2017年Transformer的提出让深度学习进入了大模型时代、2020年VisionTransformer的提出让深度学习进入了多模态时代,自此多模态和多任务底层算法被统一为Transformer架构。后续模型发展多采用“Transformer+其他算法”的形式进行微创新。目前大火的ChatGPT模型也采用Transformer骨干网络,并融合强化学习思想进行训练。 图表1:ChatGPT模型演进历程 来源:《OntheComparabilityofPre-trainedLanguageModels》(Matthias,2020),《EvaluatingLargeLanguageModelsTrainedonCode》(MarkChen,2021),OpenAI,BFT智能机器人研究公众号,国金证券研究所 算法、数据、算力是AI三要素,在AI相关技术中,训练方法作为搭建模型的核心技术与AI三要素间均有紧密联系。AI模型的训练方法主要包括监督学习与无监督学习两种典型方式,二者的区别在于是否使用带人工标注的数据集进行训练。随着模型训练数据量的增加,标记大量样本成本过于昂贵,衍生出使用大量未标注数据和少量标注数据的半监督学习方式。目前大模型训练多采用无监督(如BERT)或半监督(如InstructGPT/ChatGPT)的方式进行训练。 图表2:监督学习与无监督学习方式对比 来源:CSDN云计算,国金证券研究所 1.2ChatGPT有望赋能丰富场景,将带动算力和数据需求提升 ChatGPT作为迄今为止AI大模型最接近商用落地的成果,输出内容接近人类的常识、认知、需求和价值观。其采用的InstructGPT方法有望成为新一代AI开发范式,将极大程度促进语言类AI大模型的多场景落地。 图表3:ChatGPT有望促进AI大模型多场景落地 场景ChatGPT优势 AI客服、语音助手 现有的AI问答机器人仅能回答具体场景的定制式问题,通过调用ChatGPT相关技术有望帮助企业提升用户体验 搜索引擎 相较于传统搜索引擎,ChatGPT能够更好地理解客户需求并输出更为精简的内容,但目前模型更新的成本较高 文字创作 ChatGPT在邮件、新闻稿撰写方面与人工水平相近,可承担日常性文字创作工作,可作为办公软件的增值服务 医疗协助医生进行患者随访,电子病历撰写,辅助诊断等 教育辅助教师进行课程设计和备课教研,充当课堂助教实时回答学生问题,生成作业测验和考试游戏生成符合NPC角色设定的对话,丰富场景体验,也可辅助生成游戏 金融帮助金融机构监测行业趋势、财务数据、舆情走向等,快速生成财务分析报告或风险评估报告计算机代码有望辅助程序员完成部分重复和基础性开发工作 来源:36氪,CHIMA公众号,中国高等教育培训中心公众号,量子位公众号,中小银行互联网金融联盟公众号,国金证券研究所 短期来看,在语言大模型领域,国内外AI巨头与最先进的GPT-3.5仍存在一定技术差距,预计在未来1-2年内OpenAI仍将保持最领先的技术地位。国内在大模型领域积累深厚、现金流充足的头部AI企业有望率先实现技术突破,参照OpenAI目前的商业模式,未来AI厂商的大模型变现方式可分为以下2类: 直接收费:目前OpenAI已推出付费版ChatGPTplus,价格为20美元/月。 赋能收费:根据OpenAI于2021年3月发布的数据,GPT-3模型已经向超过300个应用提供SaaS服务,平均每天生成45亿词,根据我们的估算,这将为OpenAI带来每年约740万美元的收入。此外,2023年2月8日起ChatGPT与微软搜索引擎必应相连,新的交互模式极大增加了必应的用户活跃度,有望推动微软的广告服务收入大幅增长。 图表4:GPT-3API定价情况 模型名称 微调训练价格 使用价格 Ada(速度最快) 0.4美元/75万词 1.6美元/75万词 Babbage 0.6美元/75万词 2.4美元/75万词 Curie 3美元/75万词 12美元/75万词 Davinci(性能最好) 3美元/75万词 120美元/75万词 来源:OpenAI,国金证券研究所 目前国内在ChatGPT相关领域进展较快的企业包括百度、科大讯飞、商汤科技、阿里巴巴等。其中,百度宣布将于3月推出人工智能聊天机