证券研究报告 日期: 2023年04月03日 把握人工智能投资机会 ——AI人工智能ETF投资价值分析 主要观点 ChatGPT引领AI投资热潮:2022年11月,OpenAI公司推出一款聊天 分析师:张雨蒙 Tel:021-53686146 E-mail:zhangyumeng@shzq.comSAC编号:S0870521100005 分析师:乐威 Tel:021-53686145 E-mail:yuewei@shzq.comSAC编号:S0870522090001 基金研究深度 机器人程序ChatGPT,并在2023年3月发布GPT-4版本,产品上线后迅速受到市场关注。中证人工智能主题指数自2022年12月21日至2023年3月30日涨幅达36.72%,人工智能行业迎来新的投资机遇。 人工智能的三大核心要素是数据、算力和算法。我们认为,目前来看,国内在算法和数据方面相比美国有一定差距,但差距相对较小;相比而言,国内在算力上与国外先进水平的差距较大,需要长期大力发展。 人工智能应用场景广阔。随着技术的迭代和完善,人工智能在自动驾驶、教育、医疗、智慧家居等领域,均有广阔的应用场景。在政策支持和人工智能赋能下,各行业有望产生新的投资机会。 中证人工智能指数(指数代码:930713,以下简称“CS人工智”)选取为人工智能提供基础资源、技术以及应用支持的公司中的代表性公司作为样本股,反映人工智能主题公司的整体表现。 指数成分股均衡分散。相较同类指数,CS人工智在上中下游分布、中信二级行业分布上更加均衡分散,能更好地反应人工智能行业整体发展趋势和市场关注度。 指数成分股盈利水平稳健提升。CS人工智成分股的归母净利润、 EPS、ROE、ROIC等指标稳步向上,相对同类指数表现更加稳健。 中小市值股票弹性较大。CS人工智的成份股中,中小市值股票占比较大。类比成长板块的新能源行业历史情况,新能源指数价格在2020、2021年显著上涨,在此期间,市值在100-1000亿之间的中小市值新能源股票EPS增速整体较高,弹性较大。 AI人工智能ETF(512930)的业绩比较基准为CS人工智 (930713)。基金全称为平安中证人工智能主题交易型开放式指数证券投资基金,成立于2019年7月12日,是平安基金管理有限公司旗 下的一只股票型基金。现任基金经理为钱晶,于基金成立日2019年7 月12日任职。 风险提示 系统性风险,政策风险,模型失效风险。 目录 1人工智能行业投资前景广阔4 1.1ChatGPT引领AI投资热潮4 1.2中美人工智能行业发展对比5 1.3人工智能应用场景广10 2人工智能指数优势11 2.1指数编制方案11 2.2指数成分股分布相对均衡12 2.3成分股盈利水平稳健提升13 2.4中小市值股票弹性较大14 3AI人工智能ETF(512930)16 4风险提示16 图 图1:中证人工智能主题指数价格4 图2:ChatGPT训练方法5 图3:数据要素产业链7 图4:百度文心一言核心技术模块9 图5:同类指数成分股的AI权重占比11 图6:指数成分股上下游权重分布12 图7:CS人工智指数成分股的中信二级行业分布12 图8:中证数据指数成分股的中信二级行业分布12 图9:中证软件指数成分股的中信二级行业分布13 图10:云计算指数成分股的中信二级行业分布13 图11:指数归母净利润13 图12:指数归母净利润增速13 图13:指数EPS13 图14:指数EPS增速13 图15:指数ROE14 图16:指数ROE增速14 图17:指数ROIC14 图18:指数ROIC增速14 图19:CS人工智指数市值分布(截止2023年2月28日) ......................................................................................15 图20:新能源指数价格走势15 图21:各市值新能源股票的EPS增速15 表 表1:不同GPT版本使用的数据集5 表2:数据产业相关政策6 表3:中美芯片公司GPU参数对比7 表4:中美芯片公司CPU参数对比8 表5:GPT系列模型介绍9 表6:人工智能产业相关政策10 表7:CS人工智及同类指数编制方案11 表8:AI人工智能ETF基本信息16 1人工智能行业投资前景广阔 1.1ChatGPT引领AI投资热潮 2022年11月,OpenAI公司推出一款聊天机器人程序ChatGPT,上线后迅速受到市场关注,人工智能行业迎来新的投资机遇。下图展示了中证人工智能主题指数自2022年12月以来 的价格走势,该指数自2022年12月21日至2023年3月30日涨幅达36.72%,呈震荡向上趋势。 图1:中证人工智能主题指数价格 资料来源:Wind,上海证券研究所 ChatGPT由GPT-3.5系列中的一个模型微调而来,其训练方法主要分为三步: 第一步是利用有监督的微调模型,对预训练的语言模型在少量已标注的数据上进行调优,进而学习从给定的“提示”语句列表中生成输出的有监督的策略; 第二步是创建一个用于强化学习的奖励模型(RewardModel),标注者对模型输出的多个结果进行排序,创建一个由对比数据(comparisondata)组成的新数据集,在此数据集上训练新模型; 第三步是近端策略优化(PPO),根据奖励模型,使用PPO 强化学习算法对模型进行微调。 图2:ChatGPT训练方法 资料来源:OpenAI官网,上海证券研究所 1.2中美人工智能行业发展对比 人工智能的三大核心要素是数据、算力和算法。我们认为,目前来看,国内在算法和数据方面相比美国有一定差距,但差距相对较小;相比而言,国内在算力上与国外先进水平的差距较大,需要长期大力发展。 1.2.1数据 数据是AI的基础资源。以美国OpenAI的GPT系列为例,下表展示了GPT-1、GPT-2、GPT-3模型在训练过程中所使用的数据集,GPT系列模型的训练,对数据集的数量和质量要求均在不断提升。随着人工智能模型的迭代发展,大规模、高质量数据集的需求将进一步增长。 表1:不同GPT版本使用的数据集 资料来源:ImprovingLanguageUnderstandingbyGenerativePre-Training(AlecRadford等),LanguageModelsareUnsupervised MultitaskLearners(AlecRadford等),LanguageModelsareFew-ShotLearners(TomB.Brown等),上海证券研究所 与GPT系列模型所用到的数据集相比,国内如百度文心一言使用了大量中文数据集进行训练,在中文理解和处理上更有优 势。但目前对英文的理解和处理能力不及中文,部分原因是因为 训练数据样本不够大。当前,百度正在不断完善优化其数据集,未来有望在数据规模和质量上进一步提升。 同时,政府对数据产业高度重视,下表集中展示了近年来我国数据产业发展的相关政策,2022年12月国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》,提出“建立保障权益、合规使用的数据产权制度;建立合规高效、场内外结合的数据要素流通和交易制度;建立体现效率、促进公平的数据要素收益分配制度;建立安全可控、弹性包容的数据要素治理制度”,为数据要素产业的发展提供坚实的基础。 表2:数据产业相关政策 时间 政策 单位 发展思路 2021年5月 《全国一体化大数据中心协同创新体系算力枢纽实施方案》 国家发展改革委中央网信办工业和信息化部国家能源局 统筹围绕国家重大区域发展战略,根据能源结构、产业布局、市场发展、气候环境等,在京津冀、长三角、粤港澳大湾区、成渝,以及贵州、内蒙古、甘肃、宁夏等地布局建设全国一体化算力网络国家枢纽节点,发展数据中心集群,引导数据中心集约化、规模化、绿色化发展。 2021年7月 《新型数据中心发展三年行动计划(2021- 2023)》 工业和信息化部 用3年时间,基本形成布局合理、技术先进、绿色低碳、算力规模与数字经济增长相适应的新型数据中心发展格局。总体布局持续优化,全国一体化算力网络国家枢纽节点)、省内数据中心、边缘数据中心梯次布局。技术能力明显提升,产业链不断完善,国际竞争力稳步增强。算力算效水平显著提升,网络质量明显优化,数网、数云、云边协同发展。能效水平稳步提升,电能利用效率(PUE)逐步降低,可再生能源利用率逐步提高。 2021年11月 《“十四五”大数据产业发展规划》 工业和信息化部 到2025年,大数据产业测算规模突破3万亿元,年均复合增长率保持在25%左右,创新力强、附加值高、自主可控的现代化大数据产业体系基本形成。 2022年9月 《全国一体化政务大数据体系建设指南》 国务院 2023年底前,全国一体化政务大数据体系初步形成,基本具备数据目录管理、数据归集、数据治理、大数据分析、安全防护等能力,数据共享和开放能力显著增强,政务数据管理服务水平明显提升。到2025年,全国一体化政务大数据体系更加完备,政务数据管理更加高效,政务数据资源全部纳入目录管理。政务数据质量显著提升,“一数一源、多源校核”等数据治理机制基本形成,政务数据标准规范、安全保障制度更加健全。 2021年12月 《“十四五”国家信息化规划》 中央网络安全和信息化委员会 稳步推进数据要素化,加快推动数据要素流通,繁荣数据应用生态,增强数据服务于实体经济的效能,构建以数据为关键要素的数字经济。有序推动数据跨境流动,加快数字贸易发展,打造更加开放、透明、包容的全球数字贸易发展新生态。 2022年12月 《关于构建数据基础制度更好发挥数据要素作用的意见》 国务院 建立保障权益、合规使用的数据产权制度;建立合规高效、场内外结合的数据要素流通和交易制度;建立体现效率、促进公平的数据要素收益分配制度;建立安全可控、弹性包容的数据要素治理制度 资料来源:中国政府网、国家发改委官网,上海证券研究所 数据要素产业链主要包括数据供应、数据服务、数据需求三大环节。 数据供应环节主要包括用于数据操作和数据信息传输的电子设备制造行业,以及作为数据载体的基础软件研发等产业,为数据要素产业提供了硬件和软件方面的基础支持。 数据服务环节主要包括数据采集、存储、加工、流通、分析、安全等产业,由于原始数据无法直接使用,数据服务成为数据要素中不可或缺的环节。 数据要素的下游为数据需求方,涉及交通、金融、电力、教育、政务等行业。 随着上中下游企业的发展,国内数据要素产业链有望实现更加完 善的体系,为AI行业发展提供更有力的支撑。 图3:数据要素产业链 资料来源:拓尔思官网,上海证券研究所 1.2.2算力 AI大模型需要庞大的算力支持。2022年,美国限制对中国出口先进计算和半导体制造物项,芯片国产替代迫在眉睫。 GPU方面,美国的龙头公司主要为英伟达、AMD,根据3DCenter数据显示,在2022年二季度两者共占全球99%的市场份额;国内的GPU主要研发企业为壁仞科技、摩尔线程、海光信息等。由于我国GPU行业起步较晚,核心架构多为自研,研发难度高,在工艺制程、生态等方面与海外企业仍存在一定差距,需投入大量资金、人力和时间进行研发。在中美摩擦加剧、地缘政治冲突的背景下,国内GPU厂商仍需加速发展。 表3:中美芯片公司GPU参数对比 品牌 壁仞科技 海光 寒武纪 海思 摩尔线程 英伟达 英伟达 AMD AMD 产品 壁砺100P 深算一号 MLU370-X8 昇腾910 MTTS3000 A100PCIe H100PCIe INSTINCTMI100 INSTINCTMI250 发布年份 2022 2021 2022 2019 2022 2020 2022 2020 2021 工艺制程 7nm 7nm 7nm 7nm 7nm 7nm 4nm 7nm