行业研究|行业周报 看好(维持) 算力和AI应用短期更具吸引力,数据要素板块是长期确定主线 计算机行业 国家/地区中国 行业计算机行业 报告发布日期2023年06月18日 核心观点 上周计算机指数上涨5.4%,强于各市场指数,其中算力主线表现最为突出。我们认为,AI依然是未来一段时间市场最关注的方向,同时,数据要素政策预期以及数字 资源在大模型训练与应用落地中的重要性不断凸显,也将支撑相关板块的表现。 AI应用有望迎来更高关注度:据路透社等外媒报道,国家主席习近平会见比尔盖茨时表示,欢迎美国企业将AI技术带到中国,我们认为这将有助于提升国内企业借助 GPT等技术进行应用落地的预期。此外,市场也期待网信办早日出台针对大模型的管理办法,相关政策的落地也为应用端落地打下基础。 算力主线呈现较明显的标的扩散:由于大模型的训练与推理需要强大的算力支撑, 相关行业正处于供给紧张和高景气状态。除了服务器厂商订单较为饱满外,市场还关注云与IDC公司积极采购GPU卡,向市场提供智能算力服务。我们认为,由于算力紧张在较长时间内都不易出现显著缓解,政府也在积极推动各地智算中心建设,相关的领域的热度有望维持。 数据要素领域政策有望持续推出:去年底“数据二十条”发布后,各部委及地方将围绕顶层文件中所明确的原则与方向进行一系列具体细则与措施的制定。近期,杭 州、深圳相继出台公共数据运营管理办法和数据资产登记管理办法。我们继续推荐数据资源持有方、公共数据授权运营企业以及相关技术服务提供商。 投资建议与投资标的 AI应用领域,建议关注彩讯股份(300634,未评级)、新致软件(688590,未评级)、汉得信息(300170,未评级)、金山办公(688111,增持)、致远互联(688369,未评级)、用友网络(600588,买入)、万兴科技(300624,未评级)等企业。 算力领域,建议关注中科曙光(603019,买入)、紫光股份(000938,未评级)、深桑达A(000032,未评级)、海光信息(688041,买入)、首都在线(300846,未评级)、拓维信息(002261,未评级)、铜牛信息(300895,未评级)、亚康股份(301085,未 评级)等。 数据要素板块,建议关注航天宏图(688066,买入)、上海钢联(300226,增持)、每日互动(300766,未评级)、远光软件(002063,买入)、银之杰(300085,未评级)、 山大地纬(688579,未评级)、云赛智联(600602,未评级)、三维天地(301159,未评级)、易华录(300212,未评级)等。 风险提示 技术落地不及预期;政策监管风险 证券分析师浦俊懿 021-63325888*6106 pujunyi@orientsec.com.cn 执业证书编号:S0860514050004 证券分析师陈超 021-63325888*3144 chenchao3@orientsec.com.cn 执业证书编号:S0860521050002 联系人杜云飞 duyunfei@orientsec.com.cn 联系人覃俊宁 qinjunning@orientsec.com.cn 联系人宋鑫宇 songxinyu@orientsec.com.cn 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、本周行业观点4 二、本周行业专题:大模型发展推升向量数据库需求4 2.1向量数据库:大模型时代的知识存储与检索库4 2.2大模型打开向量数据库市场空间,私域数据管理是核心应用场景6 2.3国内知名向量数据库产品介绍8 2.3.1Zilliz:全球最流行的开源向量数据库Milvus8 2.3.2星环科技:云原生分布式向量数据库Hippo9 风险提示9 图表目录 图1:2025年80%的数据都将是非结构化数据4 图2:非结构化数据库在常规应用中的挑战4 图3:非结构化数据的向量化表征5 图4:不同文本在向量空间中的相似度计算5 图5:向量数据库和大模型进行协同工作的过程6 图6:摩根士丹利用GPT-4管理其内容知识库7 图7:2023年6月DB-engines向量数据库排名8 图8:2023年6月DB-engines各类型数据库流行度占比8 图9:Milvus架构8 图10:Milvus支持快速以图搜图8 图11:星环科技向量数据库运行简介9 图12:星环科技向量数据库和图数据库结合开发应用9 表1:全球知名向量数据库简介6 一、本周行业观点 上周计算机指数上涨5.4%,强于各市场指数,其中算力主线表现最为突出。我们认为,AI依然是未来一段时间市场最关注的方向,同时,数据要素政策预期以及数字资源在大模型训练与应用落地中的重要性不断凸显,也将支撑相关板块的表现。 AI应用有望迎来更高关注度:据路透社等外媒报道,国家主席习近平会见比尔盖茨时表示,欢迎美国企业将AI技术带到中国,我们认为这将有助于提升国内企业借助GPT等技术进行应用落地的预期。此外,市场也期待网信办早日出台针对大模型的管理办法,相关政策的落地也为应用端落地打下基础。 算力主线呈现较明显的标的扩散:由于大模型的训练与推理需要强大的算力支撑,相关行业正处于供给紧张和高景气状态。除了服务器厂商订单较为饱满外,市场还关注云与IDC公司积极采购GPU卡,向市场提供智能算力服务。我们认为,由于算力紧张在较长时间内都不易出现显著缓解,政府也在积极推动各地智算中心建设,相关的领域的热度有望维持。 数据要素领域政策有望持续推出:去年底“数据二十条”发布后,各部委及地方将围绕顶层文件中所明确的原则与方向进行一系列具体细则与措施的制定。近期,杭州、深圳相继出台公共数据运营管理办法和数据资产登记管理办法。我们继续推荐数据资源持有方、公共数据授权运营企业以及相关技术服务提供商。 二、本周行业专题:大模型发展推升向量数据库需求 2.1向量数据库:大模型时代的知识存储与检索库 大模型发展如火如荼,向量数据库需求逐步提升。去年12月ChatGPT上线后,引发了全球范围内的“ChatGPT”热,大语言模型(LLM,LargeLanguageModel)也成为了当下人工智能领域最热的研究方向。多模态能力,即大模型对于多种数据类型如文本、图像、视频等进行综合处理分析的能力成为了目前业界最为关注的点,也是大模型能够在更多领域进行商业化应用的关键能力。像图像、音频、视频等非结构化数据,呈现出体量大、格式和存储方式多样、处理速度要求高、潜在价值大等特点,传统的关系型数据库对这些数据的处理能力较为有限,如使用文件系统、多类不同数据库存储上述数据,在数据存储管理、查询分析效率、数据价值挖掘等方面都存在一定的瓶颈,无法满足大模型时代中智能问答的需求。据IDC预测,到2025年,80%的数据都将是非结构化数据。因此,向量数据库的需求也随着大模型时代的快速发展开始提升。 图1:2025年80%的数据都将是非结构化数据图2:非结构化数据库在常规应用中的挑战 应用场景 挑战 存储 常规关系数据库非常适合保存结构化数据,但不适合非结构化数据 表示 需要将非结构化数据转换为一些有效的向量或嵌入表征,才能完成后续任务 查询 结构化数据的检索与查询,无法像结构化数据一样通过SQL匹配查询,通常要进行向量级别的比对与排序等 数据来源:ShowMeAI,东方证券研究所数据来源:ShowMeAI,东方证券研究所 向量数据库通过将数据转化为向量存储,解决大模型海量知识的存储、检索、匹配问题。向量是 AI理解世界的通用数据形式,生成式AI大模型需要大量的数据进行训练,以获取丰富的语义和上下文信息,导致了数据量的爆发式增长。向量数据库利用人工智能中的Embedding方法,将图像、音视频等非结构化数据抽象、转换为多维向量,由此可以结构化地在向量数据库中进行管理,从而实现快速、高效的数据存储和检索过程,赋予了大模型“长期记忆”。同时,将高维空间中的多模态数据映射到低维空间的向量,也能大幅降低存储和计算的成本,向量数据库的存储成本比存到神经网络的成本要低2到4个数量级。 Embedding技术和向量相似度计算是向量数据库的核心。Embedding技术是一种将图像、音视频等非结构化数据转化为计算机能够识别的语言的方法,例如常见的地图就是对于现实地理的Embedding,现实的地理地形的信息其实远远超过三维,但是地图通过颜色和等高线等来最大化 表现现实的地理信息。在通过Embedding技术将非结构化数据例如文本数据转化为向量后,就可以通过数学方法来计算两个向量之间的相似度,即可实现对文本的比较。向量数据库强大的检索功能就是基于向量相似度计算而达成的,通过相似性检索特性,针对相似的问题找出近似匹配的结果,是一种模糊匹配的检索,没有标准的准确答案,进而更高效地支撑更广泛的应用场景。 图3:非结构化数据的向量化表征图4:不同文本在向量空间中的相似度计算 数据来源:ShowMeAI,东方证券研究所数据来源:墨天轮,东方证券研究所 常见的大模型和向量数据库共同协作进行知识检索匹配的过程可以分为四个步骤: 1)知识库准备:由于大语言模型通常存在上下文限制,如GPT-4的最大输入文本长度为32ktoken,无法将较长的文本比如一个庞大的PDF文件直接放进文本框。所以在向量数据库的场景中,先把长文本分割为多个片段文本块,再通过Embedding技术把文本块变成向量数组,存储在向量数据库中,形成知识库; 2)用户输入prompt:用户针对知识库中的某些内容进行提问。输入prompt后,向量数据库会先通过Embedding技术将prompt转化为向量,然后用prompt形成的向量和知识库中存储的多个向量进行相似性检索,得到和prompt向量相似度排名最高的N个向量; 3)向量数据库进行promptengineering:在得到和prompt向量最相似的N个知识库向量后,向量数据库会进行promptengineering。通过逆Embedding技术,将prompt向量和N个知识库向量逆向成为文本,并形成标准的prompt形式——现在给定N段文本,请根据这N段文本的内容回答用户提出的问题。将此标准的prompt再输入给大模型; 4)大模型返回结果:大模型接收标准的prompt,开始针对用户的提问进行回答。 图5:向量数据库和大模型进行协同工作的过程 数据来源:东方证券研究所绘制 大模型的快速应用,推动向量数据库向高扩展、高性能、实时性方向发展。大模型正在与企业应 用迅速结合,重塑企业应用中人与数据的交互方式。多种应用带来海量的数据,对向量数据库的扩展性提出了高要求;而向量数据复杂度的提升,模型推理速度的加快等也要求能够提供高性能的检索能力;实时动态变化的数据,对向量数据库的实时写入、实时更新、实现召回能力的要求变高,通过将实时资讯、实时新闻、市场行情等快速变化的信息及时地内置到模型中,使其能够提供更实时、更精准的结果。我们认为,向量数据库承担了大模型时代知识存储和检索库的角色,是大模型的海马体,让大模型能够存储长期记忆。 2.2大模型打开向量数据库市场空间,私域数据管理是核心应用场景 2023年以来向量数据库融资热度激增。在大模型热潮来临之前,整个向量数据库市场一年只有几亿美元。直到2022年底ChatGPT的横空出世,如killerapp一般拉高了市场天花板,也让大模型和向量数据库开始真正出圈。2023年以来,多家向量数据库的公司获得了大手笔的投资,向量数据库面向的开发者也从几万迅速提升到全球几千万。 表1:全球知名向量数据库简介 公司 成立时间 融资情况 产品特点 Zilliz(Milvus) 2017 2022年B轮融资1.03亿美元,估值超过6亿美元 2019年开源,全球首个云原生向量数据库Milvu