投资评级:看好(维持) 核心观点 证券研究报告 最近12月市场表现 计算机 沪深300 41% 28% 16% 3% -9% -22% 分析师杨烨 SAC证书编号:S0160522050001 yangye01@ctsec.com 相关报告 1.《AI监管走到什么阶段了?》 2023-06-25 2.《模型成本持续降低,大规模商业变现渐行渐近》2023-06-19 3.《AI带领计算机进入强比较优势阶段》2023-06-11 海外风险扰动,大模型B端边际加速:本周计算机指数下跌7.09%,跑输沪深300指数7.22pct,在31个申万一级行业中涨幅排名31,年初至今计算机以27.57%的涨幅排名第3。本周海外地缘政治不确定性加剧,板块迎来较大幅度调整。我们此前看好板块行情的持续性的三个出发点未曾改变:1)基本面提供确定性、2)流动性带来可能性、3)政策力度决定β强度。在此基础上我们认为大模型在B端已具备基本技术条件,各公司也已陆续推出垂直领域的大模型产品与服务,B端商业化即将进入快速落地阶段。 大模型在B端落地已具备基本技术条件:全球的企业和开发者都在加速探索如何将AI大模型落地到现有的B端的商业场景中,包括但不限于基于基于已有垂域数据的价值挖掘,更智能化的问答体验,更高效率的自动化办公场景等等。目前开发者将垂域知识引入大模型主要采用两种思路:1)通过Fine-Tuning将垂域知识训练到模型的参数中、2)通过In-ContextLearning将垂域知识放在模型的prompt中。前者较有代表性的范式是Delta-Tuning,这其中最被开发者广泛关注和使用的是微软提出了LoRA(Low-RankAdaptation),其主要通过引入可训练的低秩矩阵,显著降低了微调模型的成本。后者较为常见的是使用Langchain+向量数据库的组合方案,通过将用户输入的prompt与向量数据库中相关的内容一起输入给大模型,成为了另一种可实现“大模型的通用能力+垂直领域的专业知识”的技术路径。 AIGC加速赋能B端用户,注重数据质量与专业性:由于安全合规以及大模型在细分行业回答精准度等问题,B端用户对AI大模型的接受节奏略慢于C端,当前利用通用数据+行业专业数据训练的面向垂直领域大模型逐步落地,将加速企业广泛使用大模型技术,AI在B端应用迎来加速。恒生电子将AI技术与金融业务know-how结合,打造金融行业大模型和全新数智产品,推出金融智能助手“光子”和智能投研平台WarrenQ,以及底层金融行业大模型LightGPT;拓尔思拓天大模型聚焦优势行业,利用自有的高质量数据进行预训练,推出适用于媒体、金融、政务的三大行业大模型;Glean定位基于AI的企业搜索与知识管理平台,协助用户跨应用、个性化搜索,能够更快、更准确地找到企业内部的知识和数据,打通各类SaaS化应用。 投资建议:见正文。 风险提示:AI技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。 请阅读最后一页的重要声明! 内容目录 1本周回顾:海外风险扰动,大模型B端边际加速3 2大模型在B端落地已具备基本技术条件3 3AIGC加速赋能B端用户,注重数据质量与专业性7 3.1恒生电子:发布大模型LightGPT,构建金融行业AI生态7 3.2拓尔思:拓天大模型聚焦优势行业,高质量数据赋能媒体、金融与政务领域8 3.3Glean:打通SaaS化应用,成为企业场景入口11 4投资建议12 5风险提示12 图表目录 图1.计算机板块相对各指数涨跌幅统计(2023.6.26-2023.6.30,单位:%)3 图2.本周各行业涨跌幅统计(2023.6.26-2023.6.30,单位:%)3 图3.大模型的通用能力助力B端商业场景快速落地4 图4.NLP技术发展的三次范式转移4 图5.Delta-Tuning是对LLM参数高效的微调范式5 图6.Langchain+向量数据库打造企业专属知识库问答系统6 图7.恒生电子发布新产品与大模型8 图8.拓天媒体行业大模型的训练、微调与对齐9 图9.拓天媒体行业大模型应用领域9 图10.拓天金融大模型技术能力与应用领域10 图11.拓天政务大模型助力政务行业应用质效提升10 图12.Glean产品的搜索功能11 图13.Glean产品的AI助手11 1本周回顾:海外风险扰动,大模型B端边际加速 行情短期波动,AI大模型B端应用边际加速。本周计算机指数下跌7.09%,跑输沪深300指数7.22pct,在31个申万一级行业中涨幅排名31,年初至今计算机以27.57%的涨幅排名第3。本周海外地缘政治不确定性加剧,板块迎来较大幅度调整。我们此前看好板块行情的持续性的三个出发点未曾改变:1)基本面提供确定性、2)流动性带来可能性、3)政策力度决定β强度。在此基础上,我们认为大模型在B端已具备基本技术条件,各公司也已陆续推出垂直领域的大模型产品与服务,B端商业化有望逐步进入快速落地阶段。 图1.计算机板块相对各指数涨跌幅统计(2023.6.26-2023.6.30,单位:%) 代码 名称 近5日涨跌幅 年初至今涨跌幅 周相对涨跌幅 年初至今相对 涨跌幅 801750.SI 计算机(申万) -7.09 27.57 - - 000001.SH 上证指数 0.13 3.65 -7.22 23.92 000300.SH 沪深300 -0.56 -0.75 -6.53 28.33 399006.SZ 创业板指 0.14 -5.61 -7.23 33.19 数据来源:Wind,财通证券研究所 图2.本周各行业涨跌幅统计(2023.6.26-2023.6.30,单位:%) 6.00 4.00 2.00 0.00 -2.00 -4.00 -6.00 -8.00 纺煤电国织炭力防服设军 饰备工 环机基轻公保械础工用设化制事 备工造业 钢石农美汽铁油林容车石牧护 化渔理 家医建综有用药筑合色电生装金 器物饰属 建电房非银通交筑子地银行信通材产金运 料融输 社商食传计会贸品媒算服零饮机务售料 数据来源:Wind,财通证券研究所 2大模型在B端落地已具备基本技术条件 大模型在B端商业场景有望边际加速。ChatGPT的横空出世,已让学术界和工业界充分意识到,OpenAI对生成类模型(GPT)和算法规模化(Scalability)的两个基础技术路线的持续押注,可能正是打开通用人工智能(AGI)这个终极理想的金钥匙。在这令人兴奋的技术奇点上,全球的企业和开发者都在加速探索如何将AI大模型落地到现有的B端的商业场景中,包括但不限于基于已有垂域数 据的价值挖掘,更智能化的问答体验,更高效率的自动化办公场景等等。无论是本周恒生电子发布的金融行业大模型LightGPT、拓尔思发布的拓天大模型(媒体、金融、政务),亦或是上周腾讯云发布的2B行业大模型的MaaS解决方案,都指向着“大模型的通用能力+垂直领域的专业知识”的结合正在成为大模型在B端落地的标准范式,我们有望持续看到大模型在B端商业化的边际加速。 图3.大模型的通用能力助力B端商业场景快速落地 数据来源:《EmergentAbilitiesofLargeLanguageModels》(JasonWei,YiTay等),财通证券研究所 Fine-TuningvsIn-ContextLearning,各有利弊的两种引入垂域知识的方式。如何将企业多年积累的垂域知识嫁接到大模型的通用能力上,是大模型在B端商业化落地的核心技术问题。目前开发者主要采用两种思路:1)通过Fine-Tuning将垂域知识训练到模型的参数中、2)通过In-ContextLearning将垂域知识放在模型的prompt中。目前这两种方案各有优劣,前者更有利于私有化部署,但训练成本高,且模型会出现原有知识/能力的遗忘;后者使用方便快捷,但受制于目前LLM对prompt中输入文本长度的瓶颈。通过下图回顾NLP领域的三次范式转移可以看到,微调(Fine-Tuning)实际上是更属于Bert时代的产物(其必须对下游任务进行改造,且模型更小),而本轮以OpenAI的GPT系列为代表的大模型更多是强调通过prompt去做In-ContextLearning,即“用下游任务去适配模型”而非Bert主张的“用微调的模型去适配任务”。我们认为上述两种方案将会在一定时间内并存,下文中我们也将对一些主流的训练方案做简要介绍。但随着大模型的参数量进一步增大,对模型微调,甚至直接用垂域知识预训练模型的成本会进一步提高。与此同时,随着embeddingmodel的持续降本和支持更长的上下文(例如OpenAI近期发布的text-embedding-ada-002),In-Context Learning有望逐渐成为更经济可靠的方案。 图4.NLP技术发展的三次范式转移 数据来源:《BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding》(JacobDevlin,Ming-WeiChang等),《LanguageModelsareFew- ShotLearners》(TomB.Brown,BenjaminMann等),财通证券研究所 Delta-Tuning是对LLM参数高效的微调范式。当大模型的规模越来越大时,做全局的微调,即重新训练所有的模型参数无疑会变得愈发不可行,亟需一种参数高效(Parameter-efficient)的新范式。清华与智源研究院在论文中对解决上述问题的方法进行了总结,这些方法本质上都是在尽量不改变原有模型参数的情况下引入一个增量参数(DeltaParemters)进行微调,因此将它命名为Delta- Tuning。在众多Delta-Tuning的实践中,最被开发者广泛关注和使用的,当属微软提出了LoRA(Low-RankAdaptationofLargeLanguageModels)。LoRA的原理是冻结预先训练好的模型参数,在Transformer架构的每一层注入一个可训练的低秩矩阵,并在模型训练过程中只训练降维矩阵A与升维矩阵B(下图橙色部分),其本质是基于LLM内在的低秩特性,增加旁路矩阵来模拟全参数微调。以微调175B参数的GPT-3为例,与Adam调优的GPT-3相比,LoRA可训练参数量减少了1万倍,GPU内存需求减少了3倍,显著降低了微调模型的成本。 图5.Delta-Tuning是对LLM参数高效的微调范式 数据来源:《LoRA:Low-RankAdaptationofLargeLanguageModels》(EdwardJ.Hu,YelongShen等),《DeltaTuning:AComprehensiveStudyofParameterEfficientMethodsforPre-trainedLanguageModels》(NingDing,YujiaQin等),财通证券研究所 Langchain+向量数据库打造企业专属知识库问答系统。LangChain是一套强大的大模型应用开发框架,集成了模型I/0、数据连接、链、代理、内存、回调等模 块,赋予了大模型:1)数据感知(可连接其他的外部数据源)、2)代理能力 (允许大模型与环境互动)。在LangChain的帮助下,开发者可以更加便捷的将大语言模型这一“大脑”装上“四肢”,赋予其访问本地文件、调用API接口、访问互联网等进阶能力,快速打造知识库问答、聊天机器人、结构化数据分析等功能。因此,使用LangChain将大模型与企业的垂域知识库连接(通常以向量数据库的形式),将用户输入的prompt在向量数据库中检索最相关的内容,再将返回的内容和输入的prompt本身一起成为输入给大模型的最终prompt,成为了另一种可实现“大模型的通用能力+垂直领域的专业知识”的技术路径。 图6.Langchain