华西计算机团队 2023年3月2日 分析师:刘泽晶 SACNO:S1120520020002 邮箱:liuzj1@hx168.com.cn 请仔细阅读在本报告尾部的重要法律声明 证券研究报告|行业深度研究报告 ChatGPT:百度文心一言畅想 AIGC行业深度报告(4) 核心逻辑: 国产“ChatGPT”扬帆启航。OpenAI的商业模式为API接口收费。我们认为此种商业模式具有“卡脖子”的风险,因此我国需要发展自主可控的“ChatGPT”。国产生态正在逐步繁荣,百度打响国产ChatGPT领域“第一枪”,其在算法、算力、数据、生态、平台五方面皆有储备;ChatGPT的竞争本质即大模型储备竞赛,大模型是人工智能发展的必然趋势,也是辅助式人工智能向通用性人工智能转变的坚实底座。大模 型分为NLP(自然语言处理)、CV(计算机视觉)、多模态和科学计算四类。此外,中美科技巨头已经开启大模型储备“军备赛”。 百度文心一言,开启国产ChatGPT新征程。百度是少有大模型语言训练能力的公司,模型储备方面,百度实现了全生态布局。1、NLP(自然语言处理),已经具备智能创作、摘要生成、问答、语义检索、情感分析、信息抽取等能力,且可以让机器人像人一样具有逻辑且自由对话;2、CV(计算机视觉),可用于应用于图像分类、目标检测、语义分割等场景,此外还可以应用于文档、卡证、票据等图像文字识别和结构化理解;3、跨境大模型,可实现AI作画、场景融合视觉常识推理、跨模态图像检索、跨模态文本检索等多场景;4、生物计算,应用场景为蛋白结构预测和小分子药物研发等领域。 百度为国产ChatGPT“领军企业”,具有算力积累和生态优势。平台方面:拥有自主生态的百度百舸·AI异构计算平台,具备高效率、多密度、高易用性、多场景部署、乐高式拼接等能力。算力方面:百度自身具有建设智能算力中心的实力,技术领先且自主可控,已有典型落地案例;服务器方面拥有自研的昆仑芯云服务器;芯片方面,昆仑芯AI芯片是百度自主研发的芯片,2代芯片已量产,具备算力支撑强、高速互联等多重优势。生态:百度大模型赋能千行百业,已有落地应用,合作厂商分别覆盖科技、金融、航天、影视、汽车、电子制造等诸多产业。此外,我们推测ChatGPT有望成为搜索引擎的流量入口,百度搜索引擎有望借助文心一言大模型的能力重回巅峰。此外,目前国产科技巨头已经开启大模型的“军备竞赛”,因此,我们判断,未来AI+有望赋能千行百业,具有AI+能力的厂商有望呈现“百花齐放”的态势。 投资建议:关注三条投资主线1)具备算力基础的厂商,重点推荐中科曙光,其他受益标的为寒武纪、商汤、海光信息、浪潮信息、景嘉微、拓维信息、神州数码、龙芯中科;2)具备AI算法商业落地的厂商,重点推荐科大讯飞、拓尔思,其他受益标的为海天瑞声;3)AIGC相关技术储备的应用厂商,受益标的为:百度、同花顺、三六零、金山办公。 风险提示:核心技术水平升级不及预期的风险、AI伦理风险、政策推进不及预期的风险、中美贸易摩擦升级的风险。 目录 01国产ChatGPT扬帆启航 02百度文心一言,开启国产ChatGPT新征程 03投资建议:梳理AIGC相关受益厂商 04风险提示 01国产“ChatGPT”扬帆启航 ChatGPT,AI的旷世之作,持续引爆市场:是OpenAI于2022年11月推出的聊天机器人,由于其功能强大,例如实现文章创作、代码创作、回答问题等功能,我们认为其具有跨时代的意义,例如实现勒“模糊搜索”到“精准推送”的跨越,因此持续引爆市场。 ChatGPT为AI接口收费,我国需自主可控:OpenAI(ChatGPT母公司)的商业模式为API接口收费,客户可以通过接入OpenAI的API接口获取获取相关图像、语言、代码调整服务,我们认为此种商业模式具有“卡脖子”的风险,一旦海外禁止API接口权限,会对我国AIGC生态造成严重影响,因此我国需要发展自主可控的“ChatGPT”。 国产生态正在逐步繁荣,百度打响“ChatGPT”领域“第一枪”:百度是少有预训练模型(大模型)语言训练能力的公司,其在算法、算力、数据、生态、平台五方面皆有储备,根据百度官方公众号,百度计划于2023年3月16日在北京总部召开新闻发布会,围绕国产版ChatGPT文心一言,我们认为此举正式意味着我国自主可控的“ChatGPT”即将问世。 ChatGPT在回答“费马小定理”百度官方预告 大模型的是人工智能发展的必然趋势:大模型即“大算力+强算法”结合的产物。大模型通常是在大规模无标注数据上进行训练,学习出一种特征和规则。基于大模型进行应用开发时,将大模型进行微调,如在下游特定任务上的小规模有标注数据进行二次训练,或者不进行微调,就可以完成多个应用场景的任务。 大模型是辅助式人工智能向通用性人工智能转变的坚实底座:大模型增强了人工智能的泛化性、通用性,生产水平得到质的飞跃,过去分散化模型研发下,单一AI应用场景需要多个模型支撑,每个模型需要算法开发、数据处理、模型训练、参数调优等过程。大模型实现了标准化AI研发范式,即简单方式规模化生产,具有“预训练+精调”等功能,显著降低AI开发门槛,即“低成本”和“高效率”。 数据、平台、算力是打造大模型生态的必备基础:数据是训练大模型参数的必备,我们认为可以理解成“燃料”;算力是训练大模型的底层动力源泉,一个优秀的算力底座在大模型(AI算法)的训练和推理具备效率优势;平台是大模型和算力之间的“桥梁”,可针对不同的模型和硬件,实现资源的合理分配,达到软硬件的最优组合,从而大幅提升训练模型的效率。 数据、平台、算力、算法关系示意图 大模型带来的AI技术与应用变革潜能被广泛验证,可以分为四类,分别是NLP(自然语言处理)、CV(计算机视觉)、多模态和科学计算。 NLP:近年来,随着预训练技术(大模型)、算力提升以及NLP海量数据和任务特性,大模型预训练在该领域取得显著突破,2018年,随着BERT(谷歌)的诞生,是利用海量无标注文本的监督学习,已经刷新多个AI权威技术榜单,3亿参数的BERT模型在权威GLUE的11任务刷新纪录,基准值推至80.4%,绝对值提升7.6个点。 CV:目前,主要以卷积神经网络(CNN)和Transformer为支撑的计算机大模型快速发展,比如,2021年的150亿参数的V-MoE推出,在 ImageNET准率高达90.35%,此外,国内厂商也逐渐发力,盘古CV大模型可提供OCR文字识别,并在多个场景落地。 多模态:大模型技术推动多模态模型不断迭代升级,比如阿里大模型M6,模型参数10万亿级别,持续拓宽大模型应用广度,覆盖电商、智能交互等场景,此外,OpenAI的CLIP(文本图像匹配)以及DALL·E2(文生图)持续落地。 科学计算:AI+科学计算持续引发大变革,比如生物制药、气象预报、地震探查、材料等领域,例如Deep-Mind推出的AlphaFold2能够覆 盖98.5%的人类蛋白质组,并对20种其他生物蛋白结构进行预测。 NLP和CV的发展现状与挑战对比科学计算中药物发现和合成化合物示意图 NLP CV 现状 分别在语言理解与生成、智能创 作、机器翻译、智能对话、知识应用图谱和定制化语言解决方案落地应用,整体算法发展顺利,数据源可获得性较强 D数据工业质检、智慧城市落地完善,场景多、可商业化市场大,拥有 最佳实践;人脸、OCR识别发展较为成熟 挑战 语言的歧义、文化差异及多样化、情感分析困难 3D/4D数据识别面临变形、光照、遮挡等可以依靠大规模预训练模型解决部分痛点的问题;数字人、数字孪生的数据获取困难,算法处理复杂 预期未来发展 以多个数据信息维度约束来验证 情感分析及文本分析的准确性 打通数据融合以突破3D/4D获取瓶颈 1.4中美科技巨头厂商开启大模型储备“军备赛” 国内外科技公司部分模型储备及应用场景 厂商 AI大模型 参数 领域 应用场景 谷歌 BERT 4810亿 NLP 语言理解与生成 LaMDA NLP 对话系统 PaLM 5400亿 NLP 语言理解与生成、推理、代码生成 Imagen 110亿 多模态 语言理解与图像生成 Parti 200亿 多模态 语言理解与图像生成 微软 Florence 6.4亿 CV 视觉识别 Turing-NLG 170亿 NLP 语言理解、生成 Facebook OPT-175B 1750亿 NLP 语言模型 M2M-100 150亿 NLP 100种语言互译 DeepMind Gato 12亿 多模态 多面手的智能体 Gopher 2800亿 NLP 语言理解与生成 AlphaCode 414亿 NLP 代码生成 OpenAI CLIP&DALL-E 120亿 NLP 图像生成、跨模态检索 Codex 120亿 多模态 代码生成 ChatGPT - NLP 语言理解与生成、推理等 百度 NLP大模型 千亿级别 NLP 语言理解、生成 CV大模型 CV 图像试别 跨模态计算大模型 多模态 语言理解与图像生成 生物计算大模型 CV 化合物表征学习、分子结构预测 阿里巴巴 。 M6 万亿级别 多模态 语言理解与图像生成 腾讯 混元大模型 - NLP 语言理解与生成 京东 K-PLUG - NLP 语言理解与生成、推理、代码生成 三六零 - - NLP 智能搜索 字节跳动 DA - NLP 语言理解 科大讯飞 中文预训练模型 - NLP 语言理解与生成、语言互译 美国科技巨头公司开启AI大模型“军备赛”: 谷歌:谷歌推出聊天机器人Bard,底层代码为LaMDA,我们认为LaMDA与ChatGPT算法具备一战之力。此外,BERT算法具备库时代的意义。 微软:目前,根据智东西报道,微软推移动版Bing,语音接入、AI群聊等功能。此外,微软本身也有在NLP、CV相关大模型的技术储备。 其他:例如FaceBook、亚马逊、DeepMind、英伟达等厂商已经加入大模型的“军备赛”,并分别在NLP、CV或多模态方面已有相应的技术储备,应用在语言生成、推理、代码生成、跨模态搜索等领域中。 我国需有自主可控AI大模型,生态正逐渐繁荣: 百度:是少有预训练模型(大模型)语言训练能力的公司,已经经历多次迭代,目前已覆盖众多方向,目前已有近百万开发者使用文心大模型,生态正在逐步繁荣,合作厂商覆盖科技、教育、工业、媒体、金融等诸多产业。 阿里:根据钛媒体数据,M6模型是中文多模态模型,参数规模高达万亿,已在超40个场景中应用,可以实现剧本创作等功能 其他:例如腾讯、京东、科大讯飞、字节跳动、网易等纷纷加入“军备赛”,分别拥有独特技术架构,应用在智慧音效、AI视频创作、AI语音、AI作文、AI搜索等应用场景中。 01百度文心一言,开启国产ChatGPT新征程 百度是少有大模型语言训练能力的公司:其文心大模型和OpenAI的GPT模型类似,在2019年就已经推出,并且已经迭代了多代,从单一的自然语言理解延伸到多模态,包括视觉、文档、文图、语音等多模态多功能,因此“文心一言”所基于的ERNIE系列模型也已经具备较强泛化能力和性能。 我们认为百度作为国产ChatGPT“领军企业”,符合数据、平台、算力、大模型、生态多重要素需求:算力方面,百度拥有自主生态的 算力底座,比如百度智算中心;AI芯片方面,坐拥昆仑芯加速器,实现了核心自主可控,且性能优异;平台方面,百度具备百度百 舸·AI异构计算平台,具有高性能、高弹性等优势;大模型储备方面,百度实现了全生态的布局,其中包括NLP、CV、大模型、生物计算等领域,且在不同场景中已有较多应用。数据方面,根据IDC数据,其拥有5500亿条知识,且已经应用于百度搜索、信息流、智能驾驶、百度地图、小度等产品。 百度文心全景图 百度文心全景图 百度文心一言NLP方向算法储备齐全:其中著