大模型是AI开发的新范式,是人工智能迈向通用智能的里程碑:大模型指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型,本质依旧是基于统计学的语言模型,只不过“突现能力”赋予其强大的推理能力。现有的大模型的框架在本质上是一致的,几乎所有参数规模超过千亿的大语言模型都采取GPT模式,但是不同类型的企业给予自己所在领域的优势,开发的大模型在功能上还是有所差异。技术对大模型的效果具有决定作用,因此未来竞争格局也依赖于技术突破。 算力是AI时代的“石油”:大模型的训练和推理都会用到AI芯片的算力支持,在数据和算法相同情况下,算力是大模型发展的关键,是人工智能时代的“石油”。我们假设GPT-3训练时间为一个月,则需要843颗英伟达A100芯片。我们假设GPT-3每日日活为5000万,则需要约16255颗英伟达A100芯片。GPT-4为多模态数据,我们预计算力需求量是GPT-3的10倍以上。中国大厂相继布局大模型,我们测算,仅十家头部厂商大模型1年内有望增加约20万片A100需求量。长期来看,则需求量有望超200万片,新增算力需求将使算力市场增长2倍以上。 2021年,中国加速卡市场中Nvidia占据超过80%市场份额,国产AI芯片性能与海外仍有差距,国产大模型推出有望加快国产芯片发展。 数据资源是AI产业发展的重要驱动力之一:数据集作为数据资源的核心组成部分,是指经过专业化设计、采集、清洗、标注和管理,生产出来的专供人工智能算法模型训练的数据。大规模语言模型性能强烈依赖于参数规模N,数据集大小D和计算量C,训练数据主要来自于维基百科、书籍、期刊、Reddit社交新闻站点、Common Crawl和其他数据集,GPT4依靠大量多模态数据训练。未来AI模型的竞争力或体现在数据质量和稀缺性,发展数据要素市场,促进相关公共、企业、个人数据的进一步放开,将为国内AI发展提供重要支撑。 AI赋能各行各业,未来是AI应用的星辰大海:AI堪比第四次技术革命,本轮最直接的应用在内容创作领域,打开产业的想象边界。我们应该去寻找在AI赋能下,应用功能显著改善、客户粘性显著提升,市场空间大幅提升的领域,主要有内容创作,办公软件,ERP,机器人以及芯片设计领域。当前部分大模型厂商已经开启产业化应用,但是算力依旧是限制AI大规模商业化落地的主要原因,一旦解决,直接受益AI+的将是信息化行业,因此我们看好各行业信息化领域处于优势地位的龙头公司。 投资建议:算法上,我们建议关注已经有先发优势的大模型公司:三六零、科大讯飞、同花顺等,此外还有一些实施企业,如软通动力、润和软件、汉得信息等;算力上,我们推荐景嘉微、中科曙光、神州数码,建议关注海光信息、寒武纪、四川长虹、拓维信息等;数据上,我们推荐各细分赛道的信息化龙头企业,如久远银海、容知日新、中控技术,建议关注国能日新、千方科技等;应用上,我们推荐在具备“杀手级”应用潜能的厂商金山办公、用友网络、恒生电子,建议关注广联达、石基信息等。 风险提示:政策推进不及预期;行业竞争加剧 1.算法:大模型——人工智能迈向通用智能的里程碑 大模型就是Foundation Model(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。大模型兼具“大规模”和“预训练”两种属性,面向实际任务建模前需在海量通用数据上进行预先训练,能大幅提升人工智能的泛化性、通用性、实用性,是人工智能迈向通用智能的里程碑技术。 图1:大语言模型 大模型的本质依旧是基于统计学的语言模型,“突现能力”赋予其强大的推理能力。 通俗来讲,大模型的工作就是对词语进行概率分布的建模,利用已经说过的话预测下一个词出现的分布概率,而并不是人类意义上的“理解”。较过往统计模型不同的是,“突现能力”使得大模型拥有类似人类的复杂推理和知识推理能力,这代表更强的零样本学习能力、更强的泛化能力, 当前几乎所有参数规模超过千亿的大语言模型都采取GPT模式。近些年来,大型语言模型研究的发展主要有三条技术路线:Bert模式、GPT模式以及混合模式。Bert模式适用于理解类、做理解类、某个场景的具体任务,专而轻,2019年后基本上就没有什么标志性的新模型出现;混合模式大部分则是由国内采用;多数主流大语言模型走的还是GPT模式,2022年底在GPT-3.5的基础上产生了ChatGPT,GPT技术路线愈发趋于繁荣。 图2:Transformer引领了大模型的爆发 GPT4作为人工智能领域最先进的语言模型,在如下四个方面有较大的改进。1)多模态:GPT4可以接受文本和图像形式的prompt,在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等);2)多语言:在测试的26种语言的24种中,GPT-4优于GPT-3.5和其他大语言模型(Chinchilla,PaLM)的英语语言性能;3)“记忆力”:GPT-4的最大token数为32,768,即2^15,相当于大约64,000个单词或50页的文字,远超GPT-3.5和旧版ChatGPT的4,096个token;4)个性化:GPT-4比GPT-3.5更原生地集成了可控性,用户将能够将“具有固定冗长、语气和风格的经典ChatGPT个性”更改为更适合他们需要的东西。 图3:GPT-4多语言性能表现优秀 图4:GPT-4的文字输入限制 现有的大模型的框架在本质上是一致的,尚未出现技术上的“降维打击”。GPT-4虽然整体性能最为领先,但从技术上看,GPT-4仍然是对自然语言处理增强学习、深度循环神经网络及其改进版本、大模型等已有技术的组合的创新,并且通过足够大量的数据进行支持,并非在大模型技术上有革命性突破。虽然国内AI大模型版本相对要滞后一些,但是并不存在不可弥补的鸿沟。 参数量和数据量是决定了模型效果。通常认为,参数量大于1000亿时,模型才有可能形成“突现能力”,这种现象在GPT3后开始更加显著。过往的NLP模型是按照具体任务和具体数据来训练的,所以数据质量越好,模型效果越好。而从Transformer开始,除了数据质量外,数据数量的重要性也愈发重要。因此参数量和数据量决定了模型最终的效果,最直观的效果指标就是准确度。此外,IDC搭起了大模型评估框架V1.0以充分评估大模型技术能力、功能丰富度与底层深度学习平台开发能力,以及对各行业赋能的实际效果。 图5:大模型评估框架V1.0 当前大模型的商业模式是“通用大模型+产业模型”。底层AI大模型的研发具有极高的研发门槛,面临高昂的成本投入,不利于人工智能技术在千行百业的推广。而具有数据、算力、算法综合优势的企业可以将模型的复杂生产过程封装起来,通过低门槛、高效率的生产平台,向千行百业提供大模型服务。各个行业的企业只需要通过生产平台提出在实际AI应用中的具体需求,生产大模型的少数企业就能够根据应用场景进一步对大模型开发训练,帮助应用方实现大模型的精调,以达到各行业对于AI模型的直接应用。 图6:大模型的投入成本 不同类型的企业在发展大模型拥有的优势也不尽相同。1)一是以阿里巴巴、华为、腾讯及百度为代表的基础云厂商,既具备做出通用ChatGPT的能力,也有着足够的数据和算力。2)二是以科大讯飞为代表的AI算法领先企业,被视为计算机板块中最有可能做出通用ChatGPT的公司。3)拥有天然的场景应用及配套数据优势的互联网平台。例如,国内最大的在线问答社区——知乎,以问答类任务为主模式与GPT天然契合。4)拥有高价值内容数据的企业也具备做好大模型的核心要素,可以大幅提升对人类意图的理解,从而提升回答信息的准确性。 各大厂商大模型百花齐放,核心差异在于细节。以国内厂商为例:1)百度由于多年在AI领域的深耕,其文心大模型涵盖基础大模型、任务大模型、行业大模型的三级体系,打造大模型总量约40个。2)腾讯混元应用方向则主要是腾讯自身生态的降本增效,其中广告类应用表现出色。3)阿里更重技术,通义大模型基于阿里云、达摩院打造的硬件优势,可将大模型所需算力压缩到极致;另外其底层技术优势还有利于构建AI的统一底层。4)华为的优势则在于其训练出业界首个2000亿参数以中文为核心的预训练生成语言模型,包括NLP、CV、多模态、科学计算大模型,目前已实现医学、气象、时尚等多个AI场景落地。5)中科院的紫东太初是全球首个视觉-文本-语音三模态预训练模型,同时具备跨模态理解与跨模态生成能力。 图7:百度文心一言 图8:华为盘古 当前全球人工智能创新链基本形成了中美两国主导、东亚北美西欧协同引领的格局。 美国是人工智能发展领域的前沿国家,其拥有一系列具备充足技术和资金资源的公司和实验室,各巨头科技公司均有相关的技术资源。其代表性模型有ChatGPT、Claude、BarT、BlenderBot3、Megatron-Turing等;中国虽然在大模型上差距尚存,但研究和开发都非常活跃,正在加速追赶,也开发出了一些比较有代表性的模型,如百度文心一言、阿里通用、腾讯混元、华为盘古、中科院紫东太初等;东亚、北美、西欧等地区国家协同引领大模型发展,各有成果问世,如俄罗斯的YaLM、英国的Gopher、韩国的HyperCLOVA、以色列的Jurassic-1 Jumbo等。 图9:OpenAI-ChatGPT 图10:Google-BERT 如果仍维持Transformer的模型架构基础,未来行业将是寡头垄断的竞争格局。一方面,现有的大模型已经开始训练,在模型训练上有绝对的优势,模型的效果也会更好; 另一方面,随着大模型版本的迭代,每一代大模型的算力、训练成本也有迹可循,对资金的需求也会持续扩大,没有雄厚资金支持的企业会逐渐掉队。 一旦大模型技术出现突破,行业竞争格局有望一家独大。由于当前大模型的技术是公用的,没有哪家存在明显的技术领先,因此各行各业厂商纷纷入局,希望分得一杯羹,因此出现了大模型百花齐放的竞争格局。一旦出现技术突破,大模型的准确度以及智能化出现了“碾压”的优势,行业需求会迅速向NO.1集中,有望形成一家独大的竞争格局。 2.算力:AI训练的基础设施 大模型算力成本主要分为初始训练成本和后续运营成本。 初始训练:根据openAI官网数据,每个token(token是服务端生成的一串字符串,以作客户端进行请求的一个令牌)的训练成本通常约为6N FLOPS(FLOPS指每秒浮点运算次数,理解为计算速度,可以用来衡量硬件的性能),其中N是LLM(大型语言模型)的参数数量。1750亿参数模型的GPT-3是在3000亿token上进行训练的。根据openAI官网数据,在训练过程中,模型的FLOPS利用率为46.2%。我们假设训练时间为1个月,采用英伟达A100进行训练计算(峰值计算能力为312 TFLOPS FP16/FP32),则测算结果为需要843颗英伟达A100芯片。 图11:用时1个月训练ChatGPT-3需要英伟达A100芯片数量 运营(推理)成本:运营阶段所需算力量与使用者数量紧密相关。根据openAI官网数据,每个token的推理成本通常约为2N FLOPS,其中N是LLM的参数数量。根据openAI官网数据,在训练过程中,模型的FLOPS利用率为21.3%。同样采用英伟达A100进行推理计算(峰值计算能力为312 TFLOPS FP16/FP32)。我们假设GPT-3每日5000万活跃用户,每个用户提10个问题,每个问题回答400字,则测算结果为需要16255颗英伟达A100芯片。 图12:维持ChatGPT-3每日5000万月活运营需要英伟达A100芯片数量 GPT-4为多模态大模型,对算力要求相比GPT-3会提升10倍。GPT-4的收费是8k context为$0.03/1k token,是GPT-3.5-turbo收费的15倍($0.002 / 1K tokens),因此我们推断GPT-4的参数量是GPT-3的10倍以上,预计GPT-4的算力需求是GPT-3的10倍以上。 表1