您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:互联网行业专题报告:AI大模型ChatGPT取得突破性进展,国内大模型争相发布 - 发现报告
当前位置:首页/行业研究/报告详情/

互联网行业专题报告:AI大模型ChatGPT取得突破性进展,国内大模型争相发布

文化传媒2023-04-19谢琦国信证券劣***
AI智能总结
查看更多
互联网行业专题报告:AI大模型ChatGPT取得突破性进展,国内大模型争相发布

大模型提升机器理解能力,优化人机交互方式。AI大模型是实现通用人工智能(AGI)的重要方向,包含自然语言处理(NLP)、计算机视觉(CV),多模态大模型等。ChatGPT推出两个月MAU突破1亿,是自然语言处理领域突破性的创新,大力出奇迹后出现涌现能力,更理解人类语言。大模型“预训练+精调”即可对下游应用赋能。我们认为大模型优化人类与机器交互方式,是效率的革命。大模型是“大数据+大算力+强算法”结合的产物,对比国内外大模型,算力储备上国内并无短板;算法上OpenAI有先发优势;前期数据的丰富度和量对大模型的训练至关重要。 百度文心大模型:包含NLP、CV等在内的系列大模型。文心大模型包含NLP大模型、CV大模型、跨模态大模型、生物计算大模型、行业大模型等。与Bing类似,文心一言有望优化C端用户搜索、创作体验;ToB方面,百度已开放大模型API接口,在文案、AI作画、开放域对话方面赋能企业。对于具体行业,百度推出文心行业大模型,以“行业知识增强”为核心特色。 阿里巴巴通义大模型:由通义-M6模型融合语言模型和视觉模型组成,率先应用在硬件终端天猫精灵和软件通义千问。通义大模型包括统一底座“M6-OFA”,三大通用模型“通义-M6”“通义-AliceMind”“通义-视觉大模型”,以及行业层面的不同垂直领域专业模型。在应用上,天猫精灵基于通义大模型推出拟声助手“鸟鸟分鸟”;对话式通义千问已经开始内测。 腾讯混元大模型:采用热启动降低训练成本,文字视频等多领域表现优异,已在广告游戏等多场景落地。目前腾讯混元大模型已在腾讯广告、内容创作、游戏、对话式智能助手等方面实现落地,大幅提升工作效率并降低成本。 华为盘古大模型:基于ModelArts研发设计的系列模型,在物流、药物研发、气象预测等多领域已实现落地。目前盘古CV大模型已覆盖了物流仓库监控等领域;NLP大模型覆盖了智能文档检索、智能ERP和小语种大模型;科学计算大模型则应用于气象预报、海浪预测等方面。 字节跳动AI探索基础扎实,在语言大模型和图像大模型初步布局。字节跳动AIGC大模型将从语言和图像两种模态发力,预期在今年年中推出大模型。 字节跳动在算力、算法、数据方面并无短板。目前模型可用于图文、视频内容生成等,飞书将推出智能AI助手“MyAI”。 投资建议:当前,各家公司开展新一轮AI模型竞赛,希望借助大模型开展“模型即服务”的范式。算力、算法、数据是大模型能否成功的重要因素,重点关注在大模型领域有技术储备的国内公司腾讯控股、阿里巴巴、百度等。 风险提示:AI技术迭代进度不及预期;AI应用落地进度不及预期;政策风险;供应链风险等。 大模型概述:大模型提升机器理解能力,优化人机交互 AI大模型是实现通用人工智能(AGI)的重要方向 AI大模型是实现通用人工智能(AGI)的重要方向。AI大模型是基于海量多源数据打造的模型。AI大模型具备通用、可规模化复制等诸多优势,是实现AGI(通用人工智能)的重要方向。AI大模型当前包含自然语言处理(NLP)、计算机视觉(CV)等,统一整合的多模态大模型等。 ChatGPT推出两个月MAU突破1亿,是自然语言处理领域突破性的创新,进一步理解了人类语言。大语言模型(LargeLanguageModel,LLM)是一种使用了大量数据训练的深度学习算法,构建出一个能够理解人类语言并自动生成语言的模型。ChatGPT在2022年11月底推出后,2023年1月的月活跃用户数已达1亿,成为历史上用户增长最快的应用。ChatGPT的自然语言处理能力超越了以往的自然语言处理模型,可以应对各种自然语言处理任务,包括机器翻译、问答、文本生成等。 图1:消费级应用达到一亿用户花费时长(月) 图2:ChatGPT对话演示 ChatGPT由OpenAI研发,GPT模型已更新至GPT-4,大力出奇迹后出现涌现能力。GPT全称是GenerativePre-trainedTransformer,是OpenAI开发的一系列延伸自转换器架构(Transformer)的自然语言生成模型。2018年,OpenAI推出GPT-1。2022年11月,OpenAI推出了对话交互式的ChatGPT。ChatGPT在GPT-3.5之上用基于人类反馈的监督学习和强化学习(RLHF)进行微调。人类反馈的引入,使机器更理解人类语言,让GPT获得更逼真的结果。ChatGPT在逻辑推理、上下文理解等方面的能力,是模型规模达到量级后“涌现”出的。 图3:ChatGPT能力实现解析 大模型应用:“预训练+精调”即可对下游应用赋能,优化人类与机器交互方式 大模型借助“预训练+精调”等模式,用相比较大模型更少量的数据即可对下游应用赋能。预训练大模型基于海量数据的完成了“通识”教育。在具体应用场景下,借助“预训练+精调”等模式,应用模型用相比较大模型更少量的数据即可进行相应微调,高水平完成细分应用的任务。 图4:训练大模型“预训练+精调”模式 大模型增强机器理解力,优化人类与机器交互方式,提升信息处理效率。 1)自然语言类大模型:人类可以用自然语言方式,与机器形成交互。ChatGPT为自然语言方面的大模型应用,语言文本处理是人类世界最重要的工作内容之一,如果AI能够懂的人类自然语言,并与人类形成交互,将协助人类大幅提升语言文本处理效率,带来生产力效率提升。例如,ChatGPT可以依托人类自然问答的方式,帮助人类完成回答问题、虚拟助手(计划旅行、预定餐厅、购买产品等)、创作、文本、编程、摘要等工作。 我们也可以通过语言类大模型调用机器工具,大模型相当于人类助手。根据微软论文《SparksofArtificialGeneralIntelligence:EarlyexperimentswithGPT-4》,GPT-4能够根据人类指令推断出需要哪些工具,有效地解析这些工具的输出并适当地做出回应,而无需任何专门的训练或微调。2023年3月23日,OpenAI宣布推出插件功能,帮助ChatGPT访问最新信息、进行计算或使用第三方服务。据OpenAI官网,第一批支持ChatGPT第三方插件的网站共11个,包含电商、预定航班、订购食材、检索实时信息、检索知识库信息等领域。 图5:OpenAI宣布推出插件功能 2)视觉类大模型:与语言模型类似,视觉类模型需要完成对图片的理解。2023年4月6日,MetaAI在官网发布了基础模型SegmentAnythingModel(SAM)并开源,其本质是基于Transform模型架构,可以对图像中的一切对象进行分割。交互方面,SAM可使用点击、框选、文字等各种输入提示,指定要在图像中分割的内容。精准分割为大模型图像理解的基础。图像理解可以在智能驾驶、图像识别、安防(人脸识别)等方面进行利用。 图6:SegmentAnythingModel(SAM)演示 3)多模态融合:多模态为语言、图片、音频等多个模态的感知和认知融合。多模态大模型能够让机器结合环境因素来模拟人与人之间的交互方式,让图像、文本、语音等模态之间的统一表示和相互生成。多模态融合也是各大模型着重努力的方向。 当前,已有的大模型可在文本、图像等方面赋能,已有的渗透应用包括搜索引擎(Bing等)、办公工具(Microsoft365)、企业服务应用、垂直领域应用(金融、电商等)等等。根据2023阿里云峰会,阿里巴巴集团董事会主席兼CEO张勇表示“所有行业、所有应用、所有软件、所有服务都值得基于新型人工智能技术、基于AIGC各方面技术支撑、大模型支撑重做一遍”。 图7:大语言模型产品应用价值链与已渗透部分应用 大模型三要素:算力、算法、数据 大模型是“大数据+大算力+强算法”结合的产物。 1)算力是AI发展的基础设施,芯片至关重要。算力的大小代表着对数据处理能力的强弱。芯片性能越好,大模型的处理能力越快。比如,黄仁勋在2023年2月财报会中表示“过去十年,通过提出新处理器、新系统、新互连、新框架和算法,并与数据科学家、AI研究人员合作开发新模型,已使大语言模型的处理速度提高了100万倍。” 2)算法是AI解决问题的机制,源于算法理论发展、迭代优化。不同算法可以看做解决问题的不同路径,算法的优劣可以用空间复杂度与时间复杂度来衡量。例如,GPT是在Transformer模型基础上发展的,Transformer由GOOGLE在2017年提出。 Transformer相比于传统的循环神经网络(RNN)或卷积神经网络(CNN),在处理长文本时具有更好的并行性和更短的训练时间。 图8:生成式AI发展历程与ChatGPT的突出能力 3)数据是算法训练的养料,前期需要给模型喂养大量数据,形成模型理解能力,中后期数据质量决定了模型精度。机器学习中要用标注好的数据进行训练,数据标注对未经处理的初级数据进行加工处理,转换为机器可识别信息,只有经过大量的训练,覆盖尽可能多的各种场景才能得到一个良好的模型。 当前,数据的丰富度和量对大模型的训练至关重要,只有大量数据的训练,大模型才有理解能力涌现的可能。当前训练数据集来源多为公开数据,比如根据Alan D.Thompson文章,列举的大模型的数据集包括维基百科、书籍、期刊、Reddit链接、CommonCrawl和其他数据集等。 中后期,高质量数据将提升模型的精度。比如更加事实性的数据将提升模型准确性,更加通顺的中文语言将提升模型理解中文语言能力。另外,高质量反馈数据也可提高模型性能,比如ChatGPT采用人类强化学习RLHF,通过更专业的问题、指令、人类反馈排序等加强模型理解人类语言逻辑。最后,也可以通过更精准的垂类数据,完成部分更细分领域模型搭建。 图9:主要数据集大小汇总(部分,GB) 我们从以上三个维度,分析当前发布的部分大模型: 1)算力:算力布局主要来源于芯片的采购布局,算力基础设施的投入阻挡了部分小公司的入局。当前数据训练需要较高性能的芯片完成对整体模型神经网络的训练构建,供应厂商包括英伟达等。应用层面只需调用整体大模型里的部分神经网络,故对芯片要求没有训练模型时那么高。 2)算法:OpenAI仍有先发优势,GPT-3之后并未开源。每家公司都有自己实现大模型的路径算法,由于GPT在成立之初就坚持自己的算法路径(采用单项Transformer架构等),并在此基础上运用大量数据训练使得模型产生的涌现能力,取得了一定的成功,拥有先发优势。自GPT-3开始(2020年),OpenAI便不再公布大模型相关训练及技术细节。虽然当前OpenAI的成功提供部分借鉴,但其他公司仍需时间去研发追赶并进行模型迭代。 除此以外,部分公司在特定领域拥有算法积累的先发优势,比如搜索类公司对语料的切割和识别有先发优势,视觉类公司在图像领域识别有先发优势。 3)数据:当前中文语料规模与质量上不如英文语料。根据W3Techs,中文网站占全球网站数1.3%,英文网站占比63.6%。除此以外,由于中国移动互联网发展较为成熟,大量的中文数据资源被存于各家企业或机构里,较难共享。 表1:大模型比较 目前,国内已有百度、阿里巴巴、腾讯、华为等公司对AI大模型进行开发,各模型系列主要的NLP语言大模型、CV大模型、多模态大模型也已推出并实现部分应用落地。 此外,据36氪消息,字节跳动也在语言和图像大模型上有所布局,预期将于今年年中推出字节自研大模型。具体来看: 百度在AI方面布局多年,具有一定大模型先发优势。当前,申请文心一言API调用服务测试的企业已突破6.5万。在行业大模型上,已经与国网、浦发、吉利、TCL、人民网、上海辞书出版社等均有案例应用。 阿里通义大模型在逻辑运算、编码能力、语音处理方面见长,集团拥有丰富的生态和产品线,在出行场景、办公场景、购物场景和生活场景均有广泛应用。 腾讯混元大模型已经在广告投放、游戏制作投入使用,目前集团在研究对话式智能助手,预计投入使用后将对QQ和微信生态有一定优化。 华为与B端合作紧密,预计未来