行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

GPT4展望：多模态，chatGPT下一站

信息技术 2023-02-28 刘高畅国盛证券甜兔

发现报告（www.fxbaogao.com）是国内备受推崇的研报平台，拥有庞大的用户群体。这里的研报资源极其丰富，数量惊人，涵盖了宏观、行业、公司及财报等所有领域。我们专注于内容的全面性和时效性，配合极简的设计风格，让您的查阅体验无比顺畅。不管是做研究还是做投资，这里都是您获取关键信息、实现精准决策的最佳渠道。

GPT4有望于2023年发布，但参数量可能不会有巨幅提升，而是向其他方向寻求提升。GPT4有可能是一个多模态模型，可用于图像等领域。若GPT4转向多模态，未来输入输出可能出现图像、视频等形态，有望打开下游千行百业应用空间。建议关注视频场景的当虹科技、网达软件，以及视觉场景的海康威视、大华股份、云从科技、商汤科技。

GPT4有望于2023年发布。根据《财富》杂志报道，OpenAI还有更多创新蓄势待发，OpenAI在贝塔测试版GPT-4中采用了更强大的大语言模型，预计该版本将于今年甚至很快发布。关于GPT4的猜测众说纷纭，尘嚣甚上，且公开信息较为有限，我们在此总结各路信息、展望未来，供各位投资者参考：相较前代，GPT4可能不会有参数量上的巨幅提升，而是在其他方向寻求提高。在2023年1月18日的一场公开采访中，当OpenAI的CEO Sam Altman被问及一张在推特上被疯转的图表时（该图表称GPT-3拥有1750亿参数，而GPT-4可能拥有100万亿参数），Altman称其“完全是胡说”。这证明了即将到来的GPT4可能不会往一味巨幅扩大参数量的方向去走，而可能向其他方向寻求提升。 GPT4有可能是一个多模态模型，可用于图像等领域。根据The Seattle Times新闻报道，GPT4可能是一个很像ChatGPT的系统，只生成文本；或者它也可以把图像和文字结合起来。一些风投机构和微软员工已经看到了它的运行情况，但是OpenAI还没有确定新系统是否会发布涉及图像的功能。此外，根据财富杂志报道，OpenAI也确实在开发一款通过文字能生成视频的AI模型。若GPT4转向多模态，未来输入输出可能出现图像、视频等形态，有望打开下游千行百业应用空间。NLP只是大模型的应用领域之一，未来大模型的输入输出可以不仅限于文字，虽然当前影响力最强的ChatGPT是NLP模型，还可以包括图像、视频等多种形式，成为多模态模型，例如OpenAI的绘画AI模型DALL-E2，在AIGC界引起过巨大反响的Stable Diffusion等等。传统的CNN演绎下视觉应用解决问题都是单点模式，CHATGPT多模态有望带来通用模式。传统CNN模式下，视觉AI公司倾向于采用单点方式，在各个碎片场景中做客制化落地，定制化程度相对较高；若转向大模型模式，GPT4的多模态能力有望带来通用化的模式，显著提升AI模型生产效率。例如，商汤科技的SenseCore AI大装置中，模型层的模型工厂可以大幅降低人工智能生产要素的成本，提高人工智能的生产效率，实现人工智能以自动化、自适应的方式进行生产和落地，模型工厂已开发超过49000个商用人工智能模型。我们认为，若GPT4转向多模态，图像、视频等应用将层出不穷涌现。其使用场景将远远不仅限于文字、问答与办公，打开有望未来AI在下游千行百业的应用空间，进一步打开市场想象力。投资建议。建议关注：1）视频场景：当虹科技、网达软件；2）视觉场景：海康威视、大华股份、云从科技、商汤科技。风险提示：AI技术迭代不及预期风险；经济下行超预期风险；行业竞争加剧风险。 1、GPT4展望：发力未必在规模，有望转向多模态 GPT4有望于2023年发布。根据《财富》杂志报道，OpenAI还有更多创新蓄势待发，OpenAI在贝塔测试版GPT-4中采用了更强大的大语言模型，预计该版本将于今年甚至很快发布。关于GPT4的猜测众说纷纭，尘嚣甚上，且公开信息较为有限，我们在此总结各路信息、展望未来，供各位投资者参考：相较前代，GPT4可能不会有参数量上的巨幅提升，而是在其他方向寻求提高。在2023年1月18日的一场公开采访中，当OpenAI的CEOSam Altman被问及一张在推特上被疯转的图表时（该图表称GPT-3拥有1750亿参数，而GPT-4可能拥有100万亿参数），Altman称其“完全是胡说”。这证明了即将到来的GPT4可能不会往一味巨幅扩大参数量的方向去走，而可能向其他方向寻求提升。图表1：OpenAI掌舵人称推特上被疯转的此图“完全是胡说” GPT4有可能是一个多模态模型，可用于图像等领域。根据TheSeattleTimes新闻报道，GPT4可能是一个很像ChatGPT的系统，只生成文本；或者它也可以把图像和文字结合起来。一些风投机构和微软员工已经看到了它的运行情况，但是OpenAI还没有确定新系统是否会发布涉及图像的功能。此外，根据财富杂志报道，OpenAI也确实在开发一款通过文字能生成视频的AI模型。实际上，NLP只是大模型的应用领域之一，图像、视频等领域也可使用Transformer大模型这一技术路径。Transformer虽然最早提出之时，用于NLP领域，但随着这一技术路径不断普及流行，图像、视频、音乐等领域也开始使用Transformer的技术路线，探索各类跨类别任务。（比如根据文字指令输出图像等）未来大模型的输入输出可以不仅限于文字，还可以包括图像、视频等多种形式，成为多模态模型。虽然当前影响力最强的ChatGPT是NLP模型，但大模型的能力远远不仅限于文字。输入文字生成图像、输入文字生成音乐、输入图像生成图像……此类功能现在已经可以通过AI大模型一定程度上实现，这类模型被称为多模态模型，实际上OpenAI的绘画AI模型DALL-E2就是目前最知名的多模态模型之一。除此之外，其他知名多模态模型还包括在AIGC界引起过巨大反响的StableDiffusion，以及谷歌推出的音乐生成AI模型MusicLM等。 1）DALL-E2：OpenAI推出的AI绘画模型，在前代DALL-E的基础之上有了很大提升，可以直接根据文字生成图像，也可以输入图像后、子现成图像上根据文字指令进行部分修改，功能强大。图表2：用DALL-E2生成宇航员骑马图 2）Stable diffusion：由stability.ai公司在去年开源的AI绘画模型，可以通过输入文字生成对应图像。由于效果极佳，模型一经开源即在AIGC界引起极大反响。图表3：Stable Diffusion生成的图像多模态模型训练数据为图像、视频等，规模远大于语言类模型，算力需求有望激增。由于多模态模型使用图像、视频等多媒体数据进行训练，而此类文件大小远超文字。1）以Stablediffusion为例，根据公司官网信息披露，该模型训练数据集为LAION 5B的一个子数据集，而LAION5B的数据包至少80TB，规模已经远超传统语言类大模型训练时使用的数据量（一般是GB级的）。该模型使用4000块英伟达A100训练了一个月，算力需求庞大，若按AWS官网上租用价格（32.77美元/小时/8GPU）计算，则该模型训练成本可高达4000/8*32.77*24*30=1179.72万美元。2）无独有偶，DALL-E2模型在训练时使用了6.5亿张图片，按单张图片大小512*512像素（约256kb）估算，整体训练数据集大小高达约155TB。由此可见，多模态大模型的训练对算力芯片数量需求远胜语言类模型，算力需求有望激增。图表4：Stable diffusion训练成本估算传统的CNN演绎下，下游场景碎片化导致视觉应用解决问题倾向于单点模式。传统CNN模式下，视觉AI公司倾向于采用单点方式，在各个细分场景中做客制化落地，定制化程度相对较高。旷视科技联合创始人、CTO唐文斌在2022年9月的人工智能与产业融合论坛上谈道，现阶段的AI，一个核心挑战在于应用场景碎片化导致算法多样化。比如森林大火，识别有没有烟需要一种算法；仓库物流场景里，收货纸箱有没有破需要一种算法。算法多样化，一方面意味着需要规模化生产大量算法，另一方面需要考虑如何低成本生产每个算法。图表5：传统CNN模式下，AI模型开发效率较低 CHATGPT多模态有望带来通用模式，显著提升模型生产效率与下游落地效率。例如，商汤科技的SenseCore AI大装置，它由模型层、深度学习平台、计算基础设施三个部分架构而成。其中，模型层的模型工厂可以大幅降低人工智能生产要素的成本，提高人工智能的生产效率，实现人工智能以自动化、自适应的方式进行生产和落地，模型工厂已开发超过49000个商用人工智能模型。图表6：商汤模型工厂已经开发超过49000个商用AI模型我们认为，若GPT4转向多模态，将大幅提升AI视觉方向生产效率，图像、视频等应用将层出不穷涌现。其使用场景将远远不仅限于文字、问答与办公，打开有望未来AI在下游千行百业的应用空间，进一步打开市场想象力。 2、投资建议建议关注： 1）视频场景：当虹科技、网达软件； 2）视觉场景：海康威视、大华股份。 3、风险提示 AI技术迭代不及预期风险：若AI技术迭代不及预期，NLP技术理解人类意图水平未能取得突破，则对产业链相关公司会造成一定不利影响。经济下行超预期风险：若宏观经济景气度下行，固定资产投资额放缓，影响企业再投资意愿，从而影响消费者消费意愿和产业链生产意愿，对整个行业将会造成不利影响，NLP技术应用落地将会受限。行业竞争加剧风险：若相关企业加快技术迭代和应用布局，整体行业竞争程度加剧，将会对目前行业内企业的增长产生威胁。

点击免费查看完整报告

GPT4展望：多模态，chatGPT下一站

你可能感兴趣

计算机行业周观点：Runway AI生成视频，多模态的下一站

商汤权威专家分享大模型的下一站多模态交互与应用20240530

通信行业深度：AI文生视频，多模态应用的下一站

计算机行业周报：GPT4即将重磅发布，多模态成亮点

计算机行业：GPT4发布在即，多模态成为趋势

【东吴传媒互联网张良卫团队】openai扩大GPT4 API和ChatGPT重要

行业点评报告：ChatGPT推出语音和图像功能，多模态AI加速突破

互联网传媒行业周报：周观点：ChatGPT迎看、听、说重磅升级，多模态大模型渐成趋势

【人工智能第一团队｜民生计算机】ChatGPT多模态升级背后的机会：为什么

【盘中宝】重磅！OpenAI将发布DALL·E3，多模态ChatGPT来了，这家公司参与重庆人工智能算力中心建设，部分AI产品已使用液冷技术