行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

多模态GPT，比我们想象的更近

信息技术2023-03-04刘高畅国盛证券变***

AI智能总结

微软推出了多模态大语言模型KOSMOS-1，该模型采用多模态数据训练，可以感知图片、文字等不同模态输入，并学习上下文，根据给出的指令生成回答。KOSMOS在多项任务上取得了比之前其他单模态模型更好的效果。GPT4有望于今年发布，多模态模型训练数据为图像、视频等，规模远大于语言类模型，算力需求有望激增，也会同样为AI视觉、视频传输等领域的公司带来全新需求突破。多模态GPT落地应用速度将会很快，国内有望复现类似模型并快速在细分场景使用。建议关注视觉智能、产业工具和潜在多模态受益的公司。

微软推出多模态大语言模型KOSMOS-1，印证大语言模型能力可延伸至NLP 外领域。该模型采用多模态数据训练，可感知图片、文字等不同模态输入，并学习上下文，根据给出的指令生成回答的能力。经过测试比较，KOSMOS在语言理解、语言生成、无OCR文本分类、常识推理、IQ测试、图像描述、零样本图像分类等任务上都取得了相比之前其他单模态模型更好的效果。产业竞争已经开启，预计GPT4/4.5或将推动多模态。据《财富》杂志报道，GPT4 有望于今年发布。根据OpenAI的CEO Sam Altman的公开采访推测，相较前代， GPT4可能不会有参数量上的巨幅提升，而是在其他方向寻求提高。我们认为，多模态模型训练数据为图像、视频等，规模远大于语言类模型，算力需求有望激增，也会同样为AI视觉、视频传输等领域的公司带来全新需求突破。 GPT带来通用智能，多模态使得输入输出信号超越语言，且国内具备快速追赶及超越机会。1）GPT代表通用智能，ChatGPT基于其思维链（CoT）能力已经能在多种任务、各类领域里产生应用，且当前已经开放API，参考过往GPT3可进行细分领域fine-tune的实例，未来有望向更通用领域发展。2）多模态是未来实现通用人工智能的关键。现实世界中的数据天然就是多模态的，人类通过综合运用多种感官，来感知和理解现实世界中的数据，而多模态使得AI的输入输出信号超越语言。3）从KOSMOS1论文看，主要作者为华裔，KOSMOS模型规模不大，且披露了较多训练细节，有利于复现；国内具备海量视频数据优势，可能具备快速追赶、甚至超越的机会。多模态未来能力提升空间巨大，带来千行百业应用。我们认为，多模态GPT落地应用速度将会很快，国内有望复现类似模型并快速在细分场景使用。1）1~5年内，多模态的输入输出主要将是文本、图像和音频，一大应用场景会是智能办公，如智能PPT和其他office套件，可以通过理解用户语言需求和根据用户提供的多模态输入数据，产出办公成果。2）1~7年内，多模态有望在综合机器视觉领域得到广泛应用，输入输出将包括3D模型，视频等，有望赋能自动驾驶领域感知、规控和仿真能力，亦有望有望提高3D模型生产效率，助力游戏内容与元宇宙构造。 3）5~10年内，多模态AI模型有望具备与真实世界所有输入交互的能力，将极大提升人形机器人的能力，使得人形机器人加速落地普及。投资建议。建议关注：1）视觉智能：海康威视、大华股份、云从科技、商汤科技。 2）产业工具：当虹科技、数码视讯、网达软件等；3）潜在多模态受益：万兴科技、中科创达、新国都等。风险提示：AI技术迭代不及预期风险；经济下行超预期风险；行业竞争加剧风险。 1、微软推出KOSMOS-1多模态大语言模型微软公布全新多模态大语言模型KOSMOS-1，能够感知图片、文字等不同模态输入，并学习上下文，根据给出的指令生成回答。近期，微软发布新论文《Language Is Not All You Need: Aligning Perceptionwith Language Models》，提出了KOSMOS-1，一种多模态大语言模型（Multimodal Large Language Model，MLLM)。Kosmos-1能够感知图片、文字等不同模态输入，并学习上下文，根据给出的指令生成回答。例如，图一中模型接受图像和文字输入，回答提问，先判断图中是鸭子，被用户否定后再判断图中是一只兔子，并给出理由是有兔耳朵；图二是模型能在得到两种鸟类的文字描述后，成功对没学习过的（零样本分类）鸟类照片分类；图三是模型能进行非语言推理的IQ测试。图表1：KOSMOS-1可以接受多模态输入，学习上下文信息，进行推理和回答论文中通过五大类任务测试了KOSMOS-1的不同能力，并分别与其他AI模型进行了对比，包括：语言任务:语言理解、语言生成、无OCR文本分类（不依赖光学字符识别直接理解图中文本）跨模态迁移：常识推理（如提问物体的颜色，问两个物体比大小，将KOSMOS-1和单模态的大语言模型比较，发现KOSMOS-1受益于视觉知识能完成更准确推理）非语言推理：IQ测试(如图1中的图形推理) 感知-语言任务：图像描述生成、图像问答、网页问答视觉任务：零样本图像分类、带描述的零样本图像分类(如图1中的鸟类识别问题) 图表2：KOSMOS-1的多种能力展示，包括（1-2）视觉解释（3-4）视觉问答，（5）网页问题解答（6）简单数在这些任务中，KOSMOS-1都能取得较好效果。例如图表3中展示的论文里两张表的数据，分别显示在零样本的图像描述任务上，KOSMOS-1在COCO和Flickr30k数据集上获得了比其他模型更高的评分。在ImageNet数据集上，KOSMOS-1的零样本图像分类精度高于其他模型。图表3：在许多任务中KOSMOS-1都能取得较好效果 KOSMOS-1的实现主要来自下多模态数据集训练、构架革新、以及微调对齐人类偏好。 1）模型的训练采用了多模态的数据训练集，包括单模态数据（文本语料库）、跨模块配对数据（如图像-字幕对）和交织多模态数据（如图像文本交错的文档）等。模型将所有模态的数据都编码为向量作为模型的输入，对于文本之外的图像等模态，将他们视为“外语”输入，不同的模态编码后用不同标记区分，比如图像用<image>和</image>标记编码结果的开头和结尾。文本则用<s>和</s>标记开头和结尾。比如<s>文本<image>图像编码</image>文本</s>是一个混合图像和文字的输入数据。2）模型使用Transfomer的一种变体MANGETO作为主干架构，具有更好的训练稳定性和跨模块性能。3）使用纯语言指令数据集训练进行微调，让模型更好与人类指令对齐。 KOSMOS-1只是一个开端，仍有较大提升空间。1）首先从规模上看，KOSMOS1有大约13亿的参数，参数量相比gpt3的1750亿小很多，OpenAi的ChatGPT的成功的最重要原因就在于参数规模从gpt1开始不断增加，最终量变达到了质变。KOSMOS-1应该是微软近期在ChatGPT的成功的鼓舞下，快速验证大语言模型和多模态结合可行性的产品，如果未来加大投入，提升模型规模，模型的能力应该还有很大进步空间。2）其次在模态范围上，未来也有望做扩大。目前KOSMOS-1对图像和文本输入的处理做到了统一，都是经过编码后作为向量输入模型，如果多加入一个新的模态，比如视频或音频，只要有合适的编码方法，对模型本身而言，无非是多了标记为另一种语言的向量，乐观预计模型也有能力学到新模态的知识，从而扩展能力。 KOSMOS-1有望应用于AI客服、搜索、办公等领域。目前KOSMOS-1可以看作是有能力处理多模态输入的聊天机器人，有望应用于带图文交互的AI客服，搜索，或者处理图像或报表的办公领域，也可能用于根据图片进行新闻写作。伴随未来KOSMOS-1的进一步演化出输出多模态结果的能力，也有望为图像，视频，音乐等内容形式上的AIGC带来广泛应用。 2、产业竞争已经开启，预计GPT4或GPT4.5将推出多模态 GPT4有望于2023年发布。根据《财富》杂志报道，OpenAI还有更多创新蓄势待发，OpenAI在贝塔测试版GPT-4中采用了更强大的大语言模型，预计该版本将于今年甚至很快发布。关于GPT4的猜测众说纷纭，尘嚣甚上，且公开信息较为有限，我们在此总结各路信息、展望未来，供各位投资者参考：相较前代，GPT4可能不会有参数量上的巨幅提升，而是在其他方向寻求提高。在2023年1月18日的一场公开采访中，当OpenAI的CEOSam Altman被问及一张在推特上被疯转的图表时（该图表称GPT-3拥有1750亿参数，而GPT-4可能拥有100万亿参数），Altman称其“完全是胡说”。这证明了即将到来的GPT4可能不会往一味巨幅扩大参数量的方向去走，而可能向其他方向寻求提升。图表4：OpenAI掌舵人称推特上被疯转的此图“完全是胡说” 实际上，NLP只是大模型的应用领域之一，图像、视频等领域也可使用Transformer大模型这一技术路径。Transformer虽然最早提出之时，用于NLP领域，但随着这一技术路径不断普及流行，图像、视频、音乐等领域也开始使用Transformer的技术路线，探索各类跨类别任务（比如根据文字指令输出图像等）未来大模型的输入输出可以不仅限于文字，还可以包括图像、视频等多种形式，成为多模态模型。虽然当前影响力最强的ChatGPT是NLP模型，但大模型的能力远远不仅限于文字。输入文字生成图像、输入文字生成音乐、输入图像生成图像……此类功能现在已经可以通过AI大模型一定程度上实现，这类模型被称为多模态模型，实际上OpenAI的绘画AI模型DALL-E2就是目前最知名的多模态模型之一。除此之外，其他知名多模态模型还包括在AIGC界引起过巨大反响的StableDiffusion，以及谷歌推出的音乐生成AI模型MusicLM等。 1）DALL-E2：OpenAI推出的AI绘画模型，在前代DALL-E的基础之上有了很大提升，可以直接根据文字生成图像，也可以输入图像后、子现成图像上根据文字指令进行部分修改，功能强大。图表5：用DALL-E2生成宇航员骑马图 2）Stable diffusion：由stability.ai公司在去年开源的AI绘画模型，可以通过输入文字生成对应图像。由于效果极佳，模型一经开源即在AIGC界引起极大反响。图表6：Stable Diffusion生成的图像多模态模型训练数据为图像、视频等，规模远大于语言类模型，算力需求有望激增。由于多模态模型使用图像、视频等多媒体数据进行训练，而此类文件大小远超文字。1）以Stablediffusion为例，根据公司官网信息披露，该模型训练数据集为LAION 5B的一个子数据集，而LAION5B的数据包至少80TB，规模已经远超传统语言类大模型训练时使用的数据量（一般是GB级的）。该模型使用4000块英伟达A100训练了一个月，算力需求庞大，若按AWS官网上租用价格（32.77美元/小时/8GPU）计算，则该模型训练成本可高达4000/8*32.77*24*30=1179.72万美元。2）无独有偶，DALL-E2模型在训练时使用了6.5亿张图片，按单张图片大小512*512像素（约256kb）估算，整体训练数据集大小高达约155TB。由此可见，多模态大模型的训练对算力芯片数量需求远胜语言类模型，算力需求有望激增。图表7：Stable diffusion训练成本估算 3、多模态通向通用智能，有望提升机器视觉规模效应我们认为，多模态是未来实现通用人工智能（artificial general intelligence，AGI）的关键。现实世界中的数据天然就是多模态的，人类通过综合运用多种感官，来感知和理解现实世界中的数据。通用人工智能必然也需要有能感知和理解多模态数据的能力。同时，多模态的人机交互，也是对用户最自然的与AI交互的方式。图表8：多模态大模型-通用人工智能路径的探索从成本考虑，当前专注单一领域的人工智能，完成不同的任务需要定制化不同的模型。而多模态的通用人工智能，一个多模态的大模型有能力胜任众多不同任务，规模效应下会显著降低人工智能的实用落地成本。传统的CNN演绎下，下游场景碎片化导致视觉应用解决问题倾向于单点模式。传统CNN模式下，视觉AI公司倾向于采用单点方式，在各个细分场景中做客制化落地，定制化程度相对较高。旷视科技联合创始人、CTO唐文斌在2022年9月的人工智能与产业融合论坛上谈道，现阶段的AI，一个核心挑战在于应用场景碎片化导致算法多样化。比如森林大火，识别有没有烟需要一种算法；仓库物流场景里，收货纸箱有没有破需要一种算法。算法多样化，一方面意

点击免费查看完整报告

你可能感兴趣

多模态GPT，比我们想象的更近

你可能感兴趣

国盛计算机脑机接口商业化比想象中更近国内脑机领军企业快速

全球紧张局势带来的贸易转移效应 — — 比我们想象的要高

联合国开发计划署发展未来系列不平等差距：40岁以下的人可能比我们想象的要远

VR体验店调研纪要：VR离我们的生活比想象的要近

周一花絮：IFRS 9比我们想象的要重要