微软推出多模态大语言模型KOSMOS-1,印证大语言模型能力可延伸至NLP 外领域。该模型采用多模态数据训练,可感知图片、文字等不同模态输入,并学 习上下文,根据给出的指令生成回答的能力。经过测试比较,KOSMOS在语言理 解、语言生成、无OCR文本分类、常识推理、IQ测试、图像描述、零样本图像 分类等任务上都取得了相比之前其他单模态模型更好的效果。 产业竞争已经开启,预计GPT4/4.5或将推动多模态。据《财富》杂志报道,GPT4 有望于今年发布。根据OpenAI的CEO Sam Altman的公开采访推测,相较前代, GPT4可能不会有参数量上的巨幅提升,而是在其他方向寻求提高。我们认为,多 模态模型训练数据为图像、视频等,规模远大于语言类模型,算力需求有望激增, 也会同样为AI视觉、视频传输等领域的公司带来全新需求突破。 GPT带来通用智能,多模态使得输入输出信号超越语言,且国内具备快速追赶及 超越机会。1)GPT代表通用智能,ChatGPT基于其思维链(CoT)能力已经能在 多种任务、各类领域里产生应用,且当前已经开放API,参考过往GPT3可进行细 分领域fine-tune的实例,未来有望向更通用领域发展。2)多模态是未来实现通 用人工智能的关键。现实世界中的数据天然就是多模态的,人类通过综合运用多 种感官,来感知和理解现实世界中的数据,而多模态使得AI的输入输出信号超越 语言。3)从KOSMOS1论文看,主要作者为华裔,KOSMOS模型规模不大,且披 露了较多训练细节,有利于复现;国内具备海量视频数据优势,可能具备快速追 赶、甚至超越的机会。 多模态未来能力提升空间巨大,带来千行百业应用。我们认为,多模态GPT落地 应用速度将会很快,国内有望复现类似模型并快速在细分场景使用。1)1~5年内, 多模态的输入输出主要将是文本、图像和音频,一大应用场景会是智能办公,如 智能PPT和其他office套件,可以通过理解用户语言需求和根据用户提供的多模 态输入数据,产出办公成果。2)1~7年内,多模态有望在综合机器视觉领域得到 广泛应用,输入输出将包括3D模型,视频等,有望赋能自动驾驶领域感知、规控 和仿真能力,亦有望有望提高3D模型生产效率,助力游戏内容与元宇宙构造。 3)5~10年内,多模态AI模型有望具备与真实世界所有输入交互的能力,将极大 提升人形机器人的能力,使得人形机器人加速落地普及。 投资建议。建议关注:1)视觉智能:海康威视、大华股份、云从科技、商汤科技。 2)产业工具:当虹科技、数码视讯、网达软件等;3)潜在多模态受益:万兴科 技、中科创达、新国都等。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 1、微软推出KOSMOS-1多模态大语言模型 微软公布全新多模态大语言模型KOSMOS-1,能够感知图片、文字等不同模态输入,并学习上下文,根据给出的指令生成回答。近期,微软发布新论文《Language Is Not All You Need: Aligning Perceptionwith Language Models》,提出了KOSMOS-1,一种多模态大语言模型(Multimodal Large Language Model,MLLM)。Kosmos-1能够感知图片、文字等不同模态输入,并学习上下文,根据给出的指令生成回答。 例如,图一中模型接受图像和文字输入,回答提问,先判断图中是鸭子,被用户否定后再判断图中是一只兔子,并给出理由是有兔耳朵;图二是模型能在得到两种鸟类的文字描述后,成功对没学习过的(零样本分类)鸟类照片分类;图三是模型能进行非语言推理的IQ测试。 图表1:KOSMOS-1可以接受多模态输入,学习上下文信息,进行推理和回答 论文中通过五大类任务测试了KOSMOS-1的不同能力,并分别与其他AI模型进行了对比,包括: 语言任务:语言理解、语言生成、无OCR文本分类(不依赖光学字符识别直接理解图中文本) 跨模态迁移:常识推理(如提问物体的颜色,问两个物体比大小,将KOSMOS-1和单模态的大语言模型比较,发现KOSMOS-1受益于视觉知识能完成更准确推理)非语言推理:IQ测试(如图1中的图形推理) 感知-语言任务:图像描述生成、图像问答、网页问答 视觉任务:零样本图像分类、带描述的零样本图像分类(如图1中的鸟类识别问题) 图表2:KOSMOS-1的多种能力展示,包括(1-2)视觉解释(3-4)视觉问答,(5)网页问题解答(6)简单数 在这些任务中,KOSMOS-1都能取得较好效果。例如图表3中展示的论文里两张表的数据,分别显示在零样本的图像描述任务上,KOSMOS-1在COCO和Flickr30k数据集上获得了比其他模型更高的评分。在ImageNet数据集上,KOSMOS-1的零样本图像分类精度高于其他模型。 图表3:在许多任务中KOSMOS-1都能取得较好效果 KOSMOS-1的实现主要来自下多模态数据集训练、构架革新、以及微调对齐人类偏好。 1)模型的训练采用了多模态的数据训练集,包括单模态数据(文本语料库)、跨模块配对数据(如图像-字幕对)和交织多模态数据(如图像文本交错的文档)等。模型将所有模态的数据都编码为向量作为模型的输入,对于文本之外的图像等模态,将他们视为“外语”输入,不同的模态编码后用不同标记区分,比如图像用<image>和</image>标记编码结果的开头和结尾。文本则用<s>和</s>标记开头和结尾。比如<s>文本<image>图像编码</image>文本</s>是一个混合图像和文字的输入数据。2)模型使用Transfomer的一种变体MANGETO作为主干架构,具有更好的训练稳定性和跨模块性能。3)使用纯语言指令数据集训练进行微调,让模型更好与人类指令对齐。 KOSMOS-1只是一个开端,仍有较大提升空间。1)首先从规模上看,KOSMOS1有大约13亿的参数,参数量相比gpt3的1750亿小很多,OpenAi的ChatGPT的成功的最重要原因就在于参数规模从gpt1开始不断增加,最终量变达到了质变。KOSMOS-1应该是微软近期在ChatGPT的成功的鼓舞下,快速验证大语言模型和多模态结合可行性的产品,如果未来加大投入,提升模型规模,模型的能力应该还有很大进步空间。2)其次在模态范围上,未来也有望做扩大。目前KOSMOS-1对图像和文本输入的处理做到了统一,都是经过编码后作为向量输入模型,如果多加入一个新的模态,比如视频或音频,只要有合适的编码方法,对模型本身而言,无非是多了标记为另一种语言的向量,乐观预计模型也有能力学到新模态的知识,从而扩展能力。 KOSMOS-1有望应用于AI客服、搜索、办公等领域。目前KOSMOS-1可以看作是有能力处理多模态输入的聊天机器人,有望应用于带图文交互的AI客服,搜索,或者处理图像或报表的办公领域,也可能用于根据图片进行新闻写作。伴随未来KOSMOS-1的进一步演化出输出多模态结果的能力,也有望为图像,视频,音乐等内容形式上的AIGC带来广泛应用。 2、产业竞争已经开启,预计GPT4或GPT4.5将推出多模态 GPT4有望于2023年发布。根据《财富》杂志报道,OpenAI还有更多创新蓄势待发,OpenAI在贝塔测试版GPT-4中采用了更强大的大语言模型,预计该版本将于今年甚至很快发布。关于GPT4的猜测众说纷纭,尘嚣甚上,且公开信息较为有限,我们在此总结各路信息、展望未来,供各位投资者参考: 相较前代,GPT4可能不会有参数量上的巨幅提升,而是在其他方向寻求提高。在2023年1月18日的一场公开采访中,当OpenAI的CEOSam Altman被问及一张在推特上被疯转的图表时(该图表称GPT-3拥有1750亿参数,而GPT-4可能拥有100万亿参数),Altman称其“完全是胡说”。这证明了即将到来的GPT4可能不会往一味巨幅扩大参数量的方向去走,而可能向其他方向寻求提升。 图表4:OpenAI掌舵人称推特上被疯转的此图“完全是胡说” 实际上,NLP只是大模型的应用领域之一,图像、视频等领域也可使用Transformer大模型这一技术路径。Transformer虽然最早提出之时,用于NLP领域,但随着这一技术路径不断普及流行,图像、视频、音乐等领域也开始使用Transformer的技术路线,探索各类跨类别任务(比如根据文字指令输出图像等) 未来大模型的输入输出可以不仅限于文字,还可以包括图像、视频等多种形式,成为多模态模型。虽然当前影响力最强的ChatGPT是NLP模型,但大模型的能力远远不仅限于文字。输入文字生成图像、输入文字生成音乐、输入图像生成图像……此类功能现在已经可以通过AI大模型一定程度上实现,这类模型被称为多模态模型,实际上OpenAI的绘画AI模型DALL-E2就是目前最知名的多模态模型之一。除此之外,其他知名多模态模型还包括在AIGC界引起过巨大反响的StableDiffusion,以及谷歌推出的音乐生成AI模型MusicLM等。 1)DALL-E2:OpenAI推出的AI绘画模型,在前代DALL-E的基础之上有了很大提升,可以直接根据文字生成图像,也可以输入图像后、子现成图像上根据文字指令进行部分修改,功能强大。 图表5:用DALL-E2生成宇航员骑马图 2)Stable diffusion:由stability.ai公司在去年开源的AI绘画模型,可以通过输入文字生成对应图像。由于效果极佳,模型一经开源即在AIGC界引起极大反响。 图表6:Stable Diffusion生成的图像 多模态模型训练数据为图像、视频等,规模远大于语言类模型,算力需求有望激增。由于多模态模型使用图像、视频等多媒体数据进行训练,而此类文件大小远超文字。1)以Stablediffusion为例,根据公司官网信息披露,该模型训练数据集为LAION 5B的一个子数据集,而LAION5B的数据包至少80TB,规模已经远超传统语言类大模型训练时使用的数据量(一般是GB级的)。该模型使用4000块英伟达A100训练了一个月,算力需求庞大,若按AWS官网上租用价格(32.77美元/小时/8GPU)计算,则该模型训练成本可高达4000/8*32.77*24*30=1179.72万美元。2)无独有偶,DALL-E2模型在训练时使用了6.5亿张图片,按单张图片大小512*512像素(约256kb)估算,整体训练数据集大小高达约155TB。由此可见,多模态大模型的训练对算力芯片数量需求远胜语言类模型,算力需求有望激增。 图表7:Stable diffusion训练成本估算 3、多模态通向通用智能,有望提升机器视觉规模效应 我们认为,多模态是未来实现通用人工智能(artificial general intelligence,AGI)的关键。 现实世界中的数据天然就是多模态的,人类通过综合运用多种感官,来感知和理解现实世界中的数据。通用人工智能必然也需要有能感知和理解多模态数据的能力。同时,多模态的人机交互,也是对用户最自然的与AI交互的方式。 图表8:多模态大模型-通用人工智能路径的探索 从成本考虑,当前专注单一领域的人工智能,完成不同的任务需要定制化不同的模型。 而多模态的通用人工智能,一个多模态的大模型有能力胜任众多不同任务,规模效应下会显著降低人工智能的实用落地成本。 传统的CNN演绎下,下游场景碎片化导致视觉应用解决问题倾向于单点模式。传统CNN模式下,视觉AI公司倾向于采用单点方式,在各个细分场景中做客制化落地,定制化程度相对较高。旷视科技联合创始人、CTO唐文斌在2022年9月的人工智能与产业融合论坛上谈道,现阶段的AI,一个核心挑战在于应用场景碎片化导致算法多样化。比如森林大火,识别有没有烟需要一种算法;仓库物流场景里,收货纸箱有没有破需要一种算法。算法多样化,一方面意