您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国泰君安证券]:计算机行业专题研究:多模态加速燃烧算力 - 发现报告

计算机行业专题研究:多模态加速燃烧算力

信息技术 2023-11-02 国泰君安证券 苏吃吃
报告封面

投资建议:短期继续看好算力板块投资机会。GPT-4V发布,多模态时代正式开启,无论在训练阶段还是在推理阶段,对于算力的需求都相较于单模态模型有极大的提升,短期继续看好算力板块,推荐标的神州数码、浪潮信息、拓维信息、恒润股份、淳中科技,受益标的紫光股份、中科曙光、四川长虹、真视通、中国长城、莲花健康、鸿博股份、润建股份、中贝通信、烽火通信、恒为科技等。 AI模型全面多模态化是必然趋势。2023年9月25日,OpenAI正式在ChatGPT中推出语音和图像处理功能,多模态模型的核心是处理和整合这些不同类型的数据源。这种模型可以捕获跨模态的复杂关系,使机器能够更全面地理解和分析信息,从而在各种任务中表现得更好。人工智能领域研究一直致力于以技术实现计算机对于人类认知世界方式的高度效仿,单模态交互显然是一个局限的、并不完整的模型。所以“多模态”研究的大势所趋已十分明朗。 GPT-4V打开更广阔的应用场景。单模态和多模态模型在数据输入、设计结构和数据相关性方面有明显的差异。根据微软的测评,GPT-4V在视觉-语言能力、视觉标记提示、时间和视频理解、抽象视觉推理、情商测试等方面表现极为出色。我们认为,多模态模型会显著打开下游应用场景,破除单纯文字交互的局限性,将打开工业领域、医学领域、汽车保险领域、自定义字幕生成器、图像智能、具身智能等等下游应用场景。 算力需求持续爆发。OpenAI认为自2012年以来,大规模AI训练所需的算力呈指数级增长,每3.4个月翻一番。2012-2018期间已增长超过300,000倍。我们认为当前多模态大模型仍在不断迭代,训练阶段的算力将保持增长。根据我们测算,GPT-4对于算力的需求在同等训练时长下相比GPT-3增长445倍,训练成本持续高企,算力租赁商业模式具备可行性,短期持续看好算力以及算力租赁三道。 风险提示:应用端发展进度低于预期;政策风险;企业管理风险 1.GPT-V4发布,ChatGPT正式进入多模态时代 1.1.多模态大模型性能全面领先 2023年9月25日,OpenAI正式在ChatGPT中推出语音和图像处理功能。这一更新基于GPT-4V模型。与传统的仅处理文本的模型不同,GPT-4V具有分析和解读用户提供的图像资料何语音的能力,标志着ChatGPT正式进入多模态时代。 图1:OpenAI在ChatGPT中推出语音和图像功能 “模态”指的是数据的不同类型或来源,可以是图像、音频、文本等不同的数据形式。多模态模型的核心是处理和整合这些不同类型的数据源。 这种模型可以捕获跨模态的复杂关系,使机器能够更全面地理解和分析信息,从而在各种任务中表现得更好。目前,GPT-4V支持三种输入模式。 仅文本输入:GPT-4V可以像传统的单模态语言模型一样处理文本输入,执行各种语言和编码任务。 单一图像-文本对:GPT-4V既可以接受图像+文本的组合输入,也可以只接受图像输入。能够执行图像识别、物体定位、图像字幕生成等任务。 交错的图像-文本输入:GPT-4V可以处理交替出现的图像和文本,如处理多张收据图像以计算总税款,或从菜单上提取信息并计算费用等。 请务必阅读正文之后的免责条款部分 图2:GPT-4V可以处理文字、图像以及图像+文本交错的输入 GPT-4在可靠性、创造力和处理复杂任务的能力上都超越了GPT-3.5。 GPT-4在众多专业和学术基准上展现出了人类水平的表现。它在模拟的律师资格考试中的成绩位于前10%,而GPT-3.5的成绩则位于后10%。 GPT-4不仅在文本处理上更为出色,还具有接受文本和图像输入的多模态功能,这使得用户可以为其指定任何视觉或语言任务。在可控制性方面,与GPT-3.5相比,GPT-4允许开发者和用户更为明确地规定AI的风格和任务。 图3GPT-4模拟考试中领先于GPT3.5 图4GPT-4英语语言性能测试中大幅领先于GPT3.5 1.2.多模态模型主要经历三个时代 根据技术迭代,多模态模型可以分为三个主要发展阶段: 计算时代(1980-1999):开始利用一些浅层的模型对多模态问题进行研究。代表性应用有视觉和语音的联合识别、多模态情感分析等。 尽管这个时期并不真正整合不同的模态,但这些研究为后续的多模态学习奠定了基础。 交互时代(2000-2009):这一阶段的研究侧重于从用户交互的角度来探索多模态识别。自动语音识别(ASR)和自然语言处理(NLP)开始合并,为语音助手和其他语音应用提供支持。主要的代表作品包括苹果的语音助手Siri等。 深度学习时代(2010-至今):深度学习为多模态研究带来了巨大的推动力,多模态模型已经达到了前所未有的准确性和复杂性。特别是卷积神经网络(CNN)在图像处理方面,和循环神经网络(RNN)在序列数据如文本和声音方面的成功,使得研究者能够开发出处理多种模态数据的复杂模型。这一阶段受益于四个关键因素的推动:1)大规模的多模态数据集;2)更强大的计算能力;3)研究者也开始掌握更为先进的视觉特征提取技术;4)出现了强大的语言特征抽取模型,包括Transformer架构。 图5:多模态模型主要经历三个时代 全面多模态是必然趋势。人工智能领域研究一直致力于以技术实现计算机对于人类认知世界方式的高度效仿。人类具备视觉,听觉,触觉,味觉和嗅觉五种模态,单模态交互显然是一个局限的、并不完整的模型。 所以“多模态”研究的大势所趋已十分明朗。 2.多模态技术逐步成熟,下游应用场景逐步打开 2.1.多模态大模型历经迭代,成功落地 多模态模型和单模态一样都是以Transformer架构为基础。2017年,Transformer发布,引入了Self-Attention机制来处理序列数据。这种机制允许模型对输入数据的任意部分进行关注,在NLP任务中表现卓越。借助Transformer结构,许多知名大模型例如BERT和GPT被开发出来。 这些模型在大型语料库上进行自监督预训练,然后微调到具体任务上,展现出了出色的泛化能力。但这些初步的成功仍然局限于文本领域。 图6:Transformer使用Self-Atttention机制代替RNN ViT改进解决了非文本数据量过大的问题。受到在文本领域Transformer模型成功的启发,研究者试图将其应用于计算机视觉任务。但是,直接迁移存在一个关键问题,即图片的数据量巨大。例如,一个224x224的图片相当于5万个像素,这超出了大多数Transformer模型的处理能力。 在这个背景下,谷歌提出了ViT(Vision Transformer)模型,其策略是将图片分割成多个小块或“patch”,以改成标准的文本形式。假设224x224的图片被分割成16*16个patch,那么其会被分割成196个patch。每个patch包含256个像素,远小于5万个像素。这些像素会根据颜色通道转换为向量,加入位置编码,最后组合成一个序列,输入到Transformer模型中进行处理。通过将图片分割成小块,压缩信息,这使ViT跨越了计算机视觉和自然语言处理的界限,推动了多模态的研究。 图7:ViT在Transformer基础上增加了一个额外可学习的class OpenAI推出CLIP模型,实现多模态学习。有了ViT作为基础,研究者进一步考虑如何结合图像和文本数据,从而推出了多模态模型。 OpenAI的CLIP是代表模型之一。CLIP不仅仅是将Transformer应用于图像,而是在同一个模型中同时处理图像和文本,让模型学习图像和文本之间的对应关系。通过大量的图像-文本对进行训练,CLIP可以理解图像的内容并将其与文本描述相关联,实现真正意义上的多模态学习。 图8:CLIP模型包括文本和图片编码器 各大厂模型相继发布,多模态技术发展进入快车道。2023年,科技巨头纷纷推出多模态大模型,包括谷歌PaLM-E、微软KOSMOS-1、GPT-4和百度文心一言等,模型路线框架正在被产业验证,全面多模态时代已然开启。 2.2.多模态VS单模态大模型,差异显著 单模态和多模态模型在数据输入、设计结构和数据相关性方面有明显的差异。单模态模型主要针对一种数据输入,其结构通常更为简单,专为特定数据类型的特征提取而优化。因其专一性,它们在处理相应数据时表现出色,但可能错过多种数据间的交互关系。相反,多模态模型处理多种数据输入,结构上更复杂,可能涉及使用多个子网络,然后将其输出合并。它们可以捕获不同数据源之间的交互和相关性,为任务提供更丰富的信息。 表1:单模态大模型与多模态大模型技术对比 2.3.微软官方测评,GPT-4V任务表现出色 GPT-4V多模态输入扩展AI能力范围,多任务测评结果优异。9月29日,微软团队发布《The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)》,详细测评了GPT-4V在多类任务上的表现,任务设计的重点是图像和视频的处理。 2.3.1.视觉-语言能力:掌握多领域的视觉语言识别和输出 GPT-4V具备在描述名人、地标、食物和医学图像等不同领域的图像的能力。1)在名人识别中,GPT-4V不仅能够识别出各种名人,还能够了解他们在给定场景中的活动,如美国总统在2023年G7峰会上发表的演讲。2)在地标识别中,尽管外观可能因各种因素而变化,GPT-4V仍然能够准确地描述各种地标,并提供有关它们历史和重要性的详细信息。 3)食物识别是一个挑战,因为食物的外观可能因为各种因素而有所不同,但GPT-4V仍然展现了出色的识别和描述能力。4)在医学图像理解方面,GPT-4V成功地识别了牙齿、颌骨和其他重要的医学信息,并提供了有关潜在健康问题的见解。5)GPT-4V还可以应用于空间关系、物体计数、物体定位和密集描述等高级任务中。 图9:GPT-4V可以识别名人并描述他们的背景信息 图10:GPT-4V可以识别图像中物体之间的空间关系 GPT-4V展现出在多个领域的推理能力,并擅长利用视觉提示进行多模态常识推理。1)笑话和表情包的理解通常涉及特定事件、流行文化或互联网趋势的引用,这需要对相关背景和文化具有深入的了解。GPT-4V能够从视觉和文本两个模态中获取信息,深入理解嵌入在表情包中的幽默。 2)在科学和知识领域,GPT-4V通过结合文本和图像提示展现了在地理、物理、生物学等科学领域的推理能力。模型能够准确地根据视觉背景回答科学问题,并能以教程格式逐步解释各种概念。3)在多模态常识推理方面,GPT-4V有效地利用了图像中的视觉提示,例如边界框标识的人物,来识别场景中的特定情境和活动。 图11:GPT-4V能够理解表情包的笑点 图12:GPT-4V可以生成科学类问题的答案 GPT-4V在多个领域展现了出色的图像和文本理解能力,包括场景文本识别、视觉数学推理、文档和技术报告深入解析等。1)GPT-4V在场景文本识别中表现出色,可以准确识别各种场景下的手写和打印文本。2)对于视觉数学推理,该模型能够从图像中提取关键信息,例如直角三角形的边长,并提供逐步的解决方案。3)模型能够准确地回答基于图表的问题,并理解表格中的细节。4)在文档理解领域,GPT-4V展示了对各种类型文档,如平面图、海报和考卷的深入理解。 图13:GPT-4V可以识别复杂场景中的文本 图14:GPT-4V可识别三种不同类型的文档 GPT-4V在处理多种语言任务时同样表现突出。1)当面对图像并要求描述时,无论提示是中文、法文、捷克文、英文,GPT-4V都能精确地生成对应语言的描述。2)GPT-4V能够识别并翻译图像中的多语言场景文本,如加泰罗尼亚语的维基百科截图。3)它还能够洞察文化中的微妙差异,并为各种情境下的图像生成多语言描述。 图15:GPT-4V能够用不同语言描述图像 图16:GPT-4V能够识别、翻译不同语言的描述 GPT-4V具备将手写、图像表格和图形转化为代码的能力,虽然输出可能需要微调。1)GPT