OpenAI有望推出多模态GPT模型。9月19日,据TheInformation报道, OpenAI意图赶在谷歌推出多模态大语言模型Gemini前广泛推出名为 GPT-Vision的多模态功能,此前OpenAI在3月份推出GPT-4时展示了多 模态功能,但并未向除了Be My Eyes之外的公司提供,未来OpenAI或许 会推出一个更强大的多模态大模型,代号为Gobi。此前在5月10日的谷歌 I/O2023大会谷歌就已宣布了下一代多模态基础模型Gemini在训练中。我 们认为AI领军企业OpenAI与科技巨头谷歌在多模态大模型上竞相提速彰 显了多模态技术的重要性,并有利于推动多模态AI尤其是基础模型取得进 步,进一步推动多模态相关应用落地。 多模态相关应用进展不断,打开广阔下游应用空间。7月28日谷歌 deepmind推出VLA模型RT-2,基于视觉语言模型PaLM-E和PaLI-X的预 训练,为机器人任务带来了显著更好的泛化性能。9月13日,Adobe发布 新的Firefly生成式AI模型和Web应用程序,支持100多种语言的文本提 示,全面覆盖文生图、创意填充、文字渲染、重新着色、草图细化、3D图 像等多种创意功能。我们认为,当前多模态的输入输出主要是文本、图像, 应用场景包括智能办公和各类AIGC功能,1-5年内,随着多模态GPT的发 展带来AI泛化能力提升,通用视觉、通用机械臂、行业服务机器人、真正 的智能家居等会进入生活。在5-10年内,结合复杂多模态方案的大模型有 望具备完备的与世界交互的能力,带来通用机器人等千行百业的广阔应用。 应用增长及多模态数据处理复杂度提高催生算力需求。多模态模型需要处 理的输入和输出信息将包括文本、图像、视频、音频等,复杂度远超纯文 本数据,同时将不同模态的特征进行融合,找到不同模态间的内在关联和交 互关系也需要更复杂的模型架构,这也增加了计算负载,要发挥多模态模 型的优势,必须有强大的算力支持。同时多模态发展打开广阔下游应用空间, 用户增长将让应用厂商在模型推理侧需要更多算力,进一步催生算力需求。 建议关注:1)多模态AI:大华股份、海康威视、千方科技、中科创达、萤 石网络、万兴科技、虹软科技、当虹科技等;2)算力:英伟达、浪潮信息、 中际旭创、新易盛、工业富联、云赛智联、中科曙光、拓维信息、四川长 虹、烽火通信、海光信息、恒润股份、寒武纪、易华录、神州数码、景嘉 微、中贝通信等。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加 剧风险。