您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:OpenAI多模态专家交流–20230927 - 发现报告
当前位置:首页/会议纪要/报告详情/

OpenAI多模态专家交流–20230927

2023-09-28未知机构一***
OpenAI多模态专家交流–20230927

一、综述 (1)模态的概念和多模态模型的应用场景 OpenAI的多模态模型是将不同的信息来源或形式统一在一起,实现模态之间的转换和统一。其中,模态可以包括触觉、听觉、视觉、嗅觉等,而信息的媒介可以是语音、视频、文字等。多模态模型可以实现图片生成文字、图片相关推理、图片推理和数学推理、视频推理等多种功能。 一、综述 (1)模态的概念和多模态模型的应用场景 OpenAI的多模态模型是将不同的信息来源或形式统一在一起,实现模态之间的转换和统一。其中,模态可以包括触觉、听觉、视觉、嗅觉等,而信息的媒介可以是语音、视频、文字等。多模态模型可以实现图片生成文字、图片相关推理、图片推理和数学推理、视频推理等多种功能。适用于故事生成、网页开发、图片审核、视频识别、作业答案生成等场景。 (2)OpenAI多模态模型使用的模型和优势 OpenAI的多模态模型使用了CLIP模型进行文本编码和图像编码,并通过对齐它们的编码向量来实现统一。与开源模型相比,OpenAI的模型在训练数据、算力和模型规模上具有优势,整体效果更好。根据与会者的意见,OpenAI多模态模型有更大的模型体量、更强大的推理能力和视觉提取能力。 2.开源模型和OpenAI自用模型的讨论 根据与会者的讨论,开源模型中的多模态模型从图片到文字的转换分为预训练和指令微调两个阶段。在指令微调阶段,只调整少量的低级模块。相比之下,OpenAI自用的视觉提取模型应该比开源的更加强大,因为采用了更多高质量的数据进行训练。与会者还指出OpenAI的优势主要集中在图像、文本、视频和语音这四个模态上。 3.OpenAI多模态模型的技术细节和性能 (1)模态对齐和训练的几个阶段 训练和对齐视觉与语言之间关系的几个阶段主要包括预训练和指令微调。在预训练阶段,视觉和语言模态进行对齐,指令微调阶段通过用户自然方式提问问题来回答用户问题。 (2)训练所需的硬件和时间 训练多模态模型需要使用英伟达的显卡,如A100或H100,训练一个约70亿参数的模型通常需要使用多张显卡进行大约三天的训练。在预训练阶段,需要大量算力;而微调阶段因为社区中有许多开源模型可用,所需算力较低。 (3)推理阶段的硬件选择 在推理阶段,可以使用一些成本较低的推理卡,例如英伟达的T4、A20和A40,产替代品如紫光展锐和寒武纪的推理卡也适用于语言模型或多模态模型的部署。 4.OpenAI多模态模型在不同场景的应用和优势 根据与会者和与会者的讨论,OpenAI多模态模型在处理图片的理解和识别、图片推理和数学推理、视频识别等场景中具有优势。在图片相关推理方面,模型可以识别人物、评论图片、识别电影等。在数学推理方面,模型可以解答复杂问题,如数学题和作业题。在视频推理方面,模型通过提取视频中的每一帧图片进行整体提取和训练,可以理解视频内容,并给出回答。 内容,OpenAI多模态模型的优势包括模型体量更大、有更强大的推理能力、视觉提取能力更强等。然而,由于视觉提取模块的限制,模型在一些细节、文字和标记等方面仍然有识别困难。同时,OpenAI的多模态模型在处理图片、声音、文本和视频方面表现出色。 Q:关于2021年2月的OpenAI开源版本和未来的发展,多模态技术的水平提升了多少?A:关于OpenAI多模态技术的发展阶段和能力提升的问题。回答者表示从目前发展的情况来看,OpenAI多模态技术在视觉模块方面的算法已经比较强大。在未来,无法准确评估技术水平提升了多少,但可以观察到OpenAI在不断推出新版本进行技术的改进和能力的提升。总之,OpenAI的多模态技术在视觉模块方面处于较高位置,未来还有进一步提升的空间。Q:Blip和Bliptoo相比于clip有什么改进,为什么效果更好? A:Blip和Bliptoo是OpenAI发布的最新视觉提取模型,相较于clip,它们在视觉提取方式上做出了改进。Blip将整个图像编码成32个token,并将这些token均匀分布在图像上,因此能够关注到更多的细节。此外,Blip使用了比clip更多的数据进行训练,所以效果更好。Q:为什么专家认为OPPO的模型会比clip更好? A:OPPO拥有很强的数据收集能力,内部有很多不公开的数据,利用这些更好的数据进行模型训练,在模型结构上稍作优化,就能够获得比clip更好的模型效果。Q:模型的设计和算法之间有什么关系? A:模型的设计包括一些算法方面的选择,例如在下一个版本中,clip可能会发现矩阵部分的信息也很有用,并将这部分信息加入模型中。但是模型的基本结构大体上不会变化太多。Q:下个月的版本会有什么提升?GBD5与现有模型有差距吗?A:下个月版本的提升应该与现有版本类似,不会有太大的变化。至于GBD5与现有模型的差距,主要可能来自于数据的积累。数据越好,清洗后的数据质量越高,模型效果就会越好。Q:10月份发表的GoogleGmail大模型与OpenAI有什么差别?A:专家认为,整体来看,Google的模型可能仍然落后于OPPO,因为Google目前在模型发展方面相对混乱。他们在OPPO开发GPT后,让Timan的团队和GoogleBrain团队合作开发语言模型。但在过去一年的时间里,团队发生了很大变动,很多人离职或跳槽到OpenAI,因此可以预期Google的模型比OpenAI的要差一些。