事项: OpenAI于北京时间9月25日晚宣布推出多模态模型GPT-4V,新增了语音、图像交互功能,并将在未来两周向ChatGPTPlus和Enterprise用户推出。语音输入输出允许用户通过语音与ChatGPT进行交互,图像输入输出则能让用户通过上传图片获取相关信息。其中语音功能将在移动端iOS和Android上提供,图像功能将在所有平台上提供。 国信互联网观点:1)OpenAI本次技术升级增加了语音交互、图片识别、图生文等多模态功能,并将在两周内对Plus用户与企业用户开放,提供更加丰富的交互体验。2)大模型厂商在多模态领域布局不断、接连发力。OpenAI在多模态领域积累深厚,包括:文生图模型CLIP、DALL-E系列(9月已发布DELL-E3)、语音识别模型Whisper、通用多模态模型GPT4-4V等。微软也相继发布BEiT系列、KOSMO-1致力于多模态统一建模,同时理解文本、图像、语音模态内容。谷歌近期力推通用多模态大模型Gemini,凭借谷歌丰富的训练语料,如:YouTube视频、谷歌图书、Google Map、搜索索引信息以及Google Scholar的学术资料,有望打造强大的文本、图像、视频和音频的多模态模型;3)多模态大模型打破了各模态信息之间交互的壁垒,也将进一步促进AI技术切入到更复杂、更细分的场景,如:金融财务、教育、办公、医疗、游戏等。多模态大模型的发展是AI技术智能提升、深入应用的必由之路,将极大的扩展大模型技术在NLP任务之外的使用边界,我们坚定看好未来AI技术与应用的发展,持续推荐微软、英伟达、谷歌、腾讯。 评论:OpenAI发布语音、图像多模态模型GPT-4V 语音功能特点 ①语音对话能力:用户可以通过语音与AI进行对话,无需再通过键盘输入文字,提供了更直观便捷的交互方式。 ②多种语音选项:为满足不同用户需求,提供了5种不同的语音选项,包括男声、女声、青少年声音等。 ③语音识别精度高 :此次ChatGPT升级的语音技术基于自研开源的Whisper模型 , 生成部分基于TTS(text-to-speech)模型进行。通过新识别系统,实现了高准确率的语音识别和语音合成功能,能够仅从文本和几秒钟的样本语音中生成类似人类的音频。 ④与Spotify合作扩展功能:与流媒体音乐服务平台Spotify合作,可以将播客翻译成其他语言并保持播音者声音,增加了语音功能的实用性。 ⑤只能在移动设备上使用:目前语音功能可以在iOS和Android移动端使用。 图1:ChatGPT语音输入显示界面 图2:ChatGPT语音输出显示界面 图像功能特点 ①支持多张图像处理:用户可以将自己感兴趣的图像上传至ChatGPT进行交互,可以同时上传多张图像,ChatGPT能够理解和处理多个图像的信息。 ②图像处理工具:为了帮助用户更清晰地表达自己的需求,移动应用上还提供了绘图工具,比如用户可以圈出图像的重点来更高效地交互。 ③多模态的交互体验:用ChatGPT在对用户输入图片进行分析推理时,可以支持文字、语音和图片的分析回复。官方展示的调节自行车座案例中,多模态的信息交互大大提高了交互效率,帮助任务达成。 图3:ChatGPT用户输入拍摄图片 图4:ChatGPT用户使用绘图工具标记图片重点 图5:ChatGPT根据用户输入图片反馈 图6:ChatGPT根据用户输入图片推理反馈 ④文生图支持语言进行微调:ChatGPT可以根据用户的文本生成图片,还可根据用户反馈对图片进行微调。 图7:ChatGPT根据用户输入生成图片 图8:ChatGPT根据用户输入修改图片 GPT-4V是在GPT-4的大语言模型基础上再使用海量的版权合规的图文数据进行训练得到的。GPT-4V强大的多模态技术在解锁了更丰富的应用场景的同时,也不可避免的带来更多安全风险问题,比如隐私与偏见、声音伪造、冒充欺诈、模型幻觉等安全问题。OpenAI努力解决模型在某些场景下的局限性问题,在功能的更新上也尽可能保持“进一步发展”和“降低潜在风险”之间的平衡。 风险提示: AI技术及其多模态大模型发展不及预期,AI应用的落地发展不及预期,AI算力不足限制应用端发展,AI技术的带来声音伪造、冒充欺诈等安全性问题从而影响技术的推广。 免责声明