您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:多模态LLM:Google vs OpenAI事件:近期大 - 发现报告
当前位置:首页/会议纪要/报告详情/

多模态LLM:Google vs OpenAI事件:近期大

2023-09-25-未知机构娱***
多模态LLM:Google vs OpenAI事件:近期大

多模态LLM:GooglevsOpenAI ❹❹❹事件:近期大模型频繁更新,LLM或将加速进入多模态时代。 据TheInformation消息:1)Google的下一代多模态模型已向少部分用户开启试用,同时推进Gemini与其消费者服务的整合。2)OpenAI正准备广泛推出GPT-Vision多模态能力,同时正在训练新的多模态模型Gobi。 ❹❹ 多模态LLM:GooglevsOpenAI ❹❹❹事件:近期大模型频繁更新,LLM或将加速进入多模态时代。 据TheInformation消息:1)Google的下一代多模态模型已向少部分用户开启试用,同时推进Gemini与其消费者服务的整合。2)OpenAI正准备广泛推出GPT-Vision多模态能力,同时正在训练新的多模态模型Gobi。 ❹❹❹新模型:9月21日,OpenAI宣布DALL-E3,基于ChatGPT上原生构建。 一方面,DALL-E3继承了ChatGPT强大的语言对齐能力,更好的理解prompt理解;另一方面,DALL-E3赋予了ChatGPT多模态能力,能够直接在对话中生成图片。 DALL-E3现在处于研究预览阶段,10月向ChatGPTPlus和企业客户开放,秋季通过API和OpenAILabs网页提供。 ❹❹❹其他模型更新:9月19日,GoogleBard发布大更新,1)支持使用Google搜索核查Bard的回答(仅英文),并索引到相应的链接,开启“联网”能力;2)GoogleLens支持上传图片,之前只能读取网页图片,相当于多模态能力更好用了。 9月19日,OpenAI向开发者推送邮件,宣布新的gpt-3.5-turbo-instruct模型发布,替代text-davinci-003等旧模型。Gpt-3.5-turbo-instruct仍属于InstructGPT3.5系列模型,价格与gpt-3.5-turbo4K模型一致。 点评:模型是一切好的应用的基石,是“基础理论”研究,建议持续关注。 而多模态也是海外模型龙头一直在做的,包括Google将PaLM扩展到AudioPaLM和PaLM-E,Meta发布CV领域的SAM和音频领域的 AudioCraft,StabilityAI将StableDiffusion从文生图扩展到音频领域StableAudio等。Google的Gemini和OpenAI的DALL-E3&Gobi或将加速LLM的多模态进程。