您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:【浙商计算机 刘雯蜀/陶韫琦】Meta开源多模态模型ImageBind,基于6种 - 发现报告
当前位置:首页/会议纪要/报告详情/

【浙商计算机 刘雯蜀/陶韫琦】Meta开源多模态模型ImageBind,基于6种

2023-05-12未知机构野***
【浙商计算机 刘雯蜀/陶韫琦】Meta开源多模态模型ImageBind,基于6种

【浙商计算机 刘雯蜀/陶韫琦】Meta开源多模态模型ImageBind,基于6种数据流可模拟人类真实感官2023年5月10日,Meta宣布开源了一种可以将可以横跨6种不同模态的全新AI模型ImageBind,包括视觉(图像和视频形式)、温度(红外图像)、文本、音频、深度信息、运动读数(由惯性测量单元或IMU产生)。Meta称ImageBind是第一个能够同时处理6种感官数据的AI模型,也是第一个在没有明确监督的情况下学习一个单一嵌入空间的AI模型。ImageBind以视觉为核心,可做到各个模态之间任意的理解和转换。在官方用例展示中,ImageBind可实现音频生成图像(输入企鹅叫声,输出企鹅图片)、基于音频识别图像(基于语音指示,自动识别图片中的物体)、基于音频对图像进行加工等功能。ImageBind模型对虚拟世界、机器人等领域具有重要意义。Meta相关团队表示,ImageBind未来还将加入触觉、语音、嗅觉和大脑功能磁共振信号,持续探索AI大模型多模态功能及应用场景。