您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[高通]:2024 多模型态 AI 的感官结合视觉、听觉与交互科技白皮书 (汉) - 发现报告
当前位置:首页/行业研究/报告详情/

2024 多模型态 AI 的感官结合视觉、听觉与交互科技白皮书 (汉)

医药生物2024-09-24-高通匡***
AI智能总结
查看更多
2024 多模型态 AI 的感官结合视觉、听觉与交互科技白皮书 (汉)

整合感官: AI如何学习看到、听到和交互 罗兰·梅米萨维奇 QualcommAIResearch高级工程总监 与SunnyPanchal、ApratimBhattacharyya、GuillaumeBerger、AntoineMercier、RezaPourreza、SanjayHaresh及其他人员共同完成 2024年9月24日 骁龙和高通品牌的产品是由高通技术公司及其子公司生产的。Snapdragon和Qualcomm品牌的产品是由QualcommTechnologies,Inc.及其子公司生产的。 议程 •关键概念:流架构 •数据集对端到端培训的重要性 •高效的人机交互和基于视频的推理 •使用辅助任务改进流视频LLM •Q&A 2 2 模态和用例能力和KPI 语音UI 声音是一种自然而直观的对话界面 大型多模态模型 利用更多的传感输入方式来更好地了解世界 视频和3D 为更丰富的用户生成内容和更现实的经验 LoRA:低秩适应 生成AI能力继续 增加 代理商 通过自主推理执行多步任务以实现目标 较长的上下文窗口 允许深入对话 个性化 微调模型定制 对消费者、企业或行业(例如,LoRA) 更高的分辨率 处理更高保真度的图像为了更好的准确性 3 全栈AI优化 对于LMs 通过知识蒸馏设计高效的扩散模型以实现高精度 完全运行在设备上 显著降低 知识蒸馏以修剪和移除注意力模块,从而获得准确且性能和能效均得到提升的模型。 运行时延迟和功耗高通®AI引擎可直接提高性 能并最大限度地减少内存溢出 持续改进 高通®AI堆栈 高通公司™的AI加速®® 六边形Snapdragon的NPU8 Gen3移动处理器 LM:语言视觉模型4 混合AI中央云 将工作负载分配至云和边缘/设备以提供更为强大、高效且高度优化的体验 。 易于开发和部署培训|超大型模型聚合|绝对性能 为了缩放,AI处理的重心正在向边缘移动 5 边缘云 (本地或附近) 即时性|可靠性|个性化|隐私|安全微调|聚合 在设备上 5 即时|可靠性|个性化|隐私|安全成本|能源 LLM现在可以看到 世界第一Android手机上的大型多模态模型(LMM) 70亿个参数LMM,LLaVA,具有文本,语音和图像输入 以响应令牌速率进行关于图像的多轮直观对话 全栈AI优化,以低功耗实现高性能 通过设备上处理增强隐私、可靠性、个性化和成本 LLM:大型语言模型;LLaVA:大型语言和视觉助手6 7 目标:训练AI模型以查看人类并与人类互动 SMARTHOME移动机器人 8 8 情景视觉语言模型 •实时处理实时视频流并与用户动态交互 •确定要说什么以及何时要说•启用人形机器人的路径 视觉接地LLM Vision 行动识别 OrchestratorLLM 与位置代理的开放式异步交互是一个开放的挑战 •仅限于关于离线文档或图像的回合式交互 •仅限于在VQA风格的对话中捕捉现实的瞬间快照 前面end TTS 研究视觉接地的LLM,具有推理和与环境互动的能力 9 视频语言模型与情境交互基准:说什么和何时说(2024);OpenEQA:基础模型时代的身体化问答;VQA:视觉问答9 10 神经网络取代了日益复杂的计算管道 10 本报告来源于三个皮匠报站(www.sgpjbg.com),由用户Id:529794下载,文档Id:178432,下载日:2024-10-2 2010 2012 2014 SPEECH对象语言到文本识别翻译 音频 像素 English 神经管网道络 神经管网道络 神经管网道络 Text 对象 法语 11 代理的端到端backprop 11 (自动回归)神经网络输入流行为流 关键概念:多模态流架构 输入流 (自动回归)神经网络 行为流 培训端到端 •自回归语言模型是多模态代理的一个有用组件,因为它已经能够与用户进行对话。 自动回归LLM 外部 INPUT (例如,相机) 语言或行动 •此外,语言可以轻松地对代理任务进行编码,以达到一定程度的“常识”。 13 端到端学习需要多模态流架构 13 自动回归LLM 外部 INPUT (例如,相机) 语言或行动 •结合图像特征提取器和语言模型骨干✁视觉基础模型逐渐变得普遍。 •有多种不同✁方式将视觉信息与语言模型结合起来,例如: •交叉注意力(例如,火烈鸟)•专用视觉标记(例如,熔岩) ...适用于字幕和视觉问答等应用程序 然而,... 端到端学习需要多模态流架构 火烈鸟:少射学习✁视觉语言模型“,Alayracetal2022“视觉指令调整”,Liu等人,2023年 ...可以利用实时摄像机馈送✁现场代理需要一个可以持续关注视觉输入✁系统 上下文窗口 FRAME TOKEN TOKEN TOKEN FRAME TOKEN TOKEN TOKEN FRAME TOKEN TOKEN 挑战: •自由交织✁视觉帧和语言标记 •视觉帧率与标记率之间✁依赖关系 •训练数据,使模型学会何时以及说什么 •近期工作:“VideoLLM-online:用于流式视频✁大语言模型” ,陈等,2024,以及我将在下一张幻灯片中介绍✁我们自己 ✁工作 14 数据集对端到端培训✁重要性 用于视觉助手端到端培训✁数据集 端到端训练✁关键要求:对齐视频馈送(帧)+助手✁评论(令牌) “HoloAssist:现实世界中交互式AI助手✁以自我为中心 ✁人类交互数据集”Wang等人2024 第一人称视频显示各种任务(16个对象✁20个任务) “基础模型可以观察,说话并指导您一步一步地制作蛋糕吗?”Baoetal.2023 第一人称视频显示纸杯蛋糕✁准备 “现场健身教练作为情境互动✁试验台”Panchal等人2024 第三人称视频显示健身运动及其更正 16 健身问题数据集 FIT-教练 基准和数据集 一种新颖✁交互式视觉 148 练习 1900 独特✁参与者 300k 短片视频 1.1M+ 高级问答对 470+ 小时 400k+ 细粒度✁问题-答案对 教练基准和数据集,作 为实时,现实世界✁交 健身反馈数据集 9+148∼3.521 互✁测试台 数小时✁健身教练会议 锻炼会议 长达几分钟 ✁课程,有5到6个练习 独特✁参与者 旨在发展基于受控但具有挑战性✁健身教练领域✁交互多模态视觉-语言模型。 17 现场健身教练作为现场互动✁测试床,Panchal,Bhattacharyya,等人,202417 健身助手数据集和基准测试 短视频剪辑展示用户进行individualexercises✁视频片段,并标注表现、常见错误等相关标签(约30万条长度约为5-10秒✁剪辑)。 远程视频显示用户✁锻炼,以及教练✁一致评论(每个练习5-6次练习约200次) 短夹 Long-RANGE 火车 Test 火车 Test† 视频数量 290,775 16,429 153 69 独特✁参与者 1,800+ 100 21 7 平均持续时间(s) 5.6±1.1 5.6±1.2 213.4±3.1 213.7±3.3 每个视频✁练习 1 1 5-6 5-6 练习总数 148 148 23 23 TotalClass 1866 1690 — — 健身问题 总✁高级问题 1,193,056 78,390 — — 总计细粒度✁问题 404,082 80,694 — — 健身反馈 每次练习✁平均反馈 2.0±10.1 2.4±6.9 5.0±1.3 5.0±1.2 平均静默期(s)†† n/a n/a 5.2±1.4 5.3±1.2 平均反馈长度(单词) 9.0±6.1 9.1±5.0 6.3±3.8 6.6±4.0 18 健身助手数据集和基准测试 长健身会话数据集短健身剪辑数据集 19 我们✁数据集满足交互式AI助手✁所有需求 DATASET 域 Human动作 交互性 错误 更正反✲ 域EXPERTISE 长度 动作识别数据集 NTURGB+D Fitness ✓ x x x ✓ — FineGym Fitness ✓ x x x ✓ 708 程序性活动数据集 YouCook2 烹饪 x x x x x 176 史诗般✁厨房 烹饪 x x x x x 100 HowTo100M 日常生活 ✓ x x x x 134k Ego-4D 日常生活 x x x x x 3670 Ego-Exo4D 日常生活 x x ✓ x x 1422 装配-101 玩具总成。 x x ✓ x x 513 交互式AI助手数据集 WTAG 烹饪 x x ✓ ✓ x 10 HoloAssist Obj.manip. x x ✓ ✓ x 166 QEVD(我们✁) Fitness ✓ ✓ ✓ ✓ ✓ 474 20 高效✁人机交互和基于视频✁推理 详细架构:学习该说什么以及何时说 自动回➴LLM 外部 INPUT (例如,相机) 语言或行动 视觉溪流 提示 CROSS-ATTNCROSS-ATTNCROSS-ATTN CROSS-ATTNCROSS-ATTNCROSS-ATTN on 光滑 <反✲> 3DCNN <next> 3DCNN <next> 3DCNN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 自我ATTN 语言背骨 22 自动回➴LLM 外部 INPUT (例如,相机) 语言或行动 可步进式因果3d卷积可实现高效✁流式运动感知 现有✁视觉语言模型使用二维CNN或视觉转换器作为视觉特征提取器 这使它们不适合用于健身教练等涉及人类行为和运动模式理解✁任务。 我们使用3DCNN作为特征提取器,我们已经证明它非常适合端到端学习(“端到端学习足以进行健身活动识别吗?”Mercier等 ,2023)。 可以使用 通过任何RGB相机查看和与人类互动✁能力来增强您✁应用程序:github.com/quic/sense 可步进,因果关系卷积: SteppableConvStandardConv因果转换 上一页New 时间步长时间步长 “端到端学习是否足以识别健身活动?”Mercier等人,2023年23 使用辅助任务改进流视频LLM 生成复杂文字说明 生成简单文字说明 分类 178类行动 分类 40个行动组 62,8 59,7 55,8 54,4 基线分类 图像 47,1 on 34,3 培训从 划痕 7,7 “关于任务粒度对迁移学习✁有效性”(Mahdisoltani,等人,2018) 使用语言解码器在训练时向模型提供代理任务 语言生成不仅是一项有用✁任务,而且还可以帮助模型获得一定程度✁“常识” 预训练模型完成一个困难✁描述任务(Goyal等,2017年✁Something-Something)……使我们能够在独立✁家庭烹饪任务中提高预测准 确性。 *“用于学习和评估视觉常识✁东西视频数据库”(Goyal等人,2017)25 视觉语言模型可以通过将视觉信息编码为语言来学习低级视觉技能 将视觉信息编码为语言是一种自然✁方法来教导视觉-语言模型低级视觉技能,如物体识别、检测等。 这些视觉技能在推理时✁作用类似于进行视觉推理任务✁链式思考推理。 “看,记住和原因:具有语言模型✁视频中✁扎根推理”Bhattacharyya,etal.2024 示例:Something-Else(Materzynska等人,2020):示例:CATER(Girdhar等人,2020年): 13 18 18 21 2133321 2133321 2133321