您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[OPPO研究院]:多模态预训练模型在OPPO端云场景的落地实践 - 发现报告
当前位置:首页/行业研究/报告详情/

多模态预训练模型在OPPO端云场景的落地实践

2023-12-15-OPPO研究院单***
多模态预训练模型在OPPO端云场景的落地实践

80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11 80387241 2023-11-29 80387241 2023-11 多模态预训练模型在OPPO端云场景的落地实践 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11 陈宸-OPPO研究院-高级算法工程师 0387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11 DataFunCon#2023 2023-11-29 2023-11-29 2023-11-29 2023-11-29 2023-11 Contents 80387241 80387241 2023-11-29 80387241 2023-11-29 80387241 80387241 2023-11-29 80387241 80387241 2023-11-29 80387241 2023-11 目录 80387241 80387241 2023-11-29 2023-11-29 2023-11-29 2023-11 端侧图文检索技术研究 文图生成模型的端侧轻量化图文生成&理解模型的应用优化 80387241 80387241 2023-11-29 0387241 2023-11-29 80387241 80387241 2023-11-29 80387241 80387241 2023-11-29 80387241 80387241 2023-11-29 80387241 2023-11 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 0387241 2023-11-29 80387241 2023-11 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11 80387241 2023-11-29 80387241 2023-11 端侧图文检索技术研究 2023-11-29 2023-11-29 2023-11-29 2023-11-29 2023-11 端侧图文检索技术研究——解决了什么问题? query1:和女朋友去迪士尼query2:山顶婚纱照 端侧检索demo 实现端侧智慧搜索的关键因素: 80387241 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 其一,“人话”解读能力。智慧搜图不仅能单独搜词,也能放一起搜,实现真正的口语化表达搜索,所想即所得,如“去年在动物园拍的老虎”等。因此需要类似多模态大模型CLIP(OpenAI)的图文理解能力。 80387241 80387241 80387241 80387241 80387241 2023-11 其二,高效搜索速度。相比动辄翻上十几分钟半个小时的相册,现在无论从桌面下拉智慧搜索、打开相册、或是用语音助手,都只需要一句话就能搜到想要的图片,系统级地提升了找信息的效率。因此如何实现大模型在端侧的轻量化部署有重大的意义。 大模型轻量化端侧技术落地的难点: 2023-11-29 2023-11-29 2023-11-29 2023-11-29 2023-11 1.压缩多模态大模型并确保精度。这并非简单用 剪枝或量化等方法,直接压缩几倍模型大小就 80387241 80387241 80387241 80387241 80387241 能搞定。毕竟对于端侧而言,算力有限的情况下,能部署的模型大小是往往只能达到大模型的几十分之一。 2.与算法模型升级相对应的,需要在端侧实现一个性能鲁棒的向量检索引擎,保证大模型下端的工程性能 2023-11-29 2023-11-29 一句话搜索的意义: 0387241 80387241 80387241 用户体验:真正解决用户想什么就能搜什么的痛点,“智慧搜图,搜你所想”。依托于大模型预训练技术,不再依赖于标签的迭代和扩展 大模型轻量端侧化的技术意义: 2023-11-29 2023-11-29 2023-11 1.成本节约:将云侧大模型才能体验的效果搬向到端侧,大幅节约计算资源; 80387241 80387241 2.隐私保护:直接在端侧处理用户的私人照片,无需上传到云端,保护用户隐私; https://.baidu.com/ 2023-11-29 2023-11-29 2023-11-29 2023-11-29 2023-11 端侧图文检索技术研究——算法优化 80387241 80387241 80387241 2023-11-29 80387241 80387241 2023-11-29 80387241 80387241 2023-11-29 80387241 80387241 2023-11-29 80387241 2023-11 CLIP双塔模型 ALBEF单流模型 80387241 2023-11-29 2023-11-29 2023-11-29 2023-11-29 2023-11 单双流多教师蒸馏架构 80387241 80387241 损失函数 80387241 80387241 检索引擎的计算分位两部分: 2023-11-29 2023-11-29 1.离线部分:扫描相册所有图片,通过图片编码器将所有图 2023-11 片转成向量;并经过fp16量化存储成Nx200的fp矩阵 2.在线部分:每次输入query,通过文本编码器将query转 2023-11-29 2023-11-29 80387241 80387241 成向量;并经过fp16量化降低计算内存;最后通过矩阵 0387241 80387241 80387241 Lei,Youbo,etal."MCAD:Multi-teacherCross-modalAlignmentDistillationforefficientimage-text retrieval."arXivpreprintarXiv:2310.19654(2023). 相乘计算query向量跟所有图片的相似分数,并通过排序输出一个有序列表。 2023-11-29 2023-11-29 2023-11-29 2023-11-29 2023-11-29 2023-11-29 2023-11-29 0387241 2023-11-29 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11 端侧图文检索技术研究——学术集效果 80387241 80387241 80387241 80387241 80387241 2023-11 各种蒸馏方法的效果对比 80387241 80387241 80387241 2023-11-29 80387241 80387241 2023-11-29 80387241 80387241 2023-11-29 80387241 2023-11 80387241 2023-11-29 80387241 2023-11 大小模型的性能对比 Modelname imagemodel textmodel fusionmodel imageencodingtime retrievaltime parameternumber testset platform CLIP VIT-L/14 12-layertransformer dotproduct 11.0ms 32.5ms 427.62M filckr5K V100GPU ALBEF VIT-B/16 6-layertransformer 6-layertransformer 7.6ms 265ms(k=16)1945ms(k=128)3865ms(k=256) 419.12M filckr5K V100GPU 自研小模型 mobileVitV2-1.5 4-layerTinyBert docproduct 3.8ms 14.1ms 25.9M filckr5K V100GPU 自研小模型 mobileVitV2-1.5 4-layerTinyBert docproduct 17.3ms 14.6ms 25.9M filckr5K MTKDX3 2023-11-29 2023-11-29 80387241 2023-11-29 80387241 80387241 2023-11-29 2023-11-29 80387241 80387241 2023-11-29 0387241 2023-11-29 80387241 80387241 2023-11-29 80387241 2023-11-29 80387241 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11 80387241 2023-11-29 80387241 2023-11 端侧图文检索技术研究——真实场景效果 2023-11 数据量:11个用户真实相册共2万+图片,手写5400+query 80387241 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 2023-11 数据分布: 测试集 R@1 R@5 R@10 MR mAP 01 0.4728 0.671 0.7495 0.6311 0.6080 02 0.4956 0.758 0.8251 0.6929 0.5306 03 0.4019 0.5665 0.6108 0.5264 0.4889 04 0.4532 0.6847 0.7389 0.6256 0.6048 05 0.5843 0.753 0.7952 0.7108 0.6428 06 0.5323 0.6855 0.75 0.6559 0.5890 07 0.35 0.5294 0.6088 0.4961 0.4771 08 0.6417 0.8083 0.8417 0.7639 0.5943 09 0.5965 0.6842 0.7193 0.6667 0.5622 10 0.5121 0.7059 0.7647 0.6609 0.5441 11 0.5654 0.7418 0.781 0.6961 0.6336 平均 0.4848 0.6768 0.7360 0.6325 0.5840 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 80387241 2023-11-29 2023-11-29 80387241 2