您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:打造多端多模态最优效果的百炼,共建大模型生态繁荣 - 发现报告
当前位置:首页/行业研究/报告详情/

打造多端多模态最优效果的百炼,共建大模型生态繁荣

信息技术2024-09-19-阿里巴巴秋***
AI智能总结
查看更多
打造多端多模态最优效果的百炼,共建大模型生态繁荣

阿里云百炼产品使用体验交流群加群与开发者共同探讨大模型的未来 阿里云开发者社区海量电子书免费下载 CONTENT 目录 01多端融合,打造最优落地效果的多模态百炼 1.全新升级:打造最优效果的多模态百炼 2.终端大模型的探索及机会 02开放应用架构,建设全新可精细化运营的百炼 1.百炼RAG应用落地挑战与实践 2.多语言多模态RAG技术研发与应用 3.百炼可持续运营:大模型应用优化技术实践 4.AI运营实践分享—PE及RAG的实施方法论 03着眼未来,共建多元化的大模型生态 1.模型+应用双轮驱动:全面开放的大模型生态 04大模型落地千行百业,最佳实践案例分享 1.JarvisX百炼,打造大模型智慧出行客服 2.德勤携手阿里云百炼,助力行业数智化提升 3.产品博士-基于阿里云百炼的首个阿里云内部案例 主题一 多端融合,打造最优落地效果的多模态百炼 打造最优效果的多模态百炼 江潇 阿里云智能集团飞天实验室资深产品专家 2024/09/19 CONTENT 目录 01持续为AI创新加速 02建设大模型生产力和产品力 03打造最优效果的RAG 04打造最安全的百炼 Part1 持续为AI创新加速 与开发者共同成长,为AI新范式创新加速 理念 理念 2023年10月31日 百炼1.0 2024年5月9日 百炼2.0 新百炼 阿里云百炼-产品定位 基于通义大模型,面向企业和开发者客户,打造一站式大模型服务和大模型应用构建平台 通义晓蜜 百模重器·千锤百炼 三方大模型 听悟 通义千问系列 析言GBI 妙笔 应用生态 百炼MaaS 模型生态 通义万相系列 通义开源系列 三方应用 通义领域大模型 自定义应用 多模态大模型 Qwen-Plus Qwen-VL Qwen-Max Qwen-Turbo 阿里云AI计算服务PaaS/IaaS 大模型服务及应用已逐步进入“深水区” 客户对效果需求带来对大模型平台能力,从要求生产力到产品力的转变 模型服务 模型效果 大模型生产力 模型拥有 (多模态) 多模态适配 开发工具 大模型产品力 效果工具 安全工具 最佳 企业级效果 Part2 建设大模型生产力和产品力 阿里云百炼产品升级架构图 大模型输出API/SDK/智能体 应用广场 模型广场 多端生态 VPC、金融云、政务云等 国际化 效果运营中心 效果追踪工具 效果分析工具 效果干预工具 多维看板 Agent 应用开发工具 Prompt工程 流程/Agent编排 插件中心 搜索增强 全链路 模型开发工具 模型体验/调试 模型调优LoRA/SFT 模型预训练 模型评测 数据管理 大模型服务 模型推理服务 模型训练服务 模型部署 模型安全服务 基础大模型 通义千问系列 通义万相系列 通义多模态大模型语音、视觉、HumanAIGC等 通义领域大模型法睿、客服等 三方大模型 大模型生产力:扩大多模态模型拥有 多模态模型在线体验 多模态模型供给 开源+闭源,多模态模型一站式开箱即用 文本生成 Qwen-Turbo Qwen-PlusQwen-Max 图片生成 Wanx-v1 FLUX OutfitAnyone 视觉理解 QwenVL-Max QwenVL-Plus 视频生成 AnimateAnyone EMO 语音识别 Sensevoice Paraformer-v2 语音合成 CosyVoice 模型工具 微调评测: 支持图片、视觉模型微调服务,全面覆盖 QwenVLQwenVL/Wanx/FLUX/SD模型 QwenVL视觉理解模型图文SFT微调数据在线编辑 大模型产品力:多模态适配工具链能力 应用工具 Agent智能体: 基于视觉理解模型一键创建多模态交互智能体 智能编排: 基于文本、视觉、语音快速搭建多模态融合处理工作流及参数传递 基于QwenVL-MAX模型,搭建多模态搜索工作流 应用搭建+效果优化,模型工具链全面兼容多模态模型 大模型产品力:效果工具的实现思路 可追踪 可分析 可干预 大模型产品力:效果工具实现Logtrace全链路追踪监测 围绕大模型应用的全节点执行过程 覆盖LLM、API、Retrieve、Embedding、 Rerank、Plug-in等链路 LogTrace全链路监测-应用执行节点级监测 完整执行链路的Latency延迟、输入、输出、Tokens消耗子节点级监测–节点执行详情 提示词工程 ICL样例扩充 基于反馈优化 大模型产品力:效果工具实现提示词工程效果综合提升 提示词扩写 Prompt作为大模型与应用效果的链接器,优化方式更趋智能化 大模型产品力:应用工具实现编排效果提升 工作流编排 智能体编排 高度自定义的SOP流程执行,显著降低编码成本Multi-Agent+Workflow智能决策的混合应用编排 Part3 打造最优效果的RAG 大模型产品力:应用工具实现RAG的效果打磨 搜索精度差 系统集成难度 痛点 企业知识管理复杂 模型生成幻觉 端到端生成满意度差 维护成本高 领域 企业数据 应用效果 企业管理 百炼RAG目标 可管理 可调优 可干预 可观测 可运营 大模型产品力:应用工具落地RAG的最佳范式 多源/异构数据可管理 •多种数据对接方式 云上数据库、本地数据库、网页数据解析等 •多模态数据 文档、图片、数据库表、视频、语音 •互联网搜索 大模型产品力:应用工具落地RAG的最佳范式 效果可调优、可干预 •搜索精度提升 Metadata增强、模板化文档chunk切分 •模型生成幻觉降低 搜索前置/后置过滤、意图识别后恢复召回等 •提升端到端生成满意度 RAG应用的自动化评估 Part4 打造最安全的百炼 用户账号 所有数据100%归属用户 日志存储 SLS ActionTrail 知识库向量数据 AnalyticDB 训练数据、多模态数据 OSS 数据处理中间数据 Elasticsearch 内容安全 KMS加密 SDDP防护 大模型产品力:安全工具的解决方案 百炼账号 百炼平台只计算不留存数据 百炼应用 RAG Agent 百炼平台网关 模型训练部署 模型微调 模型部署 Prompt全程加密 基础模型 通义系列 其他模型 RAM 内置绿网 内部审计 模型加密 用户账号 VPC API 用户 里调用百炼推理和应用 专网通道 专网通道 数据可控 模型独享 链路可信 操作可审 大模型产品力:安全资质及多端可信部署 国际首个人工智能管理体系标准ISO/IEC42001认证 VPC金融云政务云 一站式大模型服务平台,企业拥抱AI时代首选 谢谢 ThankYou 终端大模型的探索及机会 胡露露 阿里云智能集团飞天实验室科学家 2024/09/19 通用大模型 端小模型 图像理解 识别图像上的文字,二维码等信息并结构化 短信/通话提取 提取短信,通话关键信息,并发布到便签 从行业需求看终端模型能力 通过AICore内置操作系统内核,帮助品牌商,建立自己的大模型生态, 开放APP调用,为APP在手机,PC,平板等消费电子场景提供更丰富的端侧应用能力。 图搜商品 相册图片直接搜索淘宝相似商品 文本总结 提炼长文本中的信息,并以固定格式输出 抖音 百度网易 微信 原神 生态应用 浏览器 短信 通话 相册 健康 客户AICore 千问 万相 1-K个tokens Audio VL N个正确tokens 端云预测混合推理 图搜信息 通过摄像头直接识别物品 输入法改写 对输入的文本进行文风改写 内容翻译内容创造 不可思议帮我写一段龙年祝福的话 inconceivable龙腾瑞气贺新春,福星高照吉祥年,愿你龙年事业飞跃。章福安康,万事如意! 不同风格选择商务 调皮礼貌 代码模型 CodeQwen 让模型能够代码编写 通义家族推出的开源代码生成模型 语音模型 Qwen2-Audio 让模型能够“对话” 具备多语言的声音理解、语音编辑、 音乐鉴赏、情感分析等能力 SenseVoice-small 让模型能够“听见” 语音理解模型支持语音识别、语种识别、语音情感识别、声学事件检测、 逆文本正则化等能力 CosyVoice-300M 让模型能够“说话” 全新推出的生成式语音大模型, 提供舒适自然的语音合成能力 图像模型 通义万相-0.3B 生图的基础模型 并具备背景图切换、商品图设计、数字模特等 场景能力 Qwen-VL-2B 让模型能够“看见” 动态分辨率及OCR数据增强 文本模型 阿里云支持广泛端侧大模型 模型 分类 开源时间 应用场景 Qwen2-0.5B IoT/冰箱 2023.12 端侧推理 Qwen2-1.5B 手机/IoT 2023.12 端侧推理 Qwen2-3B 手机 / 规划中 Qwen2-7B PC/台式电脑 2023.9.25 端侧推理 模型落地的挑战 性能 Prefill速度、decode速度、 模型加载速度、模型Functioncall准确率、模型对话效果、模型总结效果 资源 功耗(<3W) 内存占用(2G-4G)CPU/GPU/NPU占用率(<1c) 扩展 模型场景优化(SFT能力、 互联网检索、图像理解、图像生成、三方应用打通) 安全&维护 模型更新、模型升级 (升级包<100M)敏感内容过滤 由于端侧模型部署相较于传统大模型部署在部署平台、使用场景的不同, 会有更多的模型调优、工程优化的诉求与挑战 端侧大模型全技术链路 DeploymentToolkit OptimizationPlugins InferenceFramework KVCacheManager AlibabaCloud TransformerEngine ModelWeights Layer0 …… LayerN 云端任务分发 云端任务回复 性能对比列表 Qwen2-0.5B&Qwen2-1.5B Qwen2-7B 评测对比数据来自通义官方博客,供参考:https://qwenlm.github.io/zh/blog/qwen2/ 以百炼为基础-全面支持主流端侧芯片平台 Qwen2系列支持Qualcomm、MTK、Inter、AMD等多种AI-SOC芯片原生调用 •Counterpoint预测,2024年生成式AI智能手机出货量将达到1亿部,到2027年出货达到5.22亿部,2023-2027年CAGR为83%,届时AI手机的渗透率将达到40% •Canalys最新预测数据显示,2024年,全球AIPC出货量将达到4800万台,占个人电脑(PC)总出货量的18%;预计到2025年,AIPC出货量将超过1亿台,占PC总出货量的40%。 通义大模型+MTK系列芯片创新摘要提取 短信提取 提取短信关键信息, 帮助消费者记忆 文件摘要 文件内容摘要,帮 助消费者快速阅读 通话提取 提取通话关键信息, 帮助消费者总结摘要 某品牌AI手机 通义底座模型+LoRA能力,实现快速功能加载 端云结合的意图理解模型 客户端设备端侧小模型百炼Workflow ASR 客户应用 NLU Qwen-LLM Qwen-VL API 服务 TTS执行器 终端控制 1.5B 上千种意图准确率96% Qwen-Audio 执行节点 其他 语音输入+意图理解+Planning推理+FunctionCall “驾车导航去机场,给我找下机场附近好吃的并加到途经点,我想吃烧烤” LLM语义识别/意图理解 APP调用 第一家烧烤店可以吗? LLM推理Planning APP调用 口味喜好 LLM多轮对话/记忆读取 Memory历史喜好记录 大模型语义识别意图理解后返回结构化