您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:打造多端多模态最优效果的百炼,共建大模型生态繁荣 - 发现报告

打造多端多模态最优效果的百炼,共建大模型生态繁荣

信息技术2024-09-19-阿里巴巴秋***
AI智能总结
查看更多
打造多端多模态最优效果的百炼,共建大模型生态繁荣

阿里云百炼产品使用体验交流群 加群与开发者共同探讨大模型的未来 海量电子书免费下载 多端融合,打造最优落地效果的多模态百炼01 CONTENT目录 1.全新升级:打造最优效果的多模态百炼2.终端大模型的探索及机会 开放应用架构,建设全新可精细化运营的百炼02 1.百炼RAG应用落地挑战与实践2.多语言多模态RAG技术研发与应用3.百炼可持续运营:大模型应用优化技术实践4.AI运营实践分享—PE及RAG的实施方法论 着眼未来,共建多元化的大模型生态03 1.模型+应用双轮驱动:全面开放的大模型生态 大模型落地千行百业,最佳实践案例分享04 1.Jarvis X百炼,打造大模型智慧出行客服2.德勤携手阿里云百炼,助力行业数智化提升3.产品博士-基于阿里云百炼的首个阿里云内部案例 主题一 多端融合,打造最优落地效果的多模态百炼 打造最优效果的多模态百炼 江潇 阿里云智能集团飞天实验室资深产品专家2024/09/19 CONTENT目录 建设大模型生产力和产品力02 Part 1持续为AI创新加速 与开发者共同成长,为AI新范式创新加速 阿里云百炼-产品定位 基于通义大模型,面向企业和开发者客户,打造一站式大模型服务和大模型应用构建平台 大模型服务及应用已逐步进入“深水区” 客户对效果需求带来对大模型平台能力,从要求生产力到产品力的转变 Part2建设大模型生产力和产品力 大模型生产力:扩大多模态模型拥有 多模态模型供给 大模型产品力:多模态适配工具链能力 应用搭建+效果优化,模型工具链全面兼容多模态模型 应用工具 Agent智能体: 基于视觉理解模型一键创建多模态交互智能体 智能编排: 基于文本、视觉、语音快速搭建多模态融合处理工作流及参数传递 模型工具 微调评测: 支持图片、视觉模型微调服务,全面覆盖QwenVLQwenVL/Wanx/FLUX/SD模型 大模型产品力:效果工具的实现思路 大模型产品力:效果工具实现Logtrace全链路追踪监测 围绕大模型应用的全节点执行过程 覆盖LLM、API、Retrieve、Embedding、Rerank、Plug-in等链路 LogTrace全链路监测-应用执行节点级监测完整执行链路的Latency延迟、输入、输出、Tokens消耗子节点级监测–节点执行详情 大模型产品力:效果工具实现提示词工程效果综合提升 Prompt作为大模型与应用效果的链接器,优化方式更趋智能化 大模型产品力:应用工具实现编排效果提升 工作流编排 智能体编排 Part3打造最优效果的RAG 大模型产品力:应用工具实现RAG的效果打磨 大模型产品力:应用工具落地RAG的最佳范式 多源/异构数据可管理 •多种数据对接方式 云上数据库、本地数据库、网页数据解析等 •多模态数据 文档、图片、数据库表、视频、语音 •互联网搜索 大模型产品力:应用工具落地RAG的最佳范式 效果可调优、可干预 •搜索精度提升 Metadata增强、模板化文档chunk切分 搜索前置/后置过滤、意图识别后恢复召回等 •提升端到端生成满意度 RAG应用的自动化评估 Part4打造最安全的百炼 大模型产品力:安全工具的解决方案 大模型产品力:安全资质及多端可信部署 国际首个人工智能管理体系标准ISO/IEC42001认证 一站式大模型服务平台,企业拥抱AI时代首选 谢谢Thank You 终端大模型的探索及机会 胡露露 阿里云智能集团飞天实验室科学家2024/09/19 从行业需求看终端模型能力 通过AI Core内置操作系统内核,帮助品牌商,建立自己的大模型生态,开放APP调用,为APP在手机,PC,平板等消费电子场景提供更丰富的端侧应用能力。 图搜信息 输入法改写 短信/通话提取 图像理解 阿里云支持广泛端侧大模型 图像模型 语音模型 通义万相-0.3B生图的基础模型并具备背景图切换、商品图设计、数字模特等场景能力 Qwen2-Audio让模型能够“对话”具备多语言的声音理解、语音编辑、音乐鉴赏、情感分析等能力 SenseVoice-small让模型能够“听见”语音理解模型支持语音识别、语种识别、语音情感识别、声学事件检测、逆文本正则化等能力 Qwen-VL-2B让模型能够“看见”动态分辨率及OCR数据增强 代码模型 CosyVoice-300M让模型能够“说话”全新推出的生成式语音大模型,提供舒适自然的语音合成能力 CodeQwen 让模型能够代码编写通义家族推出的开源代码生成模型 模型落地的挑战 扩展 安全&维护 资源 性能 模型场景优化(SFT能力、互联网检索、图像理解、图像生成、三方应用打通) 模型更新、模型升级(升级包<100M)敏感内容过滤 功耗(<3W)内存占用(2G-4G)CPU/GPU/NPU占用率(<1c) Prefill速度、decode速度、模型加载速度、模型Functioncall准确率、模型对话效果、模型总结效果 由于端侧模型部署相较于传统大模型部署在部署平台、使用场景的不同,会有更多的模型调优、工程优化的诉求与挑战 端侧大模型全技术链路 性能对比列表 以百炼为基础-全面支持主流端侧芯片平台 Qwen2系列支持Qualcomm、MTK、Inter、AMD等多种AI-SOC芯片原生调用 通义大模型+MTK系列芯片创新摘要提取 文件摘要 短信提取 通话提取 提取通话关键信息,帮助消费者总结摘要 提取短信关键信息,帮助消费者记忆 文件内容摘要,帮助消费者快速阅读 通义底座模型+LoRA能力,实现快速功能加载 语音输入+意图理解+Planning推理+FunctionCall “驾车导航去机场,给我找下机场附近好吃的并加到途经点,我想吃烧烤” 内容安全 本地和增强多种可选安全方案,帮助客户高效率实现安全的大模型使用环境 内容安全(需云端激活) 端侧大模型拒答 支持本地,云端双保护。 模型内置拒答能力。符合AIGC备案要求。并实时跟进政策需求变化。 1.本地模式:预置60万风险词库,6个算法比对模型。支持中英双语支持中文同音词,相似词。可选云端更新词库功能。2.云端模式:云端风控模型,电商级别内容安全保护。 安全运行 隐私保护 本地客户数据加密。可选云端非对称数据加密。模型数据与客户数据独立保存。 客定微调模型文件加密防破解。关键算子抽离防盗取。 百炼支持端云结合创新 谢谢Thank You 主题二 开放应用架构,建设全新可精细化运营的百炼 百炼RAG应用落地实践与挑战 通义实验室科学家2024/09/19丁 瑞 雪 CONTENT目录 Part 1RAG背景与挑战 RAG出现背景 幻觉问题 知识受限 长尾问题 时效性知识:今天天气怎么样?2024云栖大会举办时间 私域知识: 长尾知识: 我入职3年,今年有多少天年假?空调买了三年坏了,还在保修期吗? fishierrc42019的板腰长度是多少?ATOMIC REDSTER CS SKI BOOT硬度是多少? RAG落地应用挑战 多样化需求 复杂的数据 效果保障 多知识库编排、回答范围限定、多种query类型支持等 如何确保在客户的数据上达到效果要求,如何迭代优化 PPT、PDF、word、网页、markdown等多种复杂文件类型 Part2复杂文档理解 复杂的数据 03.多模态数据理解 02.复杂表格理解 01. PPT阅读顺序理解 复杂的表头关系、无线表格分割、表格合并、表格跨页等表格绘制方式均会对表格解析造成困难 传统的依赖OCR的解析方式难以将饼图、折线图、柱状图等多模态数据信息准确地传达出来 不同于word、PDF等顺序理解文档,PPT文档通常具有二维的空间理解顺序。阅读顺序的正确理解对文档内容理解起到重要作用 复杂文档解决方案 混合OCR、规则解析、离线VL、在线VL、layoutpompt等多种理解方式解决复杂文档理解问题 Part3差异化需求满足 多样化需求例子 回答范围限定 多知识库编排 多种query类型支持 知识范围: 知识库类型: query类型: 不同类型的提问,对于所需信息密度、信息类型不一样 •互联网知识库•多类型业务知识库•FAQ知识库 •大模型自有知识•知识库内容•互联网知识 •知识点问答•总结摘要•长文档推理•翻译•文本创作 知识库编排需求: 依赖prompt无法支持知识范围限定 •本地/互联网知识优先级配置•FAQ库短路机制•多权重业务库路由混排 •模型幻觉•垂域知识缺乏•基模训练策略 Part4系统评估与优化 开箱即用之后… CoFE-RAG:RAG系统全链路自动评估框架&Benchmark 谢谢Thank You 多语言多模态RAG技术研发与应用 龙定坤 通义实验室科学家2024/09/19 多模态文档理解 文件格式众多图片/pdf/office/html 多模态版面元素文本/表格/图片 版面层级结构多样论文/图书/财报/说明书 多页长文档1-unlimited 多模态文档理解 统一多模态文档识别 长文档解析 文档结构识别 文档版面分析,文档层级解析 产品能力 文档理解能力 >10种文档格式转换md 文档解析 基于Qwen大模型的Embedding/ReRank能力构建 百炼大模型平台RAG算法 多语言多模态RAG应用 多语言智能问答 旅游和商品推广 多模态产品智能辅助 •Howtobookairtickets?•出差在外卖定的外卖无发票可以报销吗•Puis-jeréserverun lieu deconférenceparl'intermédiaired'unesociété tierce ? Q:请问这是哪个城市的哪个景点? Q:儿童座椅放置的卡扣在哪个位置Q:怎么放倒第三排座椅Q:查询AAC代号为98C的指令并使用V24.23版本的查询规范 Q:这个鞋是什么型号?Q:根据商品知识写一段推广展示文案 谢谢Thank You 百炼可持续运营—大模型应用优化技术实践 赵 中 州 阿里云智能集团飞天实验室科学家2024/09/19 ICL优化实践:基于Meta-Prompt的提示词优化实践 支持Instruction和Demo的快速扩展与反馈迭代 【任务分析】 【模型Prompt】 【任务描述】 提示词扩展 产品营销广告一版包含故事悬念,信息缺口,冲突展示,预期反转,直接利益,内幕揭秘…等类型,请分析下列内容判断其具体类型: 你是一个专家,擅长下面的能力: 1.文本理解与分析能力:能够准确理解文章标题和正文或摘要中的关键信息,识别其中涉及的汽车相关…##【任务描述】请判断下面汽车相关的文章属于下面哪一种类别:“产品解析”,“车商卖车”,“经典怀旧”,“质量投诉”,“销量表现”,“其他”。最终的结果请按照{{“type”:“<类别结果>”}}的json格式进行输出##【任务步骤】完成该任务需要遵循以下步骤:1.**阅读文章标题和正文**:首先仔细阅读提供的文章标题和正文内容,这是理解文章主题和目的的关键…##【注意事项】完成该任务需要注意以下几点:1.**标题与正文内容结合分析**:文章的标题往往能提供关键信息,但要结合正文内容综合判断...##【参考样例】###样例一…###样例二…##【待分析内容】…请根据【任务描述】针对【待分析内容】进行分析,并且参考【参考样例】、给定的【任务步骤】和【注意事项】。请先一步一步详细的给出推理过程,然后给出结果。 针对该提示词,可通过下列维度提升清晰度、全面性和实用性: 1.明确定义各类型特征:…2.引入评估框架:…2.增加操作性指导:…3.补充案例分析