基于云智能平台实现AI应用开发 王昕技术战略专家 请替换您的照片 王昕 微软(中国)有限公司高级技术战略专家 王昕有20年从事软件系统设计、开发和产品管理的经验,目前在微软中国从事技术战略和技术生态孵化工作,推广基于OpenAI等大语言模型技术的新应用架构。王昕对IT行业新技术始终保持第一线的跟踪,多年在GOPS、InfoQ,CSDN等技术论坛从事技术布道和经验分享工作。 01AI技术发展引领新的应用变革 目02新的AI应用开发运营流程 contents 录03主要AI应用开发最佳实践 04常见的AI应用场景 PART01 技术变革 AI技术发展引领新的应用变革 AI工程演变及技术实现 ArtificialIntelligence1956 MachineLearning1997 DeepLearning2017 GenerativeAI 2022 AI演变 GenerativeAi技术应用发展实现图 各种AIGC技术 GPT-4/3 提示: 为一家冰淇淋店写一个标语。 回应: 猎豹是为速度而生的,有几种适应能力,使它们成为速度最快的陆地动物:苗条的身体、长腿、灵活的脊椎、大鼻孔和不会缩回的爪子。 我们的每一勺都能带来微笑! Codex 提示: Tablecustomers,columns=[CustomerId,FirstName,LastName,Company,Address,City,State,Country,PostalCode] 为德克萨斯州的所有名为Jane的客户创建一个SQL查询= 回应: SELECT* FROMcustomers WHEREState='TX'AND FirstName='Jane' DALL·E2/3 ChatGPT 陆地上跑得最快的动物是什么? 猎豹,其速度可达每小时60英里(97公里)。 是什么让它们这么快? 提示:一只白色的暹罗猫回应: GOPS全球运维大会2024·深圳站 DALL-E2:1024x1024 DALL-E2:512x512 DALL-E2:256x256 DALL-E3:1024x1024 DALL-E3:1024x1024 Prompt: oilpaintingofBeijing Niaochao 图片生成技术的发展——分辨率 DALL-E2:256x256 DALL-E2:512x512 DALL-E2:1024x1024 DALL-E3:1024x1024 DALL-E3:1024x1024 图片生成技术的发展——人物细节 Prompt: 一位商务女士和一位商务男士在办公桌前洽谈,真实画风 图片理解技术的发展 理解图片中的关键信息 理解图片的含义 图片生成技术的发展——技术比较 特性 DALL-E2 DALL-E3 分辨率 最高512x512 DALL-E3可以生成1024×1024像素的更高分辨率图像,可以提供更多细节和清晰度。 图像细节 多人细节失真 DALL-E3在图像和人体细节中生成文本方面展示了重大改进。这可以提高图像的质量和多样性。 集成和可用性 不能跟ChatGPT集成 DALL-E3与ChatGPT集成,ChatGPT是一种对话式AI系统,可以帮助用户制作和完善DALL-E3的提示。 安全性 没有加入识别标签 DALL-E3还具有来源分类器,该工具可以帮助识别图像是否由DALL-E3生成。 训练数据 数据集较小 DALL-E3使用更大、更平衡的数据集。 模型技术 变分自动编码器(VAE) 扩散模型。这意味着DALL-E3比DALL-E2具有更大的灵活性和表现力,可以更好地处理复杂的场景和纹理。 GOPS全球运维大P会rom2pt0:一2个42·4深岁女圳人站眨眼的极端特写,在神奇的时刻站在马拉喀什,以70毫米拍摄的电影胶片,景深,鲜艳的色彩,电影 Sora–世界模拟器 Sora能够根据文本、图像、视频输入,生成(或合成、向前向后扩展、渲染)具有不同宽高比和分辨率的高质量、高保真度的1分钟视频(或高清图片),且生成的视频具有3D一致性、远程一致性、对象持久性以及环境交互等 Prompt:一个24岁女人眨眼的极端特写,在神奇的时刻站在马拉喀什,以70毫米拍摄的电影胶片,景深,鲜艳的色彩,电影 支持图片和视频输入 Prompt:拼成“SORA”的逼真云的图像。Prompt:一只戴着贝雷帽穿着黑色高领毛衣的柴犬。 逼真如真实电影,时长可达60秒 Sora技术亮点 -Diffusion-Transformer -时空Patch:使Sora能够对可变分辨率、持续时间和纵横比的视频和图像进行训 练 -采样灵活性,并改进取景和构图 -利用GPT的语言理解,将Prompt转化成更详细的字幕用以生成视频 视频生成模型细节对比 模型 开发团队 推出时间 特点 是否开源 视频长度 每秒帧 数 分辨率 Gen-2 Runway 2023年6月影视 级构图运镜,画面清晰度精美度强,最新版本可生成4K画质视频 否 4~16秒 24 768×448(免费), 1536×896(付费), 4096×2160 Pika1.0 PIKALabs 2023年11月 语义理解能力强,画面一致性好 否 3~7秒 8~24 1280x720, 2560×1440 StableVideoDiffusion StabilityAI 2023年4月-11月 基于StableDiffusion的第一个生成式视频模型 是 2~4秒 3~30 576×1024 EmuVideo Meta 2023年11月 在生成质量和文本忠实度上表现较好 否 4秒 16 512×512 W.A.L.T 李飞飞及其学生团队 2023年12月 Transformer+diffusion,改善计算成本和数据集问题 否 3秒 8 512×896 Sora OPENAI 2024年2月 Transformer+diffusion,突破性的语义理解能力、复杂场景变化模拟能力、一致性 否 60秒 - 1920x1080, 1080x1920以及介于两者之间的所有 Sora的应用的场景 1帧的视频 生成图片 缝合时空图像单元 生成更大分辨率,不同长宽比的视频 当前时空图像单元 预测下一个 生成更长的连续视频 叠加/拼接两个时空图像单元 融合视频 风格指令 时空图像单元A 时空图像单元A' 最终视频 视频编辑 引起变革的核心技术大型语言模型LLM 人工智能先驱赫伯特·西蒙所期待的“人的智能” 传统AI/ML手术刀刀 “训练模型很难” 机器学习 认知刀片预训练 基础模型 上下文刀片特定的 世界知识 困难流程 赫伯特·西蒙的智能剪刀 考试�现问题要重新复习一年 简化流程 随学随考,快速迭代 LLM引领的新的应用模式 PART02 开发模式 新的AI应用开发运营流程 LLMOps——新的AI应用开发运营流程 1.数据管理 探索性数据分析、数据规范化、数 据质量、标记和丰富 2.实验 使用不同的数据、提示或代码运行基于LLM的解决方案以更改输出 7.反馈和数据收集 将手动或自动生成的用户反馈路 由到试 OuterLoop 验以提高解决方案性能 6.监控 跟踪和分析生产环境中的系统运行状况和模型性能 InnerLoop 3.评估 根据预定义的指标和先前实验结果的结果评估新输出的性能。 4.验证和部署 在部署到生产环境之前,将模型和解决方案组件部署到QA环境以评估性能 5.推理 根据部署的模型和用户输入进行预测,并将结果返回给用户。 传统MLOps LLMOps 从MLOps到LLMOps的范式转变 目标受众 机器学习工程师数据科学家 机器学习工程师应用开发人员 要共享的资产 模型、数据、环境、功能 LLM,agents,plugins, prompts,chains,APIs 指标/评估 准确性 质量:准确性、相似性危害:偏倚、毒性正确:接地性成本:每个请求的令牌延迟:响应时间、RPS ML模型 从头开始构建 预构建、微调的API(MaaS) LLMOps简介==如何将LLM应用投入生产 将人员、流程和平台结合在一起,实现LLM软件交付的自动化,并为我们的用户提供持续的价值。 人流程平台 现实世界中的LLM生命周期——构思和探索 探索全面的基础模型 大规模微调和操作基础模型 Microsoft-beit-base(Vision)Falcon StableDiffusion Dolly GPT-2 Andmore! AzureOpenAIService GPT-4 GPT-4-32k Text-embedding-ada-002 GPT-3.5-Turbo Llama-2-70b/70b-chat Llama-2-13b/13b-chatLlama-2-7b/ 7b-chat NV-GPT-8B-4k/16k NV-GPT-8B-Chat-SFT/ RLHF/SteerLM NV-GPT-8B-QA AzureAIStudioAzureMachineLearning 现实世界中的LLM生命周期——构建和增强 接地LLM响应:将您的数据带到提示符处 检索增强生成(RAG) 现实世界中的LLM生命周期——运营 在线监控和可观测性 Query 同一任务可以 有多种输入变体 Grounding 数据源问题 RAG检索错误 Prompting 错误的提示 模板错误 LLM 幻觉 数据隐私泄露 知识产权风险 Answer 错误答案 相同的任务,但答案不一致 LLM系统本身的非确定性 通过持续跟踪和 监控实现信任 诊断分析,持续 改进 及时发出警报,确保符合法规要求 LLMOps的可观测性和监控 LLMAPI性能和用法 LLM应用程序监控 令牌使用 RAG质量 生成质量 内容安全 痕迹和诊断 PART03 最佳实践 主要AI应用开发最佳实践 应用大模型主要的三种技术方式 提示 Prompting 嵌入 Embedding 微调/训练/定制 Fine-Tuning •针对LLM模型的 CompletionAPI •通过好的提问引导答案 •针对Embedding模型的 EmbeddingAPI •知识向量是文本的索引 •针对可以微调的模型的 Fine-TuningAPI •将知识、格式、习惯、风 •通过举例促成上下文学习•相当于知识的笔记本和字典, •模型:gpt-35-turbo,GPT-开卷考试前准备参考书 格训练进入模型,相当于 闭卷考试前背题库 4•模型:text-embedding-ada-002 •提示是LLM时代的代码 •模型:text-davinci-003 提示——用匹配场景的示例触发少样本(Few-Shot)学习 Prompt: Extractthenameandmailingaddressfromthisemail: DearKelly, Itwasgreattotalktoyouattheseminar.IthoughtJane'stalkwasquitegood.Thankyouforthebook.Here'smyaddress2111AshLane,CrestviewCA92002 Best,Maya Completion: Name:Maya MailingAddress:2111AshLane,CrestviewCA92002 提示——用清晰的提示触发零样本(Zero-Shot)学习 Prompt: Extractjobtitlesfromthefollowingsentences. Sentence:JohnDoehasbeenworki