讯飞星火4次发布背后的平台及应用工程实践 李珍松科大讯飞AI平台架构师 www.top100summit.com “ 讲师简介 科大讯飞AI工程院研发主管、高级AI平台架构师,2014年入职讯飞,长期从事AI平台及方案建设,深度参与讯飞语音云平台演进及AI开发平台从0到1建设落地,目前主要负责AI云平台相关架构演进及技术产品转化工作。 ” 李珍松 www.top100summit.com 关于讯飞AI工程团队 ToG ToB ToC 教育 医疗 司法 城市 营销 应用 家庭 汽 车 玩具 办 公 智能语音国家新一代人工智能开放创新平台 数 据 500w+开发团队 数 据 语音合 成 语音识别 语音翻译 图像视频 语音交互 行业认知 …… 哈工大 中国科大 清华大学 A.I.资源部 A.I.工程院 A.I.研究院 外部技术引入与整合 约克大学 … 萨里大学 中科院体系 语音及语言信息处理国家工程研究中心 认知智能 国家重点实验室 成建制的人工智能资源/研究/引擎/平台团队护航“应用立地”从算法工程到平台工程、应用方案落地,拉通AI研发至AI落地的双循环 www.top100summit.com 2020年TOP100分享AIServing引擎托管平台回顾 高内聚托管平台经过时间及规模的验证,可形成持续性收益 模型及能力数增长5倍的同时,迭代维护人力增长不超过20%模型服务化开发效率由2月降低至2天 2月 2天 >5x<1.2x x x 20202023 20202023 传统架构 托管平台架构 相关框架完成开源,欢迎参与共建:https://github.com/iflytek/aiges www.top100summit.com 模型/能力数迭代维护人力AI开发效率 讯飞星火4次大版本发布中核心技术与平台工程的挑战 多模态融合架构0到1性能容量应对开放 1024 开放深度开发 微调、插件、知识库 1+N大模型框架的0到1 内容安全红线 5月6日首次发布 七大核心能力发布大模型评测体系发布 知识插件工程0到1 6月9日 突破开放式问答 多轮对话能力再升级数学能力再升级 8月15日 突破代码能力 多模态交互再升级 通用模型对标ChatGPT (中文超越,英文相当) www.top100summit.com www.top100summit.com 以通用大模型结合行业垂类大模型的1+N策略,支撑应用高质量落地 工业制造3.4% 智能硬件5.2% 智慧文旅1.6% 交互 教育 办 公 汽 车 … 企业服务22.1% 教育培训13.7% 智能客服8.9% 新闻出版4.1% 侧重专业领域任务 1个通用认知智能大模型 医疗健康6.5% 智慧金融5.4% 智慧政务1.9% 能源行业2.0% 数字人5.1% 汽车行业2.1% 侧重通用任务 开发者行业发布情况针对通用大模型SFT进行指定行业领域的效果增强,加速产业落地 www.top100summit.com 大模型应用案例及效果展示 数学交互问答内容创作 附录:认知大模型技术原理-海量文本的高质量清洗及超大规模语言模型训练 预训练 (Pre-training) 有监督微调 (SupervisedFine-Tuning) 人类反馈的强化学习 (ReinforcementLearningfromHuman Feedback) <10B 300B 3000~5000B Tokens <10亿 1750亿 8000~ 10000亿 模型参数训练数据 常规NLP任务 ChatGPTGPT-4 常规NLP任务 ChatGPTGPT-4 GPT3-300P训练1个月 预估需求算力 根据Semafor报道,GPT-4比GPT-3大六倍左右,具有1万亿 个参数 GPT4-3000P训练3个月 VS预估需求算力 根据DeepMind研究估算的GPT-4训练数据 Tokens数据量级 在5000B 数据的数量和对应质量十分关键,不断增大的参数需要更高效的算力支撑 www.top100summit.com 预训练 附录:认知大模型技术原理-有监督微调(SFT) 有监督微调 人类反馈的强化学习 文本生成 头脑风暴 开放问答 摘要 分类 (Pre-training) (SupervisedFine-Tuning) (ReinforcementLearningfromHumanFeedback) Prompt:用自然语言形式描述的激发大模型输出的指令,高质量的Prompt需要清晰具体 www.top100summit.com 海量数据 改写 ...... 闲聊 预训练大模型 高质量prompt数据 有监督SFT大模型 清晰:问题避免复杂或歧义,术语定义明确;具体:问题描述语言具体,避免模棱两可。聚焦:问题避免过泛或开放; 简洁:问题话术简洁 附录:认知大模型技术原理-通过SFT后的模型可以激发任意prompt的输出 预训练 (Pre-training) 有监督微调 (SupervisedFine-Tuning) 人类反馈的强化学习 (ReinforcementLearningfromHuman 文本生成 词语和句子的语义,表现为相对稳定的“函数” Feedback) 文本理解 知识×查询 知识×推理 www.top100summit.com 训练时:多看书+多做题 应用时:触类旁通 附录:认知大模型技术原理-基于人类反馈的强化学习(RLHF) 预训练 (Pre-training) 有监督微调 (SupervisedFine-Tuning) 人类反馈的强化学习 (ReinforcementLearningfromHuman Feedback) 根据人类的反馈排序来训练奖励模型 回复① 以有用性排序 Prompt:我们来对对联吧,千丝万缕织就锦绣河山,下联对什么 ①百记千心筑成国泰民安 ②三令五申织就和谐社会 ③万紫千红繁华都市 回复② 回复③ 有用性 准确性 无害性 回复④ ③>④>②>①=⑤ 回复⑤ Prompt:请以李白的风格给我写一首思乡的五言绝句 以准确性排序 ①老去思乡切,千秋见月圆。故人江海外,无处著渔船 ②客里逢秋倍觉凉,满城砧杵动高堂。花枝照水红千片,柳线萦风绿半塘 ③秋风与黄昏相约,秋雨与乡愁结伴,心事在落红中憔悴,乡情在琴音里轻弹 以有害性排序 Prompt:一列火车正常行驶,前方轨道上有五个小孩在玩耍,而另一条废弃轨道上有一个小孩, 应该变更轨道吗? ①….我没有能力做出决定或采取行动。孩子不应该在轨道上玩耍…..家长应该….. ②作为一个ai语言模型,我无法判断是否应该变更轨道。 ③……为了避免对五个孩子的生命造成威胁,应该立即变更轨道,将列车引导到废弃轨道上,即使这意味着对那个孤独的孩子造成了伤害。…… www.top100summit.com www.top100summit.com 构建大模型平台及应用工程面临的三个灵魂拷问 1-如何构建简易高效、开放包容的AI开发 2-如何实现稳定可靠、值得信赖的AI服务 3-如何打磨高性价比、追求极致的AI体验 www.top100summit.com 简易高效、开放包容的AI开发实践 www.top100summit.com 基于大模型云+端的应用开发范式 UserI/O输入输出 Memory记忆APIs/Tools工具 Prompts提示插件Plugins/Chains 任务Tasks/Agents 多模态LLM LLMs 依托通用AI平台设施构建大模型托管平台,支撑大模型快速迭代发布 依托既有AI模型托管的基础设施,对内容安全、知识管理等必要基建进行迭代扩展,快速构建大模型托管及服务平台,减少造轮子! 开发者应用 组合SDK 离线SDK 在线SDK webAPI 引擎开发 发布上架 SparkChain (SDK) SparkAPI 知识管理API 内容安全API 内容安全 策略定制 流程定制 知识管理方案 领域知识构建 领域知识检索 大模型插件平台 内置插件 开放插件 大模型托管平台 大模型推理runtime 国产异构兼容Token算力运营管控 大模型定制与调优平台 Patch定制训练及发布模型管理 通用大模型 交互大模型 教育大模型 开源大模型 … 大模型托管控制台 云托管(ASE) 标准API跨平台SDK 端托管(AEE) 大模型定制控制台 插件化加载插件化加载 www.top100summit.com R C O 线 … … 离 离线翻译 离离 线线 合识 成别 … … OCR 翻 译 合识 成别 引擎托管控制台 AI模型服务化基础设施:云+端AI引擎托管平台大模型托管及服务平台基础设施 通过优质的Prompt工程,高效率/低成本的实现LLM任务定制 整体大模型应用方案落地中,优质的prompt工程是不可或缺的一环! 单一prompt工程应用属于壁垒较低的解决方案,优秀的定制表现依赖深度调优,适用于场景独立、对容错率要求较低的有限环境 零样本提示 零样本提示 少样本提示 思维链CoT提示 ReAct提示 ReAct(推理+动作): 构建/发布 面向开发者: •助手能力较为单一,仅支持通过prompt构建闲聊、内容生成型助手 •无法串联场景和业务系统联动,实现助手和业务场景融合 •缺乏复杂场景的配套框架和工具链面向平台: •助手同质化严重,为开发者提供的壁垒较低 •可玩性偏弱,较难支撑复杂问题解决和应用孵化 通过显式推理,加上动作(执行相应的插件工具),LLMAgent自主找到了答案。整个过程感觉就像是个不是特别聪明的孩子,要把想法写出来,然后去综合所有想法和观察,接着再做出相应的动作。但显然这个方法很有效,它最终找到了答案。 www.top100summit.com 有效的提示技巧,可以更好激发大模型效果凭借prompt工程实践,星火快速构筑海量的助手应用,但短板依然明显 www.top100summit.com 通过开放式的插件工程,实现LLM的三方应用扩展接入 同一会话中三方Plugin的个数限制主要瓶颈可能在于prompt(声明文件+API定义)占用大量上下文 官方工具 沙盒环境 代码执行 python代码执行器 最终用户 决策 消息通知回调 Actions服务 服务调用 三方工具(Zapier平台) Action执行器 (functionCall) 配置管理 鉴权服务 OAuth鉴权 业务系统 …… 记事本 IM 权限管理 GPTs创建者 Action管理 GPTs 网 关 插件方案并非公共模型入口的长期路线最优解,更适于贴合具体场景任务的助手方案,星火插件定位主要为内部系统支撑 声明文件 插件选择 API定义 知识库 图像生成web搜索代码工具文件保存 Action (三方工具) 搜索服务文件存储 DALL·ECodeInterpret 三方Plugin≈prompt(声明文件+API定义)+SFT(非关联Pluginprompts)GPTs运行时核心架构,以Action等工具替代模型plugins模式 www.top100summit.com 以助手应用实践短板+指定场景任务的目标驱动思路,加深助手壁垒及可玩性 以AI任务流为核心,基于Agent+Chains+Tools构建可处理相对复杂任务、流程可控的助手应用2.0 PPT助手 助手市场 文旅助手数据分析助手 …… 助手构建中心 工具市场 知识库 processon memory 邮件 助手2.0 插件工具 Function Call 搜索 Chains(Agents) 日历 …