ArchSummit全球架构师峰会 AI大模型落地的前景和痛点 兼谈工程师、架构师所面临的机会和挑战 深圳2023|07|21 李维NLP科学家出门问问VP “自我介绍一下 李维 NLP老司机、劳碌命,前讯飞AI研究院副院长,出门问问VP。Netbase前首席科学家10年,指挥研发18种语言的社会媒体舆情系统,成为美国NLP产业应用的经典成功案例。Cymfony前研发副总,获第一届问答系统第一名,赢得17个SBIR小企业创新研究项目 Outline 01大模型风暴 02大模型之炼 03大模型与AIGC 人类语言通天塔的建成 巴别塔建成日:公元2022年11月30日 为什么说建成了人类语言的通天塔? 比native还native 理解能力 输入 能听 LLM “劳碌命” 输出 会说 生成能力 极其简单的原理 自学习、预训练、生成式AI (自回归GPT系列) “大号”的N-gram模型 ThebestthingaboutAIisitsabilityto ThebestthingaboutAIisitsabilitytounderstand ThebestthingaboutAIisitsabilitytounderstandworlds ThebestthingaboutAIisitsabilitytounderstandworldsthatThebestthingaboutAIisitsabilitytounderstandworldsthatareThebestthingaboutAIisitsabilitytounderstandworldsthatareboth ThebestthingaboutAIisitsabilitytounderstandworldsthatarebothexciting ………… 给定上文,预测下一词:nexttokenprediction 大力出奇迹——千(万)亿级字词/千亿级参数 Rawcorpora 文字序列 多维向量 LLM 自学习生成式AI (自回归GPT系列) LLM任务开放 WaymoreOpen-ended 借用陆奇:WeAreHere CF:Web-1age 人工智能当代简史 11年前的第一次AI深度神经革命,聚焦感知,靠的是带标大数据有监督训练。 5年多前的二次AI深度革命,NLP大模型(LLM)为旗帜,AI从感知到认知 ,靠的是自监督预训练。 半年前通天塔的三次AI革命,搞定了自然语言交互,以ChatGPT为里程碑。 ChatGPT:几乎完美的人机自然语言接口 Few ShotsZeroshot Zeroshot/零样本:不依赖标注大数据,克服知识瓶颈机器迁就人,而不是人迁就机器 海量样本标注少样本标注零样本标注 ChatGPT能力测试 人类知识 部分人类知识 LLM 语言知识 Zeroshot开放类任务理论上没有测试集,无法定量数据质量(QA ) 客户调查 用户粘性、增长性 利用已有测试: NLP测试集,高考,各资格考试 机器迁就人的结果:人皆码师 码农贵族、产品经理/CXO、数据分析员、用户群体: 底线拉平,LLM听得懂所有人的指示为“万众创业”创造了条件 NLP“核爆炸”及其影响 新突破导向新生态 ChatGPT建成语言通天塔GPT洗礼后的新生态建设 •语言大模型搞定人类语言 •机器迁就人,而不是人迁就机器 •实体交互方式的革命:不仅仅是人机 •语言模型蕴含了知识模型,虽然并不完备 •标志感知智能走向认知智能:语言+知识 •LLMCoPilot落地,AIGC前景广阔 •用户接口:交互克服人工智障 •LLMAgent研究值得关注 大模型时代的挑战 模型痛点、领域挑战 模型痛点领域落地的挑战 •幻觉问题 •稳定性问题 •知识欠缺问题 •多模态问题 •谁调用谁:插件与外挂 •领域数据库、业务逻辑、私有数据 •自主AI研究:Agent •与现有领域Legacy系统的关系 大模型时代的焦虑 架构师/工程师焦虑:youarenotalone! NLP老司机的焦虑 •一夜醒来,专业没了 •有说:半年前的专业经验是负资产 •AI系统的涌现,资源的爆发 •百花齐放,AI日新月异 普罗的焦虑 •工作被取代? •艺术被颠覆? •知识更新跑不赢知识增长 “幻觉”:是LLM内在feature不是bug 幻觉与想象力是同义词 预训练的feature,notabug 对于部分落地场景的挑战 •没有“幻觉”,如何讲“故事”(cf《人类简史》) •写小说,不是报道新闻:记者成不了小说家 •长尾细节=噪音,抗噪=遗忘细节 •模型不是数据库:源于数据,高于数据 •张冠李戴是顺畅生成的必然 •知道自己不知道?一切都是概率 •是遗忘,不是“说谎”:没学会人类的语气词 •“一正胡八”:说谎不“脸红”,真假莫辨,极度误导 •有利于艺术创造任务,却是领域落地的命门 •加大模型可以减少幻觉,不能根治幻觉 •强化学习可能医治“一本正经”,不能根治“胡说八道” •领域场景解决方案:外挂数据库 •人来把关和核实:可以先假设细节都是不真实的 对于部分落地场景的挑战 •容易做demo,不容易独立落地 •有利于艺术创造任务,却也是领域落地的命门 •加大模型可以缓解不稳定,不能根治不稳定 •多次生成:majorityvote •人来把关和挑选:副驾驶模式,亦可使多次生成 “不稳定”:是LLM内在feature不是bug 不稳定与创造性是同义词 预训练的feature,notabug •不稳定,才有创造性、多样性 •生成式LLM的本性:概率模型 •不稳定=随机采样,太稳定=枯燥重复 •模型不是数据库:是条件预测,不是检索 •不稳定带来惊喜或惊恐 垂直领域的知识短板 •容易做demo,不容易独立落地 •加大模型可以增加知识,不能穷尽知识 •业务逻辑 •提示工程:in-contextlearning,shortmemory •传统领域数据库、知识库、术语词典、知识图谱向量数据库很火 解决背景信息不足longmemory 知识欠缺:是序列学习LLM之本性 LLM不是数据库 序列数据预训练的边界 •知识渊博,尤其是百科知识和多数常识 •领域知识欠缺 •模型不是数据库:是条件预测,不是检索 专家坐台的打造 加强领域内功的副驾驶 CoPilot LLMin-&-out:既是服务员也是大厨 既用其语言天才,也用其知识技能 “坐台”建设负责离线的调教 仅预设专家流程化在线介入 LLM既是后台又坐前台 LLM赋能的自主式研究:主驾驶 Optional专家把关或人类反馈 生产力大爆发 副驾驶逼近主驾驶: 参照特斯拉FSD之路 2大模型预训练及其微调机制 Transformer架构 完全基于注意力机制,完全不用递归和卷积 Transformerseq2seq Decoders Encoders 特别擅长对序列数据中的长距离依赖进行建模,非常适合自然语言处理任务 我有一只猫 encoder里面的结构,主要是向量与矩阵计算 前馈神经网络 自注意力机制 SelfAttention SelfAttention attention FeedForwad FeedForwad (input) Ihaveacat (output) 编码信息,一般最常见的是重复6次左右 decoder里面的结构,用来解码生成下一个目标语言单词的概率分布 计算出每个单词与其他单词的相关性,然后使用这些相关性加权求和得到每个单词的表示向量。 参数(权重) 大语言模型,本质上是一个包含了大量参数的神经网络。这个神经网络可以看作是一个复杂的函数,它接收输入(如一段文本),然后生成输出(如下一个词)。 神经网络的每一层都可以看作是一个函数,它接收上一层的输出(或者输入数据,如果它是第一层),然后生成自己的输出。 每个层都包含许多的神经元。每个神经元都有一个权重,这就是大语言模型的参数。这些权重在训练过程中被调整,以使模型能够更好地预测输出。 大模型之预训练 AI大模型就是FoundationModel(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。 GPT-3训练数据来自于互联网上的大量文本,包括维基百科、新闻文章、网页、论坛、社交媒体等。 模型先进行预训练,即在未标记的文本上进行多次迭代的自监督学习,以学习语言的结构和规律。 25 行业、场景应用 “大规模预训练﹢微调”范式提升模型通用性 “预训练+微调”技术,可用一套技术解决不同语言、不同场景、不同NLP任务,有效地提升了开发效率。 针对不同任务进行微调 海量文本数据 超大规模算力 超大规模预训练语言模型 行业数据微调 更多微调场景... 未知领域微调 26 微调方式:任务对齐 大模型底座更通用,顶层更垂直,fine-tune是在不改动预训练模型的基础上,在模型「顶层」使模型能够更贴合实际使用场景。 来源StandfordAlpaca:AStrong,ReplicableInstruction-FollowingModel 来源:《followinstructionswithhumanfeedback》 SELF-INSTRUCT 指令微调 RLHF 基于馈的 强化学习 人类反 大模型底座 基于人类反馈强化的训练:偏好对齐 通过人工标注对模型输出结果打分建立奖励模型,然后通过奖励模型继续循环迭代,OpenAI获得了更真实、更无害,并且更好地遵循用户意图的语言模型InstructGPT。 步骤1:搜集说明数据,训练监督策略 有监督微调(SFT) 搜集说明数据(基于prompt训练方式的数据集),训练监督策略 Labeler(标注人员)揭示期望的输出行为 数据用来联合监督学习 28 ,对GPT-3进行微调 步骤2:搜集比较数据,训练一个奖励模型 奖励模型(RM)训练 对这个prompt训练的数据集和若干模型的结果进行抽样 Labeler(标注人员)从最优到最差将输出结果进行排序 这个数据用来训练反馈模型 步骤3:搜集说明数据,使用增强学习优化模型 通过PPO根据奖励模型进行强化学习。 新的prompt从数据集中抽样 借助模型生成输出 反馈模型为输出计算一个反馈结果 反馈结果用来优化策略 3 “序列猴子”大模型及其AIGC产品矩阵 介绍一下出门问问的大模型与AIGC的模式 三位一体的独特商业模式飞轮效应凸显 CoPilot将会无处不在 每个人/企业都应该有专属的“ChatGPT” 高智商的大脑动听的声音好看的外表智能硬件载体 出门问问大模型:序列猴子-SequenceMonkey 知识 对话 逻辑 语言 推理 数学 规划 只要给予无限时间,一只猴子几乎必然能够打出任何文字,比如莎士比亚的《哈姆雷特》 如果喂给机器猴子海量的文本序列,通过大规模算力去训练它,就能练就有智能的“序列猴子” 大模型的能力体系 序列猴子:面向创作者的应用 出门问问研发了多款面向创作者的AIGC产品及应用,为万千创作者构建一站式CoPilot产品矩阵,打通内容创作全流程。 超 注册会员 超 付费会员 奇妙元—您的AI数字分身 像做PPT一样制作数字人视频和直播 海量资产 200+数字形象 形象克隆 3D捏脸 IP激活 丰富语音 1000+音色 2000+声音风格 40国语言 逼真效果 立体面部 4K高清 超长序列 多元化高清数字人3种形态 本视频由出门问问AIGC应用“奇妙元”通过一张照片生成 声音由“魔音工坊”生成。 25年前的yourstruly 本视频由出门问问AIGC应用“奇妙元”通过一张照片生成 声音由“魔音工坊”生成。 如今的“我”:劳碌命 本视频由出门问问AIGC应用“奇妙元”通过形象克隆生成 声音由“魔音工坊”生成。 AIGC产品内