您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:传媒专属精调模型建设 - 发现报告
当前位置:首页/其他报告/报告详情/

传媒专属精调模型建设

2024-03-25腾讯J***
传媒专属精调模型建设

传媒专属精调模型建设 胡哲腾讯优图实验室高级AI专家 ⼤模型在落地应⽤时,容易出现幻觉,指令遵循效果差,⽽且很可能⾏业知识不⾜。 PromptEngineering:通过例如few-shotprompt的⼿段增强输出; RAG(Retrieval-AugmentedGeneration)检索增强⽣成; FT(Fine-tuning):精调,对模型进⾏微调 综合⼿段:综合利⽤精调、提⽰⼯程 和RAG RAG FT 数据 动态数据。RAG不断查询外部源,确保信息保持最新,⽽⽆需频繁的模型重新训练。 (相对)静态数据,并且在动态数据场景中可能很快就会过时。FT也不能保证记住这些知识。 外部知识 RAG擅长利⽤外部资源。通过在⽣成响应之前从知识源检索相关信息来增强LLM能⼒。它⾮常适合⽂档或其他结构化/⾮结构化数据库。 FT可以对LLM进⾏微调以对齐预训练学到的外部知识,但对于频繁更改的数据源来说可能不太实⽤。 模型定制 RAG主要关注信息检索,擅长整合外部知识,但可能⽆法完全定制模型的⾏为或写作风格。 FT允许根据特定的语⽓或术语调整LLM的⾏为、写作风格等指令遵循效果问题; 抑制幻觉 RAG本质上不太容易产⽣幻觉,因为每个回答都建⽴在检索到的证据上。 FT可以通过将模型基于特定领域的训练数据来帮助减少幻觉。但当⾯对不熟悉的输⼊时,它仍然可能产⽣幻觉。 透明度 RAG系统通过将响应⽣成分解为不同的阶段来提供透明度,提供对数据检索的匹配度以提⾼对输出的信任。 FT就像⼀个⿊匣⼦,使得响应背后的推理更加不透明。 技术资源要求 RAG需要⾼效的检索策略和⼤型数据库相关技术。另外还需要保持外部数据源集成以及数据更新。 FT需要准备和整理⾼质量的训练数据集、定义微调⽬标以及相应的计算资源。 RAGVSFT 编辑指令 多轮输⼊ 视频脚本 ⼩红书种草 会议纪要 朋友圈⽂案 电商⽂案 信息摘要 应⽤场景创作 ⽂章⽣成简历⽣成 营销 通⽤⼴告⽂案 效率 Prompt构造 诗词古⽂ 社群营销 智能翻译 旅游攻略 智能客服 采访新闻 ⾃由⽀持 返回参数 ⽀持⾃由修改 API接⼊ ⽣成⽂本信息 调⽤简单 快速集成 精调⾯临的挑战 专业⼈才稀缺 开发和落地对技术⼈才储备及技术能⼒要求⾼,相关资源的缺失影响⼤模型在产业的快速落地和持续优化 数据质量差 需要⼤量⾼质量数据进⾏训练和优化,经常会因为数据各类问题,导致⼤模型训练的效果和效率⽆法得到保障 计算资源少 对计算资源和存储资源有 ⾼需求,对很多客户来说门槛⾼,难以⽀持⼤模型的训练和推理 平台&⼯具 TI平台 太极Angel加速组件 TI-Matrix应⽤平台 TI-ONE训练平台 TI-DataTruth数据标注平台 技术底座 ⾏业⼤模型 基础设施 向量数据库 ⾼性能⽹络:⾃研星脉计算⽹络架构 ⾼性能计算集群HCC ………… 教育⼤模型 传媒⼤模型 ⽂旅⼤模型 政务⼤模型 ⾦融⼤模型 交付模式(公有云训练、私有化推理) 腾讯提供⾏业⼤模型,模型训练⼯具(TI-ONE)和模型训练专家咨询服务; 客户准备脱敏后的训练数据,在腾讯的模型训练⼯具上进⾏fine-tuning,⽣成客户专属⼤模型; 新模型部署在客户本地做推理使⽤;编辑⽼师基于输出结果做调整修改,不断积累反馈数据; 使⽤⼀段时间,积累⼀定量反馈后,可在公有云上进⾏迭代训练; 脱敏后的训练数据 公有云 基底⼤模型 (腾讯/开源) 腾讯提供⾏业预训练⼤模型,降低训练成本 模型训练⼯具 (腾讯) 腾讯提供模型训练⼯具,快速上⼿训练 客户专属⼤模型 专属摘要⼤模型 提供⼤模型API,客户基于API开发上层应⽤。 客户提供脱敏数据,进⾏模型精调 公有云 算⼒/存储资源 客户直接在TI-ONE公有云上购买好对应的机器资源 通过训练⽣成具有客户专属模型 传媒⾏业⼤模型精调 1-定义场景 【输⼊】给到⼤模型的输⼊内容:新闻采访稿; 【输出】期望⼤模型的输出结果 (⼈⼯数据为⽰例):编辑⽼师改写之后的送审稿; 业务指标 参考标准 流畅性 流畅性指⽣成⽂本的语法和语⾔表达是否⾃然、通顺。越流畅,得分越⾼。 主题相关性 内容与标题相关程度 上下⽂⼀致性 ⼀致性指⽣成⽂本是否具有逻辑连贯性和上下⽂⼀致性。评价者可以根据⽣成⽂本的逻辑结构、句⼦之间的连贯性和上下⽂关联性来评估。 事实⼀致性 是否出现与事实不⼀致的描述 结构完整性 指整个⽂章是否有清晰明朗的结构。如有完整的⼤纲。 有害性 包含偏见、歧视等。 信息重叠 导语和正⽂信息重叠 风格化表达 不能太书⾯,需要有⼀些⼝语表达。举例说明:导语的最后⼀句“接下来,让我们⼀起看看这⼀事件的详细经过。”然后播报正⽂。 其他 ⽣成内容字数控制、分段要求、重新⽣成逻辑 2-设定标准:技术指标 上下⽂最长token数; 输出token速度; 并发; 3-数据准备:提供符合标准的训练数据 数据的组织形式; 数量; 质量; 【数据内容要求】 1.⽆监督数据(原始数据): a.数据格式:⽹页数据、word、TXT、语⾳类 b.数据量要求:越多越好,包括原始新闻采访数据,数万条c.数据质量:拿到的30-50条样本数据,casebycase评估d.数据保密性要求:腾讯侧会提供数据脱敏⼯具 2.有监督数据(标注数据): a.数据格式:TXT、word b.获取⽅式:从⽆监督数据中挑选⼀定⽐例来标注c.数据量要求:1000条(内容摘要) d.数据质量:拿到客户的30-50条样本数据,casebycase评估 模型参数 标注后数据集 对应条数 卡数/型号 ⽀持⽹络 训练时长/次 百亿/全参数SFT ⽅式 1GB 对话类:400-500万条,单条10~80字⽂档类:40-50万个,单个⽂档100-1000字(准备字数总量相当的⽂档) 16卡A100 RDMA100G 2~3周/次 百亿/Lora⽅式 1GB 对话类:400-500万条,单条10~80字⽂档类:40-50万个,单个⽂档100-1000字(准备字数总量相当的⽂档) 8卡A100 RDMA100G ⼏天-1周/次 千亿/全参数SFT ⽅式 10GB 对话类:4000-5000万条,单条10~80字⽂档类:400-500万个,单个⽂档100-1000字(准备字数总量相当的⽂档) 512卡A100 RDMA800G 2~3周/次 4-训练资源 基底模型: 算⼒、存储、⽹络 5-模型训练 阶段预训练 监督微调奖励建模强化学习 数据集算法 原⽣互联⽹ 万亿字⽂本、低质量、⼤量 语⾔建模预测下⼀个 演示 理想辅助反馈~10-100K (prompt、response)承包商所写;低数量,⾼质量 token token 性偏好 励的tokens 模型 基础模型(base 精调模型 奖励模型 强化学习模型 语⾔建模预测下⼀个 ⽐较 100K-1M数量级次数的⽐较;由承包商所写。地数量,⾼质量 ⼆元分类 预测奖励⼀致 提示 10K-100K数量的prompts;由承包商所写。地数量,⾼质量 强化学习 ⽣成最⼤化奖 model) (SFTmodel) (RMmodel) (RLmodel) ≥1000GPUs训练时⻓:数⽉ 1-100GPUS训练时⻓:数天 1-100GPUS训练时⻓:数天 1-100GPUS训练时⻓:数天 GPT、LLAMA、PaLM Vicuna-13B Chatgpt、Claude 说明 SupervisedFine-tuning(SFT)是一种在自然语言处理(NLP)中使用的技术,用于将预训练的语言模型适应于特定任务或领域。Fine-tuning的基本思想是采用已经在大量文本上进行训练的预训练语言模型,然后在小规模的任务特定文本上继续训练它。 优点:预训练模型的权重被更新,以更好地适应任务 缺点:预训练模型的全部权重都会被更新,所需资源和时间都会更多。 通过⼈⼯标注的数据以及排序数据,通过强化学习技术,引导模型输出更有价值的结果 第⼀步 收集示范数据并训练监督策略 第⼆步 收集⽐较数据并训练奖励模型 第三步 使⽤PPO针对奖励模型优化策略 从问题数据集中抽取问题 ⼈⼯标注期望的答案 使⽤有监督的数据微调GPT-3 采样问题,模型输�问题的多个回答 ⼈⼯对多个答案进⾏排序 使⽤排序⽐较数据训练奖励模型 采样⼀个新的问题 基于有监督策略初始化PPO模型 输�策略⽣成答案 奖励模型计算输�奖励 更新策略 【技术亮点】 针对长⽂本理解和⽣成优化; 多年媒体⾏业新闻数据的积累; 依托腾讯云⼤模型底座,不断迭代升级; 训练平台框架加速能⼒,训练和推理性能提升30%+ 【竞争优势】 全链路的训练⼯具平台; 训练最佳实践⽅法论 成本低:低成本训练+推理服务 合作模式灵活:训练和推理均⽀持公有云和私有化 算法⼈员陪跑; 提供丰富有效的prompt模板、⽅便直观; 提供丰富的基底模型选择; 精调的价值 服务专业性 训练成本 安全合规性数据准确性 THANKS! 感谢聆听 胡哲腾讯优图实验室高级AI专家