您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[快意大模型中心]:2024快意大模型及短视频场景应用-快意大模型中心(张鸿志) - 发现报告
当前位置:首页/行业研究/报告详情/

2024快意大模型及短视频场景应用-快意大模型中心(张鸿志)

文化传媒2024-11-13张鸿志快意大模型中心�***
AI智能总结
查看更多
2024快意大模型及短视频场景应用-快意大模型中心(张鸿志)

快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 快意大模型及短视频场景应用 快意大模型中心张鸿志2024.08 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 1 2 3 4 5 项目背景 模型介绍 关键技术 应用场景未来展望 目录 CONTENTS 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 2022年底,OpenAI的ChatGPT惊艳了世界,预示着通往AGI(ArtificialGeneralIntelligence)的可能性,开启AI技术突破的新篇章 ChatGPT上线2个月,月活用户突破1亿,成为史上增速最快的消费级应用之一 GPT-4/4v/4o,Claude3.5Sonnet是迄今为止“最强AI模型”,拥有强大多模态理解与推理,及生成能力 2023年至今 2022年 GPT-4LLaMA Claude 2018-2019年 2020年 2021年 ChatGPT 通义千问、通义万相日日新大模型 文心一言、文心一格 GPT-1、GPT-2 GPT-3 GPT-3.5 LaMDA 盘古大模型豆包(原Grace) 零一万物 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 作为一家以AI技术驱动的公司,快手制定新的AI战略,于2023年初启动快意大模型研发专项 快手优势 短视频 直播 电商 数字营销 本地生活 场景 用户 3.94亿 DAU Top 亚洲「大数据+AI」数据中心 20Eflops 自建算力 高带宽 单卡400G接入 算力 内容 400亿 视频库 高利用率 >45%领先MFU 3000万 每日上传视频 1广泛的应用场景 2海量多模态数据 3领先的算力基建 快意大模型及短视频场景应用 快手大模型能力矩阵 快手业务及生态应用 生产 消费 电商 商业化 直播 本地生活 大模型应用平台(MaaS) 标准化API 应用定制平台 多领域模型加强 深度AI开发平台 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 基座大模型 快意大模型 AIGC大模型 推荐大模型 大模型引擎 大模型训练框架 RLHF训练框架 大模型推理加速 AI超算基础设施 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 1 2 3 4 5 项目背景 模型介绍 关键技术 应用场景未来展望 目录 CONTENTS 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. C-Eval(%) 中文全科 13.9K个单选题清华&上交 CMM)LU(% 中文 模型 全科 11. 5K个单选题 MBZUAI&上交 MM)LU(% 英文全科 14K个单选题国外大学与研究所 GSM8K(%) 英文小学数学 8.5K个多步计算题OpenAI Hum%a)nEval(英文 代码与算法 168道编程题OpenAI 23年8/9月,「快意」13B/66B发布,预训练基模型在各权威榜单中,与同等参数规模的其他模型相比,均处于领先位置 &微软亚研院 ChatGPT 54.4 55.51 70.0 57.1 48.1 GLM-130B 44 / 44.8 / / C-Eval结果榜单@2023-09-18 LLAMA-65B 38.8 39.8 63.4 50.9 23.7 LLAMA2-70B 50.1 / 68.9 56.8 29.9 InternLM-104B 62.7 / 67.2 62.9 / 快意大模型-66B 73.7 71.1 67.2 60.9 53.1 业界同等规模大模型在权威benchmark上的评测结果 CMMLU结果榜单@2023-09-18 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 24年2月,「快意」175B正式发布,经过对齐后,在内部评测集上,总体效果显著超过GPT- 3.5,在能力维度、学科维度上整体接近GPT-4/4o最新版本水平 GPT-4快意-175BGPT-4oGPT-3.5 信息正确性 GPT-4快意-175BGPT-4oGPT-3.5 人文科学 5 针对性 创造性 5 4.5 4 3.5 3 2.5 2 可读性 安全性 闲聊 社会科学 身心健康 4.5 4 3.5 3 2.5 历史 数学推理 逻辑推理 逻辑性 理解力 自然科学 代码编程 详实性 自我认知能力 民俗文化 工程技术 语言 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 2024.08,快意多模态理解大模型开发中,kwaii-vlm-8B-dev版本业务可用性佳,在video-MME大致达到行业第一梯队。 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 1 2 3 4 5 项目背景 模型介绍 关键技术 应用场景未来展望 目录 CONTENTS 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. GPT3Chatgpt GPT4 Pre-training 规模 语言模型 SFT&RLHF 易用性 •语⾔承载了⼈类可传承的知识; •语⾔是⼈类完成深度推理的重要思维⼯具; •语料规模 •参数规模 •算⼒规模 •GPT3具备产出优质回答的潜⼒; •ChatGPT/GPT4能够稳定理解问题、遵循指令; •提升模型道德感; •AGI? •知识存储 •逻辑推理 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. I 技术概览图 Infra数据算法评测 Token 训练预训练阶段 预训练阶段 预训练阶段 单任务2k卡并行训练 MFU45%+ PB级网页数据10T+高质量 Loss曲线平滑收敛,一步训练到位 测评预训练模型综合能力 自研ROCE多轨训练 混合并行计算/通信 新闻书籍学术百科垂类… TemporalScalingLaw Loss函数优化 MoE 权威Benchmark 验证集PPL 优化 推理对齐阶段 对齐阶段 对齐阶段 成本是开源方案HuggingFace的10% 高质量、多样化的指令问答数据 全方面提升模型指令跟随能力 测评对齐模型的用户体验效果 Int8/int4量化 FastTransformer KV cache 指令类目指令质量 负反馈机制词单元并行解码 GPT-4打分评测权威Benchmark Loss曲线 ContinuousBatching PagedAttention RejectionSampling CoT策略 IterativeDPOPPO 评测标准+评测集人工测评 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 关键技术点 PartA Pre-training 1.TemporalScalingLaw 2.MiLeLoss预训练损失函数优化 3.Scaffold-BPE词表学习⽅法改进 4.MoE路由错误⾃适应检测与Loss优化 PartB Post-training 1.SFT训练数据采样策略 2.SFT答案质量 3.SFT负反馈机制 4.迭代式RLHF+RLAIF 5.细粒度反馈训练——RLMEC PartC/D C1.词汇单元并⾏解码策略D1.快意多模态理解⼤模型 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 关键技术A1:TemporalScalingLaw 验证大模型训练过程在时序上的可预测性;提供在大模型上直接使用少量数据训练,并通过时序预测进行超参搜索的有效路径;也为洞察大模型训练的内在机制提供理论基础 •大模型超参繁多,对结果影响大 •数据配比、学习率、权重衰减、dropout等 •小模型超参搜索,存在不可迁移风险 •µP等工作 •粗粒度时序预测,效果不佳 •传统幂率关系预测误差大 468M参数量模型 1.2B参数量模型 训练10%,PPL相对预测误差 27.8% 30.5% 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 关键技术A1:TemporalScalingLaw •细粒度建模 •每个tokenposition的loss服从动态倒数关系 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 关键技术A1:TemporalScalingLaw •细粒度建模 •动态倒数关系的参数随训练步 数改变,且可通过函数拟合 TemporalScalingLaw: 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 关键技术A1:TemporalScalingLaw •少量训练,预测最终loss •建模第一段函数,结合收敛点约束条件,建模第二段,并预测最终loss •实验结果(I) •显著降低预测误差(27.8%->4.1%,30.5%->2.0%) 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 关键技术A1:TemporalScalingLaw •实验结果(II) •可低成本地直接在大模型上做超参搜索,有效提升模型效果(e.g.,数据配比) •理论证明无需对不同position的token进行加权,并获得实验验证 快意大模型及短视频场景应用 INTRODUCTIONOFKWAIYII-LLMANDITSAPPLICATIONINTHESCENEOFSHORTVIDEO. 关键技术A2:MiLeLoss预训练损失函数优化 解决预训练阶段Token学习存在难易bias的问题,提出基于信息熵的加权损失优化方案,在多种参数规模的预训练模型上均取得显著效果提升 𝑓𝐶�=−log(𝑝𝑡i) 传统交叉熵损失(CrossEntropyLoss) 𝑝& 𝑝𝑡i 𝑓𝐼�=−(1−∑&𝑝&log)'log 基于信息熵的加权损失(MiLeLoss) 快意大模型及短视频场