您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2023第十二届全球TOP100软件案例研究峰会]:阅文-马宇峰-AIGC在阅文集团的实践落地 - 发现报告
当前位置:首页/行业研究/报告详情/

阅文-马宇峰-AIGC在阅文集团的实践落地

AI智能总结
查看更多
阅文-马宇峰-AIGC在阅文集团的实践落地

AIGC在阅文集团的实践落地 马宇峰阅文集团AIGC技术负责人 www.top100summit.com 目录 •阅文简介 •网文垂类AIGC应用探索 •智能创作 •角色扮演 •复盘与展望 www.top100summit.com 亮点介绍 1.智能创作: •垂类模型构建节奏与必要性 •网文感内容的产出步骤 2.角色扮演: •数据:用数据来描述需求 •基座:在反馈飞轮中寻找核心壁垒 业务背景 1.“AI对于创作,就像辅助驾驶,但不是自动驾驶。我们要给作 家提供更多辅助工具,帮助作家迸发出更多好创作。” 2.“让很多以前被埋没的好故事成为IP,获得改编机会。未来很有可能成为全民创作的时代,用户可以创作自己的作品,形成自己的漫画等。” 3.“AIGC也能更好地服务于我们的读者和用户。AI创作拥有非常多的互动可能性,我们内部在尝试把我们作品里的每一个主角复活。我们可以走进每个故事,可以和故事的每个主人公去交流。” www.top100summit.com www.top100summit.com 问题与挑战 •领域问题定义难 •智能创作-如何描述网文感? •角色扮演-如何描述角色“灵魂”? •领域数据储备难 •定义难-从原始数据到专业标注数据,耗费高; •评测难-要专门定义任务评测标准,偏主观的需要专家支持; •领域结果获取难 •规模化-单case很漂亮,但无法扩展到泛化场景; •业务价值-规模化成功,但业务回报低,cover不了成本; 破题思路 •领域问题定义难•切准答案 •智能创作-如何描述网文感? •角色扮演-如何描述角色“灵魂”? •客观上:用数据来定义问题;先找答案,再反向构造指令; •主观上:解决实际业务场景,不掉入伪需求; •定义难-从原始数据到专业标注数据,耗费高; •评测难-要专门定义任务评测标准,偏主观的需要专家支持; •标注耗费高:基于大模型辅助标注效率; •主观评测难:盲测完成后,线上直接看结果; •领域数据储备难•技术提效 •领域结果获取难 •规模化-单case很漂亮,但无法扩展到泛化场景; •业务价值-规模化成功,但业务回报低,cover不了成本; •想通业务闭环 •规模化难:保留方法路径,筹措对称资源(如知识库、精标数据等); •业务价值:优化推理成本,关注核心指标; www.top100summit.com 智能创作核心实践 各开源英文版 全参数 开源探索阶段 微调方法跑通 Lora+P-tuning 首个场景验证完成10B级继续预训练训练效率提升70% 智创场景调优 网文感生成 分布式训练加速 (1000->1700token/s/gpu) 模型能力的涌现RAG推理 混合指令 SFT 知识库+大 模型推理 网文知识问答 文本生成模型专项突破 灵感生成 模型 知识问答 片段生成 模型 章节生成模型 2023.03中2023.03底2023.042023.052023.06初2023.06中2023.06底 专项突破2023.07月 推理加速优化 显存优化 动态Batch 多卡并行 解码优化 训练速度优化 PAI (Megatron) Tione (Deepspeed) Zero3 DisableChe ckpointing 妙笔大模型发布 www.top100summit.com 13B:H800:1950->4700token/s/gpu 提升241% 大幅降低每千token成本 13B29token/s->49token/s 提升69% 200B继续预训练,网文感强化 Longtext;2K->16K->32K 指令遵循能力提升 正式官宣 智能创作核心实践 增量预训练的价值 无网文感,无写作风格 具备网文感,格式和真实的网文相似 www.top100summit.com 指令:请用网文领域中东方玄幻题材的风格描写一段两位高手之前的对决,两位高手的名字是大明和小华。 大明和小华站在彼此面前,脚下的地面已然被踩成了碎石泥泞,周围的空气中弥漫着刺鼻的铁锈味道。他们彼此凝视着对方的眼睛,手上的长剑缓缓举起,仿佛整个世界都静止了下来。 疲惫的呼吸声随处可闻,汗水从额头滑落,滴落在地面上。大明紧握着手中的长剑,肌肉因为过度使用而不断抽搐。他的眼眸中闪烁着坚定的光芒,似乎毫不畏惧面前的挑战。而小华则显得沉默寡言,只是冷静地等待着大明的攻击。 突然间,大明发出一声狂吼,挥动手中的长剑向小华猛烈地冲锋而去。小华身体轻松地躲开了大明的攻击,反手拔剑反击。两人快速交错着招式,剑光如雨,划破夜空。片刻之后,大明感觉到自己的力量渐渐消耗殆尽,但仍然坚持不懈,继续与小华殊死搏斗。 最终,大明还是被小华以绝杀之势击败了。他倒在了地上,口中呼出最后一口气。小华蹲下身子,仔细观察着大明的脸庞,似乎在寻找着什么。最终,他摇了摇头,站起身离去。 大明和小华的对决结束了,留给世人的只有无尽的思考和猜测。谁才是真正的胜者?谁又能够永远保持胜利?这些问题或许只有当事人才能回答。 “砰!” 地面炸裂,草木破碎,涟漪扩散开来。 大明化为一头恐怖巨兽,身体遍布黑色鳞片,宛若乌金铸造而成,也正是因此,她的招式同样如岩石般坚硬、扎实、沉稳。 此刻,她的右爪以摧枯拉朽之势,一掌拍向小华的头颅。 神殿内空气爆鸣嗡嗡作响。 小华如鬼魅般,不知何时已经出现在她的后背处,轻轻在其脖颈上一点。大明头也不回,反手再度一爪打向小华。 他双目冷漠,全力发挥自己的优势,速度快到惊人,每次攻击都能在看似要被躲过的瞬间突然改变方向。 这便是敏捷型的武者最擅长的领域。 而小华仿佛早有预料,游龙般紧随其后,始终追踪她的步伐。 指尖和利爪接触数次,却根本无法将其形成伤害,只能发出清脆的撞击声,甚至连普通的刀剑劈砍也未曾奏效。 神殿内,“叮当”声不断,伴随着兵器相交的脆响,节奏紧凑,宛若为大明特制了一曲战曲。 原始模型 妙笔模型 智能创作核心实践 算力+训练方法 决定模型下限 高质量数据决定模型上限 www.top100summit.com www.top100summit.com 智能创作核心实践 www.top100summit.com 智能创作核心实践 世界观设定:妙笔将帮助作家丰满世界设定,提供灵感,补充细节,生成画面;世界的精神内核、演化走向,仍需由作家自己把控 门派势力世界地图 www.top100summit.com 智能创作核心实践 世界观设定:妙笔将帮助作家丰满世界设定,提供灵感,补充细节,生成画面;世界的精神内核、演化走向,仍需由作家自己把控 修炼境界宝物道具 智能创作核心实践 角色设定:妙笔让每个角色的性格更立体、细节更丰满,并提供成长的可能性 丰满人设 扩展人物性格、经历等细节,提供人设灵感,让角色更丰满 角色形象 甚至可以生成角色形象图,让角色形象更鲜活 www.top100summit.com www.top100summit.com 智能创作核心实践 妙笔帮助提升表达和氛围营造,让作家能更加专注在好故事的创意和剧情节奏 打斗描写 教练 顾问 对创作内容诊断 辅导,帮助作家成长 提供专业领域知 识,解决找资料找专家的痛点 www.top100summit.com 智能创作核心实践 助手 提供灵感,丰富世界观,丰富创作细节 画师 文生图,阅读体验提升,IP孵化加速 妙笔:为每位网文作家配备“专业团队”,辅助作家创作好故事 智能创作核心实践 推理成本的持续优化 原生HF推理框架 •社区版本 •无加速 动态Batching策略 •优化Batch组装策略 •提取返回 •10-20% Prompt解码优化 •提升相同Prompt下返回N条候选的效率 •合并冗余计算 •40%-50% www.top100summit.com 显存优化多卡并行优化 Int8量化 •FlashAttention •TP策略 •20-30% •效果解决无损 •显存大幅减少 •20% 推理技术优化推理场景适配 智能创作复盘总结 阶段一: 基础预训练, 初步融入网文垂类语料 阶段二: 深化微调, 定制网文细分场景 阶段三: 模型评估, 网文感对齐反馈 阶段四: 领域落地,反馈闭环 上线生产环境 www.top100summit.com 17 描写灵感生成 奖励模型训练框架 基座模型选择 场景数据选择 模型预训练 微调方法选择 深化微调 微调后模型 模型评估 奖励模型 优化后模型 模型发布 应用部署 基座评估 数据清洗 数据配比 指令多样性 分布式训练 DeepSpeed Megetron-LM Q-Lora Flash-Attention网文知识问答 P-tuning RoPE外推 全参数调整NTK内插+logn LossSpike监控 模型对战平台评估标准 作家助手灵感风控检查偏好对齐 潇湘筑梦岛评估日志收集强化学习 检索模型 生成模型 对话模型 行业知识库 高性能推理 量化加速 负载均衡 反馈收集 角色对话核心实践 www.top100summit.com www.top100summit.com 角色对话核心实践 www.top100summit.com 角色对话核心实践 跟进前沿技术 PromptEngineering (实验室性质)复现ChatGPT训练路径 (线上验证) www.top100summit.com 角色对话核心实践 角色对话核心实践 1、幻觉问题 2、新鲜度问题 3、数据安全 www.top100summit.com 实践 角色对话核心 RAG RetrievalAugmentedGeneration 1、幻觉问题 2、新鲜度问题 3、数据安全 www.top100summit.com www.top100summit.com 角色对话核心实践 RAG RetrievalAugmentedGeneration www.top100summit.com 角色对话核心实践 RAG RetrievalAugmentedGeneration mit.com www.top100sum 角色对话核心实践 RAG RetrievalAugmentedGeneration 评测框架ragas www.top100summit.com 角色对话核心实践 数据配比 角色对话核心实践 评测标准 www.top100summit.com 案例启示 www.top100summit.com 微信官方公众号:壹佰案例 关注查看更多年度实践案例