大语言模型在陌陌社交平台的应用探索 李思臻陌陌算法研究员 讲师简介 李思臻 负责陌陌/探探社区场景的社交推荐、用户理解、内容理解等算法技术体系的研发与优化,目前专注于大 “ 语言模型技术在社交等业务场景的落地应用。” 陌陌算法研究员 目录 •关于陌陌 •大语言模型的技术概要 •大语言模型在陌陌的应用 关于陌陌 •陌陌是一款开放式的移动社交应用 •更好的陌生人社交体验 •「动态」社交业务 消费 发布 打招呼 回复 社交 •以内容为载体的社交场景 •广场社区:分享/发现新鲜事 •互动社交:找到感兴趣的人 大语言模型的技术概要 •ChatGPT的划时代意义 •大语言模型改变了人们对AI的认知 •国内外LLM技术呈现爆发式增长 2022.5 2022.11 2023.2 2023.3 ChatGLM 2023.3 GPT4 2023 MOSS BaichuanQwenInternLM百度文心 2019.2 GPT-2 2020.6 GPT-3 2021.7 Codex 2021.12 WebGPT 2021.12 GLM 2022.3 InstructGPT OPTBLOOM ChatGPT LLaMA 讯飞星火字节云雀华为盘古腾讯混元 ⋯⋯ •对预训练LLM进行有监督指令微调 •SFT的不足 数据层面的不足之处 •充分利用预训练知识 •与人类的交互方式进行对齐 •数据多样性 •安全边界 •知识边界 •回答多样性受限 •有害/侵权等 •编造知识/幻觉 Nexttokenprediction 是陌陌?陌陌是一款社交应用EOS LLaMABLOOM ChatGLMBaichuanQwen ...... PretrainedCausalLanguageModel SFT Model 什么是陌陌?陌陌是一款社交应用EOS 训练目标的不足之处 Teacherforcing B C D ? 预训练LLM 指令数据集 指令微调模型 A B C D A B E 稳定收敛并行化训练 ExposurebiasToken-level Decoder generate Decoder traininginference •通过RLHF进一步提高生成内容的质量•RLHF的挑战 •Sequence-level •基于反馈的探索与提升 •有用性/安全性/更好的知识边界 •更低的标注成本 1.2 RL PPO 写一句晚安 文案 Policy Decoder •RL训练高成本、不稳定 Rewardmodel •Rewardhacking/Overoptimization 帮我关一下月亮谢谢。 写一句晚安 文案 ScalingLawsforRewardModelOveroptimization[LeoGaoetal.,2022] •训练更稳定且低成本的对齐方法•基于数据增强的对齐方法 SFT Model sample RRHF RejectSamplingRAFT msample finetunerank topksample RewardModel DPORLAIF •让LLM不仅能处理文字,还能处理图像输入 这张图片显示的是雪地上的兔子形状的画。画作相当简单,仅用几条线条勾勒出兔子的轮廓和面部特征,包括两只竖起的耳朵、一对圆圆的眼睛和一个微笑的嘴⋯⋯ Flamingo Multi-modalLanguageModel 描述这张图片 BLIP2 •图片生成技术也发展得如火如荼 DiffusionModels Apropagandaposterdepictingacatdressedasfrenchemperornapoleonholdingapieceofcheese. DALL·E3 Digitalillustrationofabeachscenecraftedfromyarn.Thesandybeachisdepictedwithbeigeyarn,wavesaremadeofblueandwhiteyarncrashingontotheshore.Ayarnsunsetsonthehorizon,castingawarmglow.Yarnpalmtreesswaygently,andlittleyarnseashellsdottheshoreline. LLM在陌陌的应用 •发布意图 •创作门槛 •⋯⋯ •个性化 •多样性 •⋯⋯ 推荐系统 内容理解 社交创作 发布体验 发布消费 社交 •社交质量 •集中度 •⋯⋯ 产品功能运营活动 LLM •陌陌结构化动态内容理解体系 上层应用 个性化偏好建模 列表多样性控制 用户画像与理解 数据分析与挖掘 运营与流量调控 …… 类别:美食意图:展示 主题:自制美食 分层次多维度内容理解体系 动态类别 发布意图 内容关键词 图像标签 情感分析 文本表征图像表征视频表征 动态整体表征 文字聚合 …… 图像聚合 关键词:[糖渍青瓜, 图像tag:[虾,柠檬,⋯] 椒麻鸡丝]动态表征:[0.62,⋯] corpus match rank 大语言 底层技术模型体系 大规模图像文本多分类 自监督图文对比学习 视频关键帧提取 图片描述生成 低质识别 OCR …… 转化率建模 ASR •基于LLM的生成式内容理解流程及其优势 你们两个感情是真好,这八个刚独立,又生了八个...今天还好收拾了一下窝,不然都不知道...但是你们的老母亲可就头大喽... 类别:宠物 主题:动物繁殖、宠物护理情绪:惊讶、烦恼 意图:分享、记录关键词:无 prompt生成 类别:宠物 ⋯⋯ 关键词:哈基米 通用指令模型 对以下文字进行分析,以指定格式输出 ⋯⋯传统方法 •大量标注数据 •几十~上百的语义标签,扩展成本高 •语义判断能力不足 LLM •少量甚至零标注 •百万量级的细粒度语义标签体系 •较高的泛化能力与 准确率 轻松实现新词发现与类别关联 为什么大家都有猫?好想拥有一只哈基米 •内容理解使用的动态场景指令模型及其演进过程 继续预训练 •中文token扩充 •通用中英文语料 •约百万量级的原始指令数据 •基于RM进行指令数据精选 指令微调 基础的通用指令模型 开源英文基座模型 •优质中文语料中文基座模型 指令模型v1 开源中文基座模型 影响SFT的重要因素 •数据质量 •多样性 •任务难度 •InContextLearning数据 •动态场景的垂直数据 •Evol-Instruct动态指令数据 指令模型v2 指令模型v2.1 适配动态场景的垂直指令模型 增强模型的ICL与Few-shot能力 •大模型的CoT指导数据 指令模型v2.2 增强模型的CoT能力 分析以下文字的类别、主题、情绪、意图 类别:个人言论 主题:自我认知和身体变化情绪:焦虑和困惑 意图:寻求他人的建议和帮助, 可能是希望捉妖的道士可以帮助解决问题 •内容理解prompt同步优化,提升生成效果 类别:个人生活 主题:身材变化、健康情绪:自嘲、不满 意图:求助 分析文字的以下属性: ⋯⋯ 意图:如交友、讨论、抒情等 输入文字:网红打卡之北京白瀑寺⋯⋯分析结果: 类别:旅游 ⋯⋯ 我可能是猪妖上身了,胖了十多斤,所以有认识捉妖的道士不 Baseprompt ICLwithFew-shot 输入文字:网红打卡之北京白瀑寺⋯⋯ 文字解析:这段文字是对一个旅游景点进行描述⋯分析结果: 类别:旅游 类别:生活 主题:减肥、寻求帮助、幽默情绪:自嘲、不满 意图:求助、开玩笑 CoT 曝光 破冰 聊天 好友 •用户在社交破冰中面临的问题 在吗 你好 Hi 动态场景的社交转化漏斗 破冰失败 你好 Hello 你好 用户有主动社交的需求 但大部分人的社交创作能力都比较平庸 无法引起对方的兴趣 哇哦,我也想成为你的魔法伙伴! 这么有魔力的少女,能否告诉我怎么成为你的魔法少年? 令人心动的魔法少女,快和我讲讲你的冒险故事吧! 环球影城! 成为魔法少女的第一天"很有氛围感,惊心动魄,太欢乐了~ •通过社交创作模型,生成破冰文案,改善社交体验 用户在打招呼时选择是否使用生成文案进行社交破冰 社交创作模型 ⋯⋯ 用户画像 性别、年龄等公开资料 反馈数据微调 场景反馈数据 •用户是否使用文案 •最终社交达成情况 •⋯⋯ •提高生成结果的质量与多样性 •LoRA降低RLHF成本 •DPO兼具效果与稳定性 GPU推理集群 LoRA-RLHF 社交创作模型-V2 BaseModel + EfficientLoRA LoRAvs全参数差距在5%以内 单卡即可同时支持上百个垂直任务模型 •社交创作模型的基础训练过程 覆盖多种类型动态的文案数据集 LoRA-SFT 社交创作模型-V1 •同一条动态,多次生成结果风格单一 •单次生成多条文案时重复问题较严重 通用指令模型 www.top100summit.com •基于场景反馈数据,对社交创作模型进行持续优化 •人工/AI标注的偏好数据集 �=−𝑙𝑜𝑔(�𝑟!𝑥,𝑦w−𝑟!𝑥,𝑦� Reward+人工 ) Model规则 Prompt SFTModel OldPolicy PromptResponse PPO RLHFModel NewPolicy •场景用户行为反馈数据 •是否点击、是否达成社交 �=�𝐿i𝑠_𝑐𝑙i𝑐�+1−�𝐿i𝑠_𝑐'𝑎� 行为反馈RewardModel 对偏好数据集进行打分 DPO Multi- Reward 偏向赞美 看来环球影城的魔法已经成功把你变成最闪耀的少女了! 权重变化 感觉你在环球影城玩得很开心,有什么特别的体验可以分享吗? 偏向询问 �𝜋!𝑦w�� 𝜋!𝑦�� 𝜋𝑟𝑒ƒ𝑦�� 1−� � 𝑟𝑎𝑐�𝑥,𝑦w−𝑟𝑎𝑐�𝑥,𝑦� 𝑙𝑜𝑔𝜎(�𝑙𝑜�𝜋𝑟𝑒ƒ𝑦w�−�𝑙𝑜�−) •用户在发布动态时存在的体验问题 但纯文字得不到关注 aphotographofanastronautridingahorse 动态发布占比 •心情 •想法 纯文字 其他 •感悟 •记录 •⋯⋯ 动态阅读率 纯文字其他 文生图技术 •用户配图存在成本 •可能不知道配什么图 •降低发布门槛 •提高发布意愿 •通过智能配图生成,帮助用户轻松创作图文动态 追到了耶! 牵到手手了耶!! 现在是我的宝贝了耶!!! 实际的动态文字 常见的文生图prompt 配图描述模型 适合的场景描述、关键词等 Acouplewalkingtogether,holdinghandsandaccompaniedbylovehearts DiffusionModel girl,lookingtoside,jeweledcrown,forest,cinematiclighting,digitalpainting,vibrantcolors,bestquality,masterpiece,8K 属性词库 特定的风格、品质等属性词 •基于多模态LLM的图片描述能力,构建配图描述数据集 •微调文生图模型,保持数据分布一致性,提高生成质量 优质图文动态 每天给自己一个希望,试着不为明天而烦恼。不为昨天而叹息,只为今天更美好。再见十一月,十二月你好! LoRA-SFT 配图描述模型 MLLM e.g.LLaVA aheart-shapeddesigncreatedbyaflowerandaplant,withtheflowerpositionedinthecenter LoRA StableDiffusion Response Prom