亿级社区内容背后的故事小红书多模态技术探索与实践 秦明(宋德嘉)小红书多模态算法团队负责人 讲师简介 “ 小红书社区技术部多模态算法团队负责人。当前主要负责多模态内容理解、AIGC、智能编辑等方向工作,推动相关技术在社区多个业务场景落地。在计算机视觉开源社区贡献多个开源项目,star1k+。获得ICCV2019VOT目标跟踪国际竞赛冠军。 www.top100summit.com 秦明(宋德嘉) 小红书多模态算法团队负责人” www.top100summit.com 小红书社区业务概述 概述:一本生活的百科全书 定位:旅游攻略分享平台->复合型生活方式社区 用户:小众需求->大众生活 优质内容是最宝贵的资产 遇事不决小红书小众内容破圈 旅游美食健康 CityWalk 飞盘陆冲 www.top100summit.com 小红书社区业务概述 普通人帮助普通人 索取内容获得帮助 既是受益者,又是贡献者 参与共建回馈社区 内容消费内容创作 消费者 高效获取 图文内容 视频内容 促进内容分享,帮助别人也是帮助自己 创作者轻松创作 www.top100summit.com 智能创作工具 个性化分发 推荐|搜索 数十亿 数百万 小红书社区业务概述 内容意图:分享意图为主(喜好、外在、经历等)->真实 作者构成:普通用户占绝大多数,女性比例高 创作诉求:对内容精致度、创意要求高,工具足够简单 让创作更有趣 让创作更简单 算力成本控制 业务特点核心业务问题 兴趣社交分享创作分享喜好分享外在分享经历随手拍 普通创作者腰部创作者头部创作者 www.top100summit.com 智能特效-让创作更有趣 过往特效:表情控制、属性编辑、换脸等等 AI绘画工具:图片特效玩法更进一步,适合表达自我 背后基本技术原理? 业务挑战 差异化风格定制:如何平衡生图效果vs.效率(新鲜感/首发)? 局部细节控制:效果更加细致、稳定? 拓展创新玩法:如何基于成熟技术进行玩法裂变? 丁达尔 重彩油墨 www.top100summit.com 用户刚需:这项技术对于小红书的意义不是炫技! 创作形式:图像为主x年轻人x分享外在 效果需求:有创意x有艺术感x注重细节 创作效率:低时延发布(甚至接受异步发布),制作发布一体化 www.top100summit.com 智能特效-深度生成原理如何做出差异化? 深度生成模型:训练阶段拟合数据分布,在推理阶段通过产生与训练数据分布很相似的图像、视频 VAE:基于变分下界约束得到的Encoder-Decoder模型对GAN:基于对抗的Generator-Discriminator模型对 扩散模型:高度语义一致、视觉效果逼真、出图高清、风格化能力强 扩 散从清晰图加噪开始加高斯噪声 过随机过程(马尔科夫过程) 去噪过程 条件概率分布建模 多步完成 程 智能特效-差异化风格定制 是挑战更是机遇!怎么定义差异化风格? 国风汉唐盛景 辅助线 风格高度依赖开源 citivai、huggingface、liblibai 风格集中在二次元,审美疲劳 小红书用户对细节要求高 主要挑战 产运设自发脑暴,结合站内调性 垂直领域风格,从国风->拼贴 多维细节->人物/背景/元素/质感/颜色 【人物】 【动物种类】 【人物】 纤细舒婉 鲤鱼、喜鹊、仙鹤 扁平人物 【颜色质感】 【两岸商铺】 【背景】 流行的插画风格 酒坊、花坊、茶铺、胭脂铺、糕饼铺、面馆 未来赛博科技线 现代感的颜色 【街上商贩】 水墨质感的笔触 丝巾贩、磨镜摊、扇子贩、鱼虫贩 现代古典元素结合 问题解法 www.top100summit.com 智能特效-差异化风格定制核心问题:算法怎么做风格定制? 笔触感优化:模拟作画真实线条,此类细节具有高度专业性 原图优化前优化后 Y2K(千禧年)水下丁达尔国漫水墨治愈漫画 技术难点: 研效提升?小样本、流程化、低成本制作 如何解决风格退化问题?难以收敛到训练特征分布 高专业性细节打磨?兼顾细节打磨vs.研发周期 算法鲁棒性?如何在多场景保证风格一致性? 流程化:种子图设计/制作/扩图+LoRA定制体系化 LatentFeat消偏/控制模块微调 传统算法、策略结合(毛玻璃/滤镜/前背景分离) 多场景预处理:单人/多人/年龄/性别/宠物/风景 问题解法 业务结果:多案例拓展应用 www.top100summit.com 智能特效-差异化风格定制 案例1:风格化动图技术 ✅简介:用户输入一张图,即可生成风格化后的动图 1.在AnimateDiff模型基础上,实现任意风格的动图化 案例影响: ✅定制化风格新阶段:从0到1搭建 ✅高效可复制:低成本 ✅爆款出圈 2.文生图模型+运动模块建模,学习获得运动先验;可插拔 3.自研ControlNet动态衰减权重的控制方式,实现高一致性的动态效果 站内好评 口碑传播 AnimateDiff多帧控制 SD+ControlNet www.top100summit.com 智能特效-差异化风格定制 案例2:穿越漫画遇见自己(视频风格化技术) ✅简介:用户输入一张图片,生成多种风格化合成的视频 1.多风格定制化成本高->应用小样本定制,流程复制 2.场景变化->人物/背景分别生成 3.技兼术顾方画案面变化大与稳定性->动量更新 上线两周累计发布 9w6+ 上线两周累计消费 988w 102 上线两周篇均阅读 www.top100summit.com 智能特效-局部细节控制 ❌畸形问题频发,用户不可接受 ❌SD调整prompt对细节作用有限 ❌风格化后美观,但是和本人不相关 问题1:如何解决崩坏 问题2:如何平衡像vs.美 为什么要局部控制? 崩坏类问题 侧脸人像崩坏手部崩坏 人脸畸形年龄错误 ID类问题 原图优化前优化后 www.top100summit.com 智能特效-局部细节控制 人像优化技术 早期无开源方案,如何进行选型 对推理带来的额外开销 方案的通用性、可复用性 主要挑战 通过构建facemodule,局部inpainting重绘 局部重绘vs.全局重绘(无法解小脸场景),兼顾耗时和效果 模块可插拔,在所有项目上皆可直接复用 问题定义和解法 www.top100summit.com 小脸崩坏 小脸修复 回贴原图 FaceModule FaceControl SD 图生图 SD inpainting FacePrompt 方案链路 复杂场景 www.top100summit.com 智能特效-局部细节控制 手脸交互 复杂姿势 更进一步:人像优化技术->肢体优化技术 智能特效-局部细节控制 技术成本高,业界无开源方案 如何兼顾风格美感vs.人像的相似度,如何评判 更进一步:快速版真人人像 真人人像技术主要挑战 如何评判 评估 整体 人物 匹配 画质 画风 光影 真实度 和谐度 美观度 相似度 细节 解决方案 �多图方案(摄影棚效果vs.真实感) 用户上传多张照片,训练IDLoRA IDLoRA+风格LoRA融合做文生图 更好的细节:脸部放大+脸部区域重绘 �单图方案(写实类) 用户上传照片做缩放+旋转+脸部抠图 脸部以外区域用风格LoRA+Control方案重绘 叠加光照、美颜等后处理 www.top100summit.com 智能特效-局部细节控制 案例ID注入技术/个人数字分身: 快速版人像,复用到多个风格化模型中 从解决人脸崩坏到像自己,实现自我表达 如何进行玩法裂变? 从0到1完成真人写真链路,构造个人数字分身 实现多种风格效果的写真人像生成 www.top100summit.com 智能特效-拓展创新玩法 案例1:涂鸦生图 �设计服装 简笔画 效果生成 多玩法 多风格 www.top100summit.com 挑战话题x创新工具玩法结合 用户简笔画,参与挑战, 互动性强,激发创作积极性 装扮雪人宝宝 种快乐 装饰圣诞树 装扮人偶 www.top100summit.com 大量用户参与挑战和互动 智能特效-拓展创新玩法 案例1:涂鸦生图 低门槛->多模态模型解析涂鸦内容并生成描述 几何/风格一致性->ControlNet/LoRA 颜色控制->多控制信息并行 主要挑战和解法 涂鸦技术方案 智能特效-拓展创新玩法 回答了如何让创作更有趣,那如何让创作更简单? 案例2:延伸AI世界 简介 按主题设定故事线,实现镜头延伸 每条故事线自定义多场景 场景内基础元素定制 技术方案 挑战 扩散模型如何与运镜进行结合 视频稳定性问题 如何平衡大场景切换,同时不突变 www.top100summit.com 智能编辑-让创作更简单 核心问题: 问题解决:一键式发布能力大大降低用户发布难度 www.top100summit.com 照片/视频太多,懒于精挑细选? 不会剪辑,如何合成视频、配乐? 为标题文案着急?AI帮写 想宣泄情感,一时找不到合适配图? 如果自动化支持素材归类、筛选、整合、剪辑,轻松拯救废片? 如何完成智能高光识别、自动配乐、转场帮助轻松一键大片? 如何精准推荐站内高热度标题? 如何文生图技术帮忙联想配图,文字不再枯燥乏味? 智能相册一键成片智能标题文字配图 智能编辑-让创作更简单 显著激活中低活发布用户行为 如何快速搭建全链路?->素材优选-内容聚合-模板匹配-渲染成片 如何提升成片效果?->新增各种热门主题,如冬季滑雪、夏日溯溪,端午的粽子、除夕年夜饭 如何评判什么是好效果?->1、分模块内部评估2、竞品对比(时光影集、回忆) 案例1:智能相册 问题定义和解法 image 素材优选&归类内容理解 色情 场景识别 低质 人脸识别 模糊 姿态识别 闭眼 相似去重 高光 聚合策略 美学 multimodalfea 夕阳甜品 合影 青岛 模板推荐 Imgfea 发布理由:今天是落日收藏家! multi-modalretrieval cosinesimilarity 效果成片 www.top100summit.com video 移动端能力隐私规避 一周合集 ...... 文案库 智能编辑-让创作更简单 案例2:智能标题 显著提升发布链路的转化率,站内涌现出了用户自来水的好评 问题定义和解法 内容理解 自然风光 性别 人脸识别 动漫动画 年龄 场景分类 截屏 OCR 文本识别 人像 排版分析 图像原始素材信息 经纬度 拍摄时间 POI转换 时间解析 方案如何选型?生成式vs.检索式,提升文案库场景覆盖、类型丰富度 边界情况处理?非纯粹图文跨模态检索,意图理解辅助判断,重点垂类干预 底库怎么扩充?结合站内热点笔记内容,自动化标题入库流程,实时扩充文案库 有人陪伴才不枉此生别让世俗埋没了艺术 海量UGC内容 文案库扩充 过滤 清洗 去重 规则过滤 模型过滤 字符去重 语义去重 结构化 场景模型 推 类型模型荐 召排标 回序题 风格模型 www.top100summit.com 智能编辑-让创作更简单 案例3:文案配图 跑出多个爆款促产话题,“AI帮你生成心情图片”“AI还原古诗词”等 应用场景 媳妇是煮茶的壶,丈夫是喝茶的壶 现在的婚姻里,到底 男人难还是女人难? 风吹落最后一片叶,我的心也飘着雪 发布场景对话式搜索内容生产 www.top100summit.com 方案链路 ✅解决方案:使用大语言模型为用户文本进行联想 如何解