行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

小红书- 宋德嘉(秦明)-小红书多模态内容生成技术分享

文化传媒 2024-08-21 2023第十二届全球TOP100软件案例研究峰会 WEN

小红书多模态算法团队技术实践总结

小红书社区业务概述

定位：从旅游攻略分享平台发展为复合型生活方式社区，用户从小众需求转向大众生活。
核心业务问题：如何让创作更有趣、更简单，同时控制算力成本。
用户特点：普通用户占绝大多数，女性比例高，对内容精致度和创意要求高。

智能特效——让创作更有趣

业务挑战：差异化风格定制、局部细节控制、拓展创新玩法。
AI绘画工具：满足用户自我表达需求，非炫技性质。
创作形式：图像为主，年轻人，分享外在，注重创意和细节。

深度生成原理

VAE模型：基于变分下界约束的Encoder-Decoder模型，通过加噪和随机过程拟合数据分布。

差异化风格定制

主要挑战：开源风格集中，用户对细节要求高。
解法：
- 风格定义：人物（扁平、鲤鱼、喜鹊等）、动物、颜色质感、背景（国风、拼贴、赛博等）。
- 技术难点：笔触感优化、风格退化问题、高专业性细节打磨、算法鲁棒性。
- 解决方案：流程化（种子图设计/制作/扩图+LoRA定制）、LatentFeat消偏/控制模块微调、传统算法结合、多场景预处理。
案例：
- 风格化动图技术：用户输入一张图生成风格化动图，高效可复制，爆款出圈。
  - 技术方案：基于AnimateDiff模型，文生图+运动模块建模，自研ControlNet动态衰减权重控制。
- 穿越漫画遇见自己：用户输入图片生成多种风格化合成视频，多风格定制化成本高，应用小样本定制。

局部细节控制

问题：崩坏类问题、ID类问题。
人像优化技术：
- 解法：构建facemodule，局部inpainting重绘，兼顾耗时和效果。
- 方案链路：局部重绘vs.全局重绘，模块可插拔。
更进一步：肢体优化技术、真人人像技术。
- 多图方案：摄影棚效果vs.真实感，训练ID LoRA+风格LoRA融合。
- 单图方案：写实类，缩放+旋转+脸部抠图，叠加光照、美颜等后处理。
案例：ID注入技术/个人数字分身，从解决人脸崩坏到像自己，实现自我表达。

拓展创新玩法

涂鸦生图：
- 挑战：低门槛、几何/风格一致性、颜色控制。
- 解法：多模态模型解析涂鸦内容，ControlNet/LoRA、多控制信息并行。
延伸AI世界：
- 挑战：视频稳定性、大场景切换。
- 解法：按主题设定故事线，自定义多场景，基础元素定制。

智能编辑——让创作更简单

核心问题：降低用户发布难度，提升发布链路转化率。
方案：素材优选-内容聚合-模板匹配-渲染成片。
提升成片效果：新增热门主题（冬季滑雪、夏日溯溪等）。
文案配图：
- 解决方案：使用大语言模型为用户文本进行联想。
- 技术难点：生成结果不可控、生成时效性。
- 解法：各环节审核，fastllm-50%，sd-30%，整体耗时2s左右。

算力成本控制

主要挑战：模型量化、特定卡型编译优化、算子graph优化、服务合并、潮汐扩缩容。
技术方案：AI编译优化+OP Fusion，比pytorch原版快30%倍的性能优化。

未来展望

提升生成速度。
AIGC效果逼真。

讲师简介小红书社区技术部多模态算法团队负责人。当前主要负责多模态内容理解、AIGC、智能编辑等方向工作，推动相关技术在社区多个业务场景落地。在计算机视觉开源社区贡献多个开源项目，star 1k+。获得ICCV 2019 VOT目标跟踪国际竞赛冠军。小红书多模态算法团队负责人小红书社区业务概述 概述：一本生活的百科全书优质内容是最宝贵的资产 定位：旅游攻略分享平台->复合型生活方式社区 用户：小众需求->大众生活小众内容破圈小红书社区业务概述小红书社区业务概述 核心业务问题 业务特点内容意图：分享意图为主(喜好、外在、经历等)->真实让创作更有趣让创作更简单作者构成：普通用户占绝大多数，女性比例高创作诉求：对内容精致度、创意要求高，工具足够简单算力成本控制智能特效-让创作更有趣背后基本技术原理？ 过往特效:表情控制、属性编辑、换脸等等 业务挑战差异化风格定制：如何平衡生图效果vs.效率(新鲜感/首发)? 局部细节控制：效果更加细致、稳定？拓展创新玩法：如何基于成熟技术进行玩法裂变？ AI绘画工具:图片特效玩法更进一步，适合表达自我 用户刚需:这项技术对于小红书的意义不是炫技！创作形式：图像为主x年轻人x分享外在效果需求：有创意x有艺术感x注重细节创作效率：低时延发布（甚至接受异步发布），制作发布一体化如何做出差异化？智能特效-深度生成原理 深度生成模型：训练阶段拟合数据分布，在推理阶段通过产生与训练数据分布很相似的图像、视频 VAE：基于变分下界约束得到的Encoder-Decoder模型对 从清晰图加噪开始加高斯噪声随机过程(马尔科夫过程) 智能特效-差异化风格定制是挑战更是机遇！怎么定义差异化风格？辅助线 主要挑战 风格高度依赖开源citivai、huggingface、liblibai风格集中在二次元，审美疲劳小红书用户对细节要求高 【人物】扁平人物 【动物种类】 【人物】 问题解法鲤鱼、喜鹊、仙鹤纤细舒婉 【颜色质感】 【两岸商铺】 【背景】 产运设自发脑暴，结合站内调性垂直领域风格，从国风->拼贴多维细节->人物/背景/元素/质感/颜色流行的插画风格现代感的颜色水墨质感的笔触现代古典元素结合未来赛博科技线酒坊、花坊、茶铺、胭脂铺、糕饼铺、面馆 【街上商贩】丝巾贩、磨镜摊、扇子贩、鱼虫贩智能特效-差异化风格定制核心问题：算法怎么做风格定制？ 笔触感优化:模拟作画真实线条，此类细节具有高度专业性 技术难点： 研效提升？小样本、流程化、低成本制作如何解决风格退化问题？难以收敛到训练特征分布高专业性细节打磨？兼顾细节打磨vs.研发周期算法鲁棒性？如何在多场景保证风格一致性？ 问题解法 流程化：种子图设计/制作/扩图+LoRA定制体系化LatentFeat消偏/控制模块微调传统算法、策略结合(毛玻璃/滤镜/前背景分离)多场景预处理：单人/多人/年龄/性别/宠物/风景 业务结果：多案例拓展应用智能特效-差异化风格定制 案例影响： 案例1：风格化动图技术 ✅定制化风格新阶段：从0到1搭建 ✅高效可复制：低成本 ✅简介：用户输入一张图，即可生成风格化后的动图 ✅爆款出圈 1.在AnimateDiff模型基础上，实现任意风格的动图化2.文生图模型+运动模块建模，学习获得运动先验；可插拔3.自研ControlNet动态衰减权重的控制方式，实现高一致性的动态效果 AnimateDiff多帧控制智能特效-差异化风格定制 案例2：穿越漫画遇见自己(视频风格化技术) ✅简介：用户输入一张图片，生成多种风格化合成的视频 1.多风格定制化成本高->应用小样本定制，流程复制 2.场景变化->人物/背景分别生成 3.兼顾画面变化大与稳定性->动量更新技术方案智能特效-局部细节控制 ❌畸形问题频发，用户不可接受❌SD调整prompt对细节作用有限❌风格化后美观，但是和本人不相关 问题1：如何解决崩坏问题2：如何平衡像vs.美为什么要局部控制？崩坏类问题 ID类问题智能特效-局部细节控制人像优化技术 问题定义和解法 主要挑战 早期无开源方案，如何进行选型 对推理带来的额外开销方案的通用性、可复用性 通过构建facemodule，局部inpainting重绘 局部重绘vs.全局重绘(无法解小脸场景)，兼顾耗时和效果 模块可插拔，在所有项目上皆可直接复用 方案链路智能特效-局部细节控制 更进一步：人像优化技术->肢体优化技术智能特效-局部细节控制 真人人像技术 主要挑战技术成本高，业界无开源方案如何兼顾风格美感vs.人像的相似度，如何评判更进一步：快速版真人人像 解决方案 �多图方案（摄影棚效果vs.真实感） 如何评判 用户上传多张照片，训练ID LoRAID LoRA +风格LoRA融合做文生图更好的细节：脸部放大+脸部区域重绘 �单图方案(写实类) 用户上传照片做缩放+旋转+脸部抠图脸部以外区域用风格LoRA + Control方案重绘叠加光照、美颜等后处理智能特效-局部细节控制如何进行玩法裂变？ 案例ID注入技术/个人数字分身： 从0到1完成真人写真链路，构造个人数字分身实现多种风格效果的写真人像生成 快速版人像，复用到多个风格化模型中 从解决人脸崩坏到像自己，实现自我表达智能特效-拓展创新玩法 案例1：涂鸦生图 挑战话题x创新工具玩法结合 用户简笔画，参与挑战， 互动性强，激发创作积极性智能特效-拓展创新玩法大量用户参与挑战和互动 案例1：涂鸦生图 主要挑战和解法 低门槛->多模态模型解析涂鸦内容并生成描述几何/风格一致性->ControlNet/LoRA颜色控制->多控制信息并行 涂鸦技术方案智能特效-拓展创新玩法回答了如何让创作更有趣，那如何让创作更简单？ 挑战 简介 案例2：延伸AI世界扩散模型如何与运镜进行结合视频稳定性问题如何平衡大场景切换，同时不突变按主题设定故事线，实现镜头延伸每条故事线自定义多场景场景内基础元素定制 技术方案智能编辑-让创作更简单 核心问题： 问题解决：一键式发布能力大大降低用户发布难度 照片/视频太多，懒于精挑细选？ 如何完成智能高光识别、自动配乐、转场帮助轻松一键大片？ 不会剪辑，如何合成视频、配乐？ 如何精准推荐站内高热度标题？ 为标题文案着急？AI帮写 如何文生图技术帮忙联想配图，文字不再枯燥乏味？ 想宣泄情感，一时找不到合适配图？显著激活中低活发布用户行为智能编辑-让创作更简单 问题定义和解法如何快速搭建全链路？->素材优选-内容聚合-模板匹配-渲染成片如何提升成片效果？->新增各种热门主题，如冬季滑雪、夏日溯溪，端午的粽子、除夕年夜饭如何评判什么是好效果？->1、分模块内部评估2、竞品对比(时光影集、回忆) 显著提升发布链路的转化率，站内涌现出了用户自来水的好评智能编辑-让创作更简单 问题定义和解法 方案如何选型？生成式vs.检索式，提升文案库场景覆盖、类型丰富度边界情况处理？非纯粹图文跨模态检索，意图理解辅助判断，重点垂类干预  底库怎么扩充？结合站内热点笔记内容，自动化标题入库流程，实时扩充文案库跑出多个爆款促产话题，“AI帮你生成心情图片”“AI还原古诗词”等智能编辑-让创作更简单 案例3：文案配图应用场景 方案链路 ✅解决方案：使用大语言模型为用户文本进行联想 如何解决生成结果不可控？->各环节审核生成时效性？->fastllm-50%，sd-30%，整体耗时2s左右算力成本控制 技术方案 主要挑战 模型量化节省访存开销、提升指令计算吞吐效率特定卡型compile优化，以及对算子的graph优化（op fusion）低流量（小模型）业务进行服务合并的长期治理潮汐扩缩容+大资源池机制，释放闲时资源在公司内部使用 镜像、模型文件几十GB，存储传输成本低延时要求(全链路延时秒级)发布行为稀疏有潮汐特性，波动性大比pytorch原版快～30%倍的性能优化AI编译优化+ OP Fusion 未来展望 如何提升生成速度？AIGC效果如何做到逼真？微信官方公众号：壹佰案例关注查看更多年度实践案例

点击免费查看完整报告

小红书- 宋德嘉(秦明)-小红书多模态内容生成技术分享

小红书多模态算法团队技术实践总结

小红书社区业务概述

智能特效——让创作更有趣

深度生成原理

差异化风格定制

局部细节控制

拓展创新玩法

智能编辑——让创作更简单

算力成本控制

未来展望

你可能感兴趣

【点金互动易】机器人+AI+多模态，智能体位追踪系统已搭载于泰尔系统实验室，助力人形机器人运动能力测试的标准化，这家公司可实现Al生成文本、语音、图像、视频等多模态内容

【掘金行业龙头】多模态+AIGC，多模态大模型进入实验性训练阶段，AIGC产品覆盖图像、音乐、文本、编程等多模态内容生成能力，这家公司已发布多个AI助手

【机构龙虎榜解读】多模态+AI视频+短剧+抖音电商，与巨量引擎签署数据推广合作协议，基于自研营销领域专用的AIGC多模态模型，已实现图片、视频等多种形式的智能化内容生成，这家公司获净买入

Seedance 2.0研究报告：从统一多模态音视频生成到内容工业新基础设施

AIGC 新质生产力，能够实现Al生成文本语音、图像、视频等多模态内容，智能化产品已广泛应用于消费电子、新能源等多个行业，这家公司实现虚拟制作系统等全系列自主研发产品布局

大模型场景下生成式AI多模态内容鉴伪实践分享

多模态生成技术在动画制作领域的应用与发展

小红书内容创作实战手册：技巧与案例分享

从人群到内容，如何做好小红书传播策略-公开分享课课件

明汯今天分享的内容供参考近期发现有些客户在选择止盈股票精选