您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2023第十二届全球TOP100软件案例研究峰会]:小红书- 宋德嘉(秦明)-小红书多模态内容生成技术分享 - 发现报告
当前位置:首页/行业研究/报告详情/

小红书- 宋德嘉(秦明)-小红书多模态内容生成技术分享

AI智能总结
查看更多
小红书- 宋德嘉(秦明)-小红书多模态内容生成技术分享

亿级社区内容背后的故事小红书多模态技术探索与实践 秦明(宋德嘉)小红书多模态算法团队负责人 讲师简介 “ 小红书社区技术部多模态算法团队负责人。当前主要负责多模态内容理解、AIGC、智能编辑等方向工作,推动相关技术在社区多个业务场景落地。在计算机视觉开源社区贡献多个开源项目,star1k+。获得ICCV2019VOT目标跟踪国际竞赛冠军。 www.top100summit.com 秦明(宋德嘉) 小红书多模态算法团队负责人” www.top100summit.com 小红书社区业务概述 概述:一本生活的百科全书 定位:旅游攻略分享平台->复合型生活方式社区 用户:小众需求->大众生活 优质内容是最宝贵的资产 遇事不决小红书小众内容破圈 旅游美食健康 CityWalk 飞盘陆冲 www.top100summit.com 小红书社区业务概述 普通人帮助普通人 索取内容获得帮助 既是受益者,又是贡献者 参与共建回馈社区 内容消费内容创作 消费者 高效获取 图文内容 视频内容 促进内容分享,帮助别人也是帮助自己 创作者轻松创作 www.top100summit.com 智能创作工具 个性化分发 推荐|搜索 数十亿 数百万 小红书社区业务概述 内容意图:分享意图为主(喜好、外在、经历等)->真实 作者构成:普通用户占绝大多数,女性比例高 创作诉求:对内容精致度、创意要求高,工具足够简单 让创作更有趣 让创作更简单 算力成本控制 业务特点核心业务问题 兴趣社交分享创作分享喜好分享外在分享经历随手拍 普通创作者腰部创作者头部创作者 www.top100summit.com 智能特效-让创作更有趣 过往特效:表情控制、属性编辑、换脸等等 AI绘画工具:图片特效玩法更进一步,适合表达自我 背后基本技术原理? 业务挑战 差异化风格定制:如何平衡生图效果vs.效率(新鲜感/首发)? 局部细节控制:效果更加细致、稳定? 拓展创新玩法:如何基于成熟技术进行玩法裂变? 丁达尔 重彩油墨 www.top100summit.com 用户刚需:这项技术对于小红书的意义不是炫技! 创作形式:图像为主x年轻人x分享外在 效果需求:有创意x有艺术感x注重细节 创作效率:低时延发布(甚至接受异步发布),制作发布一体化 www.top100summit.com 智能特效-深度生成原理如何做出差异化? 深度生成模型:训练阶段拟合数据分布,在推理阶段通过产生与训练数据分布很相似的图像、视频 VAE:基于变分下界约束得到的Encoder-Decoder模型对GAN:基于对抗的Generator-Discriminator模型对 扩散模型:高度语义一致、视觉效果逼真、出图高清、风格化能力强 扩 散从清晰图加噪开始加高斯噪声 过随机过程(马尔科夫过程) 去噪过程   条件概率分布建模 多步完成 程 智能特效-差异化风格定制 是挑战更是机遇!怎么定义差异化风格? 国风汉唐盛景 辅助线 风格高度依赖开源 citivai、huggingface、liblibai 风格集中在二次元,审美疲劳 小红书用户对细节要求高 主要挑战 产运设自发脑暴,结合站内调性 垂直领域风格,从国风->拼贴 多维细节->人物/背景/元素/质感/颜色 【人物】 【动物种类】 【人物】 纤细舒婉 鲤鱼、喜鹊、仙鹤 扁平人物 【颜色质感】 【两岸商铺】 【背景】 流行的插画风格 酒坊、花坊、茶铺、胭脂铺、糕饼铺、面馆 未来赛博科技线 现代感的颜色 【街上商贩】 水墨质感的笔触 丝巾贩、磨镜摊、扇子贩、鱼虫贩 现代古典元素结合 问题解法 www.top100summit.com 智能特效-差异化风格定制核心问题:算法怎么做风格定制? 笔触感优化:模拟作画真实线条,此类细节具有高度专业性 原图优化前优化后 Y2K(千禧年)水下丁达尔国漫水墨治愈漫画 技术难点: 研效提升?小样本、流程化、低成本制作 如何解决风格退化问题?难以收敛到训练特征分布 高专业性细节打磨?兼顾细节打磨vs.研发周期 算法鲁棒性?如何在多场景保证风格一致性? 流程化:种子图设计/制作/扩图+LoRA定制体系化 LatentFeat消偏/控制模块微调 传统算法、策略结合(毛玻璃/滤镜/前背景分离) 多场景预处理:单人/多人/年龄/性别/宠物/风景 问题解法 业务结果:多案例拓展应用 www.top100summit.com 智能特效-差异化风格定制 案例1:风格化动图技术 ✅简介:用户输入一张图,即可生成风格化后的动图 1.在AnimateDiff模型基础上,实现任意风格的动图化 案例影响: ✅定制化风格新阶段:从0到1搭建 ✅高效可复制:低成本 ✅爆款出圈 2.文生图模型+运动模块建模,学习获得运动先验;可插拔 3.自研ControlNet动态衰减权重的控制方式,实现高一致性的动态效果 站内好评 口碑传播 AnimateDiff多帧控制 SD+ControlNet www.top100summit.com 智能特效-差异化风格定制 案例2:穿越漫画遇见自己(视频风格化技术) ✅简介:用户输入一张图片,生成多种风格化合成的视频 1.多风格定制化成本高->应用小样本定制,流程复制 2.场景变化->人物/背景分别生成 3.技兼术顾方画案面变化大与稳定性->动量更新 上线两周累计发布 9w6+ 上线两周累计消费 988w 102 上线两周篇均阅读 www.top100summit.com 智能特效-局部细节控制 ❌畸形问题频发,用户不可接受 ❌SD调整prompt对细节作用有限 ❌风格化后美观,但是和本人不相关 问题1:如何解决崩坏 问题2:如何平衡像vs.美 为什么要局部控制? 崩坏类问题 侧脸人像崩坏手部崩坏 人脸畸形年龄错误 ID类问题 原图优化前优化后 www.top100summit.com 智能特效-局部细节控制 人像优化技术 早期无开源方案,如何进行选型 对推理带来的额外开销 方案的通用性、可复用性 主要挑战 通过构建facemodule,局部inpainting重绘 局部重绘vs.全局重绘(无法解小脸场景),兼顾耗时和效果 模块可插拔,在所有项目上皆可直接复用 问题定义和解法 www.top100summit.com 小脸崩坏 小脸修复 回贴原图 FaceModule FaceControl SD 图生图 SD inpainting FacePrompt 方案链路 复杂场景 www.top100summit.com 智能特效-局部细节控制 手脸交互 复杂姿势 更进一步:人像优化技术->肢体优化技术 智能特效-局部细节控制 技术成本高,业界无开源方案 如何兼顾风格美感vs.人像的相似度,如何评判 更进一步:快速版真人人像 真人人像技术主要挑战 如何评判 评估 整体 人物 匹配 画质 画风 光影 真实度 和谐度 美观度 相似度 细节 解决方案 �多图方案(摄影棚效果vs.真实感) 用户上传多张照片,训练IDLoRA IDLoRA+风格LoRA融合做文生图 更好的细节:脸部放大+脸部区域重绘 �单图方案(写实类) 用户上传照片做缩放+旋转+脸部抠图 脸部以外区域用风格LoRA+Control方案重绘 叠加光照、美颜等后处理 www.top100summit.com 智能特效-局部细节控制 案例ID注入技术/个人数字分身: 快速版人像,复用到多个风格化模型中 从解决人脸崩坏到像自己,实现自我表达 如何进行玩法裂变? 从0到1完成真人写真链路,构造个人数字分身 实现多种风格效果的写真人像生成 www.top100summit.com 智能特效-拓展创新玩法 案例1:涂鸦生图 �设计服装 简笔画 效果生成 多玩法 多风格 www.top100summit.com 挑战话题x创新工具玩法结合 用户简笔画,参与挑战, 互动性强,激发创作积极性 装扮雪人宝宝 种快乐 装饰圣诞树 装扮人偶 www.top100summit.com 大量用户参与挑战和互动 智能特效-拓展创新玩法 案例1:涂鸦生图 低门槛->多模态模型解析涂鸦内容并生成描述 几何/风格一致性->ControlNet/LoRA 颜色控制->多控制信息并行 主要挑战和解法 涂鸦技术方案 智能特效-拓展创新玩法 回答了如何让创作更有趣,那如何让创作更简单? 案例2:延伸AI世界 简介 按主题设定故事线,实现镜头延伸 每条故事线自定义多场景 场景内基础元素定制 技术方案 挑战 扩散模型如何与运镜进行结合 视频稳定性问题 如何平衡大场景切换,同时不突变 www.top100summit.com 智能编辑-让创作更简单 核心问题: 问题解决:一键式发布能力大大降低用户发布难度 www.top100summit.com 照片/视频太多,懒于精挑细选? 不会剪辑,如何合成视频、配乐? 为标题文案着急?AI帮写 想宣泄情感,一时找不到合适配图? 如果自动化支持素材归类、筛选、整合、剪辑,轻松拯救废片? 如何完成智能高光识别、自动配乐、转场帮助轻松一键大片? 如何精准推荐站内高热度标题? 如何文生图技术帮忙联想配图,文字不再枯燥乏味? 智能相册一键成片智能标题文字配图 智能编辑-让创作更简单 显著激活中低活发布用户行为 如何快速搭建全链路?->素材优选-内容聚合-模板匹配-渲染成片 如何提升成片效果?->新增各种热门主题,如冬季滑雪、夏日溯溪,端午的粽子、除夕年夜饭 如何评判什么是好效果?->1、分模块内部评估2、竞品对比(时光影集、回忆) 案例1:智能相册 问题定义和解法 image 素材优选&归类内容理解 色情 场景识别 低质 人脸识别 模糊 姿态识别 闭眼 相似去重 高光 聚合策略 美学 multimodalfea 夕阳甜品 合影 青岛 模板推荐 Imgfea 发布理由:今天是落日收藏家! multi-modalretrieval cosinesimilarity 效果成片 www.top100summit.com video 移动端能力隐私规避 一周合集 ...... 文案库 智能编辑-让创作更简单 案例2:智能标题 显著提升发布链路的转化率,站内涌现出了用户自来水的好评 问题定义和解法 内容理解 自然风光 性别 人脸识别 动漫动画 年龄 场景分类 截屏 OCR 文本识别 人像 排版分析 图像原始素材信息 经纬度 拍摄时间 POI转换 时间解析 方案如何选型?生成式vs.检索式,提升文案库场景覆盖、类型丰富度 边界情况处理?非纯粹图文跨模态检索,意图理解辅助判断,重点垂类干预 底库怎么扩充?结合站内热点笔记内容,自动化标题入库流程,实时扩充文案库 有人陪伴才不枉此生别让世俗埋没了艺术 海量UGC内容 文案库扩充 过滤 清洗 去重 规则过滤 模型过滤 字符去重 语义去重 结构化 场景模型 推 类型模型荐 召排标 回序题 风格模型 www.top100summit.com 智能编辑-让创作更简单 案例3:文案配图 跑出多个爆款促产话题,“AI帮你生成心情图片”“AI还原古诗词”等 应用场景 媳妇是煮茶的壶,丈夫是喝茶的壶 现在的婚姻里,到底 男人难还是女人难? 风吹落最后一片叶,我的心也飘着雪 发布场景对话式搜索内容生产 www.top100summit.com 方案链路 ✅解决方案:使用大语言模型为用户文本进行联想 如何解