任务无关的动态特征上采样 陆昊 华中科技大学 人工智能与自动化学院 2023/6/7 自我介绍 简介 陆昊,副教授,华中科技大学博士(2018),澳大利亚阿德莱德大学访问学生(2016-2017)与博士后(2018-2020),合作导师沈春华教授,2020年11月起任华中科技大学人工智能与自动化学院副教授。 研究方向 研究方向聚焦计算机视觉中的稠密预测(denseprediction)。稠密预测是视觉中一系列包括目标检测、语义分割、深度估计等逐像素标记任务的总称。目前在计算机视觉领域的顶刊IEEETPAMI、IJCV与顶会CVPR、ICCV、ECCV、NeurIPS、AAAI、MM等发表论文70余篇。 概要 CONTENTS 01 上采样 02 IndexNet 03 A2U 04 FADE 05 SAPA PartI 上采样 Upsampling 什么是上采样? 目标:提升空间分辨率 什么是特征上采样? -目标:提升特征图的空间分辨率 𝐻×𝑊×�𝜎𝐻×𝜎𝑊×� 为什么需要特征上采样? -上采样是许多稠密预测模型中的关键操作,例如编解码架构、FPN架构 Interpolation: 常规上采样算子 Upsamplers Max-Unpooling: PixelShuffle: 常规上采样算子存在的问题 传统插值算法 NNBilinearBicubic 线性插值会平滑图像的边缘细节 转置卷积上采样 导致棋盘效应 PartII IndexNet ICCV2019,TPAMI2022 HaoLu,etal."Indicesmatter:Learningtoindexfordeepimagematting."ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2019. HaoLu,etal.”IndexNetworks.“IEEETransactionsonPatternAnalysisandMachineIntelligence.2022.10 不同网络模型的表现差异 同为encoder-decoder模型不同模型有不同表现 关键在哪里? Indices很重要 消融实验找到关键原因-indicesmatter 不同上采样算子有不同特性 Unpooling Bilinearinterpolation 生成的特征图过于稀疏 生成语义连续区域化的特征图 擅长预测边缘 擅长预测区域 目标:同时擅长预测区域和边缘的上采样算子 上采样算子可被形式化为索引函数 索引是模型 可被建模且可学习的 索引引导的编码解码结构 可学习的索引:以特征图为基础动态生成 两种变体:HIN&DIN 图像抠图中的表现 用少量参数获得显著效果提升 学习到的索引图 总结 将上采样以索引函数的形式归纳 提出IndexNet,动态生成可学习的indices 即插即用:适用于任何含有上采样环节的网络 同期工作-CARAFE(ICCV2019) 为每个上采样后的点基于特征图生成一个上采样核,将上采样核与低分辨率特征图中的局部特征相乘得到该点特征。 Wang,Jiaqi,etal."Carafe:Content-awarereassemblyoffeatures."ProceedingsoftheIEEE/CVFinternationalconferenceoncomputervision.2019.20 PartIII A2U CVPR2021 Dai,Yutong#,HaoLu#,andChunhuaShen."Learningaffinity-awareupsamplingfordeepimagematting."ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2021. 研究动机 IndexNet参数量仍然过大虽然IndexNet用较少参数取得了显著提升,但仍然有轻量化的空间 (+12M->+38K) 二阶信息利用 在可学习的上采样中,二阶信息没有被利用过(second-order) 二阶信息:Affinity Affinity在视觉稠密预测任务中被深入研究,包括图像抠图。 可学习的上采样算子在以往的工作中也有相应研究,但是都没有考虑到二阶特征。 数学角度回顾上采样 上采样后的点 上采样核 特征图中相关局部特征 •距离引导上采样: 𝐰:点之间的相对距离关系 •CARAFE: �∈𝐑𝐤𝟐×�通过上采样核生成模型产生,�∈𝐑𝐤𝟐×�为低分辨率特征图中的向量化特征 •IndexNet: �∈𝐑𝐤𝟐×�为高分辨率特征图中的向量化特征 A2U:Affinity-awareUpsampling 低秩化 通过双线性模型建模affinity 用卷积简化实现 沿用CARAFE生成上采样核的方式,但 A2U使用高分辨率特征生成上采样核25 在抠图中的表现 参数量极少性能提升明显 总结 提出了基于二阶特征的上采样算子 通过双线性模型将affinity信息以上采样的方式引入到网络中 通过低秩化减少了计算量 PartIV FADE ECCV2022 HaoLu,etal."FADE:FusingtheAssetsofDecoderandEncoderforTask-Agnostic Upsampling."EuropeanConferenceonComputerVision.Springer,Cham,2022.28 不同上采样算子擅长任务不同 上采样算子 适合的任务 任务特点 CARAFE 目标检测、实例分割、语义分割 区域敏感 IndexNet、A2U 图像抠图、图像去噪、深度估计 细节敏感 能否构建一个任务自适应的上采样算子 任务自适应的上采样算子特点 语义保护 TRADE-OFF 细节恢复 任务自适应的上采样算子 为什么不同算子有不同擅长领域 用什么特征来生成上采样核很重要 (encoderfeature、decoderfeature、both) 用什么特征来生成上采样核很重要 使用decoderfeature能帮助语义连续性使用encoderfeature能帮助恢复细节 需要一同使用32 如何匹配encoder&decoder特征分辨率插值?连接?卷积?No!–感受野 Semi-shiftconvolution: 让encoder和decoder特征一同控制整体核的生成用encoder特征确定四个点的偏差 Gating机制-进一步补充细节 FADE-overview 用什么特征来生成上采样核 如何匹配编码器特 征与解码器特征 如何进一步进行细节补充 FADE-表现 在细节敏感任务和区域敏感任务中都取得了很好的效果 FADE-可视化(语义分割) FADE-可视化(图像抠图) 总结 首个任务自适应上采样算子,能够同时在细节敏感任务和区域敏感任务都有很好的效果 从三个方面给出了如何设计自适应上采样算子的分析以及具体设计 即插即用,轻量化 PartV SAPA NeurIPS2022 HaoLu,etal."SAPA:Similarity-AwarePointAffiliationforFeatureUpsampling."NeurIPS,2022.40 上采样的信息损失特性 上采样易造成信息丢失易出错尤其出现在边缘区域 分割中的信息损失-点归属(pointaffiliation) 正确的点归属有何作用?如何得到正确的点归属? 分割问题中的上采样信息损失->两个定义: 语义簇:相似语义含义的解码器特征点形成的簇 点归属:每个上采样后的点都归属于某一个语义簇(semanticcluster) 正确点归属的作用 正确点归属 语义连贯、边缘清晰、接近输出的上采样特征 得到正确点归属的困难性 难以产生同时做到语义保护 细节恢复 的上采样核 难以得到语义连贯边缘清晰 的上采样特征 缺乏细节产生很多不需要的噪声 理想的上采样算子 同时做到语义保护、细节恢复的上采样核 只在需要细节的地方相应,在语义连贯的地方不响应 细节信息来源 编码器特征细节充足 如何在过滤不需要噪声的情况下补充需要的边缘细节 每一个高分辨率的特征点都与 低分辨率特征中的一个语义簇相似 基于相似性分配点归属 对应高分辨率特征点与哪个语义簇更相似则指定上采样之后的点属于该语义簇 如何分配? 如何分配? SAPA上采样过程示意 具体流程 通过比较每个encoder特征点与decoder窗口中的相似性,确定点归属计算相似性->归一化形成上采样核 公式化 不同建模方式 相似性建模: 归一化方法: ReLU,sigmoid,softplus 参数量比较 甚至可以做到零参 SAPA表现 语义分割 深度估计 图像抠图 目标检测 SAPA可视化结果 SAPA-消融实验 零参也能取得很好的效果关键在于相似性比较 总结 为上采样引入了点归属的概念 SAPA:基于局部互相似性的上采样算子 发展路线 IndexNet:首次提出动态特征上采样 A2U:将二阶特征引入上采样 FADE:首个任务自适应的上采样算子 SAPA:从信息传递的角度理解上采样,并提出基于局部互相似性的上采样算子 特别感谢:本次报告所涉及实验均得到NVIDIA的GPU支持