请耐心等待

本站点由Vercel托管,站点位于海外,初次加载可能会耗费些许时间。

Skip to content

SAM-CP论文解析:第一章(Introduction)内容详解

更新: 5/22/2025 字数: 0 字 时长: 0 分钟

1. 研究背景与动机

1.1 SAM的优势与局限性

  • 优势

    • 强大的零样本分割能力:可在不同领域(医学图像、遥感图像等)生成像素级分割块(patches)
    • 高泛化性:无需微调即可适配多种下游任务(图像编辑、3D识别等)
  • 局限性

    • 缺乏语义感知:生成的patches无类别标签
    • 过度分割问题:单个实例可能被切割成多个子块(如人体被分割为躯干/四肢)
    • 计算效率低:直接处理大量patches的复杂度达O(N²)

1.2 现有方法缺陷

方法类型代表工作核心问题
两阶段方法Grounded-SAM依赖外部检测器(如DINO)生成建议框,弱化SAM的核心价值
单阶段方法Semantic-SAM直接为patches分配标签,无法解决实例合并问题

关键挑战:如何在保留SAM零样本能力的同时,实现多粒度语义理解?


2. 本文解决方案

2.1 核心思路:可组合提示(Composable Prompts)

提出两类基础提示机制:

  1. 类型I提示(语义标记)

    • 功能:判断patches是否匹配给定文本标签
    • 数学表示:$S_{m,c}^{cls} = \frac{1}{s} \cdot \hat{Q}_m^{\top} \cdot \hat{e}_c + b$
  2. 类型II提示(实例合并)

    • 功能:判断同类别patches是否属于同一实例
    • 实现逻辑:通过亲和力矩阵(Affinity Matrix)动态合并相关patches

2.2 技术突破:统一亲和力框架

框架示意图

  • 三大核心模块
    markdown
    1. Patch Encoder:提取patches的视觉特征
    2. Unified Affinity Decoder:
       - 语义查询(CLIP文本编码) 
       - 实例查询(PasQ: Patch-as-Query)
    3. 动态交叉注意力(DCA)与亲和力传播
本站访客数 人次 本站总访问量