SAM-CP论文解析：第一章（Introduction）内容详解

更新: 5/22/2025 字数: 0 字时长: 0 分钟

1. 研究背景与动机

优势
- 强大的零样本分割能力：可在不同领域（医学图像、遥感图像等）生成像素级分割块（patches）
- 高泛化性：无需微调即可适配多种下游任务（图像编辑、3D识别等）
局限性
- 缺乏语义感知：生成的patches无类别标签
- 过度分割问题：单个实例可能被切割成多个子块（如人体被分割为躯干/四肢）
- 计算效率低：直接处理大量patches的复杂度达O(N²)

方法类型	代表工作	核心问题
两阶段方法	Grounded-SAM	依赖外部检测器（如DINO）生成建议框，弱化SAM的核心价值
单阶段方法	Semantic-SAM	直接为patches分配标签，无法解决实例合并问题

关键挑战：如何在保留SAM零样本能力的同时，实现多粒度语义理解？

提出两类基础提示机制：

类型I提示（语义标记）
- 功能：判断patches是否匹配给定文本标签
- 数学表示：$S_{m,c}^{cls} = \frac{1}{s} \cdot \hat{Q}_m^{\top} \cdot \hat{e}_c + b$
类型II提示（实例合并）
- 功能：判断同类别patches是否属于同一实例
- 实现逻辑：通过亲和力矩阵（Affinity Matrix）动态合并相关patches

三大核心模块

markdown

1. Patch Encoder：提取patches的视觉特征
2. Unified Affinity Decoder：
   - 语义查询（CLIP文本编码） 
   - 实例查询（PasQ: Patch-as-Query）
3. 动态交叉注意力（DCA）与亲和力传播