SAM-CP论文解析:第一章(Introduction)内容详解
更新: 5/22/2025 字数: 0 字 时长: 0 分钟
1. 研究背景与动机
1.1 SAM的优势与局限性
优势
- 强大的零样本分割能力:可在不同领域(医学图像、遥感图像等)生成像素级分割块(patches)
- 高泛化性:无需微调即可适配多种下游任务(图像编辑、3D识别等)
局限性
- 缺乏语义感知:生成的patches无类别标签
- 过度分割问题:单个实例可能被切割成多个子块(如人体被分割为躯干/四肢)
- 计算效率低:直接处理大量patches的复杂度达O(N²)
1.2 现有方法缺陷
方法类型 | 代表工作 | 核心问题 |
---|---|---|
两阶段方法 | Grounded-SAM | 依赖外部检测器(如DINO)生成建议框,弱化SAM的核心价值 |
单阶段方法 | Semantic-SAM | 直接为patches分配标签,无法解决实例合并问题 |
关键挑战:如何在保留SAM零样本能力的同时,实现多粒度语义理解?
2. 本文解决方案
2.1 核心思路:可组合提示(Composable Prompts)
提出两类基础提示机制:
类型I提示(语义标记)
- 功能:判断patches是否匹配给定文本标签
- 数学表示:$S_{m,c}^{cls} = \frac{1}{s} \cdot \hat{Q}_m^{\top} \cdot \hat{e}_c + b$
类型II提示(实例合并)
- 功能:判断同类别patches是否属于同一实例
- 实现逻辑:通过亲和力矩阵(Affinity Matrix)动态合并相关patches
2.2 技术突破:统一亲和力框架
- 三大核心模块markdown
1. Patch Encoder:提取patches的视觉特征 2. Unified Affinity Decoder: - 语义查询(CLIP文本编码) - 实例查询(PasQ: Patch-as-Query) 3. 动态交叉注意力(DCA)与亲和力传播