detection_survey
Loss函数的视角
分类 loss:
- Focal loss:用
- Rankings
定位 loss:
- IoU loss:
模型的发展
Anchor Based 方法
双阶段检测模型
核心思想:通过“粗筛候选区域”与“精细优化”两阶段提升检测精度。
-
R-CNN: 使用上古传统算法(如Selective Search)生成约2000个候选区域,对每个区域独立提取CNN特征;
- 通过SVM分类和边界框回归优化结果。
- 局限性:重复计算特征导致效率低下,且依赖人工设计的区域生成算法。
-
Fast R-CNN:
- 改进:共享卷积特征图,引入RoI Pooling层统一区域特征维度,减少冗余计算。
- 多任务损失:联合优化分类与回归任务,提升端到端性能。
-
Faster R-CNN:
- RPN网络:以滑动窗口方式在特征图上生成候选区域,替代传统算法,实现全卷积网络的端到端检测框架。
- 锚框机制:预设多尺度、多比例的参考框,适应不同目标形状,显著提升候选区域质量。
1.2 单阶段检测
核心思想:简化流程,直接从特征图预测目标框与类别,牺牲部分精度换取速度。
-
YOLO:
- 将图像划分为网格单元,每个单元预测多个边界框及类别概率,通过非线性激活函数强化全局特征关联。
- 局限性:对密集小目标检测效果较弱,易受背景干扰。
-
SSD:
- 在不同层级的特征图上预测目标,通过多尺度融合增强对小目标的敏感性。
- 改进:结合低层细节信息与高层语义信息,平衡速度与精度。
-
RetinaNet:
- Focal Loss:通过动态调整损失权重,抑制易分类样本的贡献,聚焦难例训练,解决单阶段模型中的类别不平衡问题。
2. Anchor Free 方法
核心思想:消除预设锚框的依赖,直接建模目标的关键点或区域。
-
FCOS:
- 逐像素预测:以目标中心点为基准,预测目标尺寸与偏移量,避免锚框匹配的复杂度。
- FPN集成:结合多尺度特征,增强对遮挡目标与极端尺度变化的鲁棒性。
-
FreeAnchor:
- 动态匹配策略:通过可学习的注意力机制,优化目标与预测框的匹配逻辑,提升定位精度。
-
优势:减少超参数(如锚框尺寸、比例)对模型性能的影响,适应开放场景的动态需求。
3. Transformer Based 方法
核心思想:利用自注意力机制捕获全局上下文信息,突破CNN局部感受野的限制。
-
DETR:
- 端到端框架:通过Transformer编码器-解码器结构直接输出预测框,结合二分图匹配损失消除NMS后处理。
- 位置编码:引入可学习的位置嵌入,补偿Transformer对空间信息的缺失。
-
Deformable DETR:
- 可变形注意力:仅关注关键采样点,降低计算复杂度,加速模型收敛,尤其改善小目标检测性能。
-
趋势:结合CNN的局部特征提取能力与Transformer的全局建模优势,形成混合架构(如CBNetV2)。
双阶段方法详解:R-CNN系列的技术演进
-
R-CNN:
- 特征冗余问题:每个候选区域独立通过CNN提取特征,导致数千次前向传播,计算效率极低。
- SVM分类的局限性:需额外训练分类器,与深度网络优化目标不一致。
-
Fast R-CNN:
- RoI Pooling:将不同尺寸的候选区域映射为固定大小的特征向量,但量化操作可能引入空间信息损失。
-
Faster R-CNN:
- RPN与检测头的协同:通过共享特征图,候选区域生成与目标检测联合优化,形成高效流水线。
- 锚框设计的启示:预设多尺度锚框的思想影响后续模型(如YOLOv3的多级预测)。
后处理方法的演进与挑战
非极大值抑制(NMS)
- 传统NMS的缺陷:对遮挡目标或密集排列目标易产生漏检(如人群检测)。
- 改进方向:
- 软NMS:通过衰减重叠框的置信度而非直接删除,缓解误抑制问题。
- 学习型NMS:将NMS建模为排序任务,通过网络学习抑制逻辑(如Relation Network)。
置信度阈值的平衡艺术
- 阈值选择的权衡:高阈值降低误报率但增加漏检风险,低阈值反之。
- 自适应阈值:基于目标类别分布动态调整阈值(如医疗影像中罕见病灶的检测)。
其他挑战
- 多类别NMS的优化:需针对不同类别独立执行NMS,计算复杂度随类别数线性增长。
- 端到端替代方案:DETR通过匈牙利匹配算法直接输出最优预测框,彻底摒弃后处理。