detection_survey

Loss函数的视角

分类 loss:

  • Focal loss:用
  • Rankings

定位 loss:

  • IoU loss:

模型的发展

Anchor Based 方法

双阶段检测模型

核心思想:通过“粗筛候选区域”与“精细优化”两阶段提升检测精度。

  • R-CNN: 使用上古传统算法(如Selective Search)生成约2000个候选区域,对每个区域独立提取CNN特征;

    1. 通过SVM分类和边界框回归优化结果。
    • 局限性:重复计算特征导致效率低下,且依赖人工设计的区域生成算法。
  • Fast R-CNN

    • 改进:共享卷积特征图,引入RoI Pooling层统一区域特征维度,减少冗余计算。
    • 多任务损失:联合优化分类与回归任务,提升端到端性能。
  • Faster R-CNN

    • RPN网络:以滑动窗口方式在特征图上生成候选区域,替代传统算法,实现全卷积网络的端到端检测框架。
    • 锚框机制:预设多尺度、多比例的参考框,适应不同目标形状,显著提升候选区域质量。

1.2 单阶段检测

核心思想:简化流程,直接从特征图预测目标框与类别,牺牲部分精度换取速度。

  • YOLO

    • 将图像划分为网格单元,每个单元预测多个边界框及类别概率,通过非线性激活函数强化全局特征关联。
    • 局限性:对密集小目标检测效果较弱,易受背景干扰。
  • SSD

    • 在不同层级的特征图上预测目标,通过多尺度融合增强对小目标的敏感性。
    • 改进:结合低层细节信息与高层语义信息,平衡速度与精度。
  • RetinaNet

    • Focal Loss:通过动态调整损失权重,抑制易分类样本的贡献,聚焦难例训练,解决单阶段模型中的类别不平衡问题。

2. Anchor Free 方法

核心思想:消除预设锚框的依赖,直接建模目标的关键点或区域。

  • FCOS

    • 逐像素预测:以目标中心点为基准,预测目标尺寸与偏移量,避免锚框匹配的复杂度。
    • FPN集成:结合多尺度特征,增强对遮挡目标与极端尺度变化的鲁棒性。
  • FreeAnchor

    • 动态匹配策略:通过可学习的注意力机制,优化目标与预测框的匹配逻辑,提升定位精度。
  • 优势:减少超参数(如锚框尺寸、比例)对模型性能的影响,适应开放场景的动态需求。


3. Transformer Based 方法

核心思想:利用自注意力机制捕获全局上下文信息,突破CNN局部感受野的限制。

  • DETR

    • 端到端框架:通过Transformer编码器-解码器结构直接输出预测框,结合二分图匹配损失消除NMS后处理。
    • 位置编码:引入可学习的位置嵌入,补偿Transformer对空间信息的缺失。
  • Deformable DETR

    • 可变形注意力:仅关注关键采样点,降低计算复杂度,加速模型收敛,尤其改善小目标检测性能。
  • 趋势:结合CNN的局部特征提取能力与Transformer的全局建模优势,形成混合架构(如CBNetV2)。


双阶段方法详解:R-CNN系列的技术演进

  1. R-CNN

    • 特征冗余问题:每个候选区域独立通过CNN提取特征,导致数千次前向传播,计算效率极低。
    • SVM分类的局限性:需额外训练分类器,与深度网络优化目标不一致。
  2. Fast R-CNN

    • RoI Pooling:将不同尺寸的候选区域映射为固定大小的特征向量,但量化操作可能引入空间信息损失。
  3. Faster R-CNN

    • RPN与检测头的协同:通过共享特征图,候选区域生成与目标检测联合优化,形成高效流水线。
    • 锚框设计的启示:预设多尺度锚框的思想影响后续模型(如YOLOv3的多级预测)。

后处理方法的演进与挑战

非极大值抑制(NMS)

  • 传统NMS的缺陷:对遮挡目标或密集排列目标易产生漏检(如人群检测)。
  • 改进方向
    • 软NMS:通过衰减重叠框的置信度而非直接删除,缓解误抑制问题。
    • 学习型NMS:将NMS建模为排序任务,通过网络学习抑制逻辑(如Relation Network)。

置信度阈值的平衡艺术

  • 阈值选择的权衡:高阈值降低误报率但增加漏检风险,低阈值反之。
  • 自适应阈值:基于目标类别分布动态调整阈值(如医疗影像中罕见病灶的检测)。

其他挑战

  • 多类别NMS的优化:需针对不同类别独立执行NMS,计算复杂度随类别数线性增长。
  • 端到端替代方案:DETR通过匈牙利匹配算法直接输出最优预测框,彻底摒弃后处理。