参考博文:
今天看的这篇论文是吕培教授发表在IEEE TRANS上的Context-Aware Block Net for Small Object Detection
,ok,开始进入正文
摘要
CABNet能够捕捉基本的视觉模式,也可以捕捉小物体的语义信息。看到这个,其实我也有点懵,基本的视觉模式是啥,搞不懂,这个得好好查查,还有就是如何捕捉的呢,那得继续看论文喽,毕竟这只是摘要
引言
文中引入文献,讲了几个近些年提升小目标检测性能的方法,第一种:用高分辨率特征图做预测,这样做是因为这些特征图能保留小目标的细节信息,如下图a所示,作者认为不可取,因为高分辨率特征图包含的上下文信息较少,会影响检测精度。第二种:如下图b所示,带有跳跃连接的自上而下的结构,能够在所有尺度上构建高级语义信息。这些引入了额外的上下文信息给高分辨率特征图,因此,提高了检测精度,然而,作者认为还是不可取,因为在训练和测试的时候计算开销很大,如果网络中使用了下采样,就会丢失小目标的信息,这是不可恢复的。
有文献指出,对于小目标检测,高分辨率特征图的表征更适合准确定位目标,那为什么不保持更高分辨率的特征图(64×64)来检测小目标呢,如下图所示,主要的原因高分辨率特征图底层的神经元产生的感受野是有限的,也就是说,在特征图上包含的上下文信息也是受到限制的。
因此,如下图c所示,在CABNet上,只会在骨干网络(文中指VGG16)上下采样几次,目的就是保持小目标的空间信息(未完。。。)
相关工作
A目标检测
介绍了很多文献,总结下来就是小目标的检测性能之所以差劲,关键原因就是在一个深的网络里过度下采样了。
B小目标检测
由于内容太杂,简单说一下吧,里面介绍了前人的一些工作,比如,有人通过缩小小物体和大物体的表征差异来提升小目标的检测性能;有人通过简单的粘贴复制小目标多次提升性能;有人通过增加输入图片的大小来提升小目标的检测性能。
C空洞卷积
使用空洞卷积是能够丰富特征图的语义信息的,文章中提到了RFBNet使用空洞卷积保证了特征的可区分性和鲁棒性,受此启发,CAB通过不同扩张率的金字塔扩张卷积来包含多级上下文信息,如下图所示。