参考博文:

1.Sci-Hub | Context-Aware Block Net for Small Object Detection | 10.1109/TCYB.2020.3004636 (et-fine.com)

今天看的这篇论文是吕培教授发表在IEEE TRANS上的Context-Aware Block Net for Small Object Detection,ok,开始进入正文

摘要

CABNet能够捕捉基本的视觉模式,也可以捕捉小物体的语义信息。看到这个,其实我也有点懵,基本的视觉模式是啥,搞不懂,这个得好好查查,还有就是如何捕捉的呢,那得继续看论文喽,毕竟这只是摘要

引言

文中引入文献,讲了几个近些年提升小目标检测性能的方法,第一种:用高分辨率特征图做预测,这样做是因为这些特征图能保留小目标的细节信息,如下图a所示,作者认为不可取,因为高分辨率特征图包含的上下文信息较少,会影响检测精度。第二种:如下图b所示,带有跳跃连接的自上而下的结构,能够在所有尺度上构建高级语义信息。这些引入了额外的上下文信息给高分辨率特征图,因此,提高了检测精度,然而,作者认为还是不可取,因为在训练和测试的时候计算开销很大,如果网络中使用了下采样,就会丢失小目标的信息,这是不可恢复的。

image-20220927153422183

有文献指出,对于小目标检测,高分辨率特征图的表征更适合准确定位目标,那为什么不保持更高分辨率的特征图(64×64)来检测小目标呢,如下图所示,主要的原因高分辨率特征图底层的神经元产生的感受野是有限的,也就是说,在特征图上包含的上下文信息也是受到限制的。

image-20220927154959945

因此,如下图c所示,在CABNet上,只会在骨干网络(文中指VGG16)上下采样几次,目的就是保持小目标的空间信息(未完。。。)

image-20220927155113203

相关工作

A目标检测

介绍了很多文献,总结下来就是小目标的检测性能之所以差劲,关键原因就是在一个深的网络里过度下采样了。

B小目标检测

由于内容太杂,简单说一下吧,里面介绍了前人的一些工作,比如,有人通过缩小小物体和大物体的表征差异来提升小目标的检测性能;有人通过简单的粘贴复制小目标多次提升性能;有人通过增加输入图片的大小来提升小目标的检测性能。

C空洞卷积

使用空洞卷积是能够丰富特征图的语义信息的,文章中提到了RFBNet使用空洞卷积保证了特征的可区分性和鲁棒性,受此启发,CAB通过不同扩张率的金字塔扩张卷积来包含多级上下文信息,如下图所示。

image-20220927160946040

思想

上下文模块