注意力机制 注意力机制就是让网络关注到它更需要关注的地方,是一种网络自适应注意的方式。注意力机制可以分为通道注意力,空间注意力以及二者的结合。
相关论文 2017年提出的SENet是最后一届ImageNet竞赛的冠军,其实现示意图如下所示,对于输入进来的特征层,我们关注其每一个通道的权重,对于SENet而言,其重点是获得输入进来的特征层,每一个通道的权值。利用SENet,我们可以让网络关注它最需要关注的通道。
其具体实现方式就是: 1、对输入进来的特征层进行全局平均池化。 2、然后进行两次全连接,第一次全连接神经元个数较少,第二次全连接神经元个数和输入特征层相同。 3、在完成两次全连接后,我们再取一次Sigmoid将值固定到0-1之间,此时我们获得了输入特征层每一个通道的权值(0-1之间)。 4、在获得这个权值后,我们将这个权值乘上原输入特征层即可。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 import torchimport torch.nn as nnimport mathclass se_block (nn.Module): def __init__ (self, channel, ratio=16 ): super (se_block, self).__init__() self.avg_pool = nn.AdaptiveAvgPool2d(1 ) self.fc = nn.Sequential( nn.Linear(channel, channel // ratio, bias=False ), nn.ReLU(inplace=True ), nn.Linear(channel // ratio, channel, bias=False ), nn.Sigmoid() ) def forward (self, x ): b, c, _, _ = x.size() y = self.avg_pool(x).view(b, c) y = self.fc(y).view(b, c, 1 , 1 ) return x * y
CBAM将通道注意力机制和空间注意力机制 进行一个结合,相比于SENet只关注通道的注意力机制 可以取得更好的效果。其实现示意图如下所示,CBAM会对输入进来的特征层,分别进行通道注意力机制的处理和空间注意力机制的处理 。
下图是通道注意力机制和空间注意力机制的具体实现方式: 图像的上半部分为通道注意力机制,通道注意力机制的实现可以分为两个部分,我们会对输入进来的单个特征层,分别进行全局平均池化和全局最大池化。之后对平均池化和最大池化的结果,利用共享的全连接层进行处理,我们会对处理后的两个结果进行相加,然后取一个sigmoid,此时我们获得了输入特征层每一个通道的权值(0-1之间)。在获得这个权值后,我们将这个权值乘上原输入特征层即可。
图像的下半部分为空间注意力机制,我们会对输入进来的特征层,在每一个特征点的通道上取最大值和平均值。之后将这两个结果进行一个堆叠,利用一次通道数为1的卷积调整通道数,然后取一个sigmoid,此时我们获得了输入特征层每一个特征点的权值(0-1之间)。在获得这个权值后,我们将这个权值乘上原输入特征层即可。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 class ChannelAttention (nn.Module): def __init__ (self, in_planes, ratio=8 ): super (ChannelAttention, self).__init__() self.avg_pool = nn.AdaptiveAvgPool2d(1 ) self.max_pool = nn.AdaptiveMaxPool2d(1 ) self.fc1 = nn.Conv2d(in_planes, in_planes // ratio, 1 , bias=False ) self.relu1 = nn.ReLU() self.fc2 = nn.Conv2d(in_planes // ratio, in_planes, 1 , bias=False ) self.sigmoid = nn.Sigmoid() def forward (self, x ): avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x)))) max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x)))) out = avg_out + max_out return self.sigmoid(out) class SpatialAttention (nn.Module): def __init__ (self, kernel_size=7 ): super (SpatialAttention, self).__init__() assert kernel_size in (3 , 7 ), 'kernel size must be 3 or 7' padding = 3 if kernel_size == 7 else 1 self.conv1 = nn.Conv2d(2 , 1 , kernel_size, padding=padding, bias=False ) self.sigmoid = nn.Sigmoid() def forward (self, x ): avg_out = torch.mean(x, dim=1 , keepdim=True ) max_out, _ = torch.max (x, dim=1 , keepdim=True ) x = torch.cat([avg_out, max_out], dim=1 ) x = self.conv1(x) return self.sigmoid(x) class cbam_block (nn.Module): def __init__ (self, channel, ratio=8 , kernel_size=7 ): super (cbam_block, self).__init__() self.channelattention = ChannelAttention(channel, ratio=ratio) self.spatialattention = SpatialAttention(kernel_size=kernel_size) def forward (self, x ): x = x * self.channelattention(x) x = x * self.spatialattention(x) return x
ECANet是也是通道注意力机制的一种实现形式。ECANet可以看作是SENet的改进版。 ECANet的作者认为SENet对通道注意力机制的预测带来了副作用,捕获所有通道的依赖关系是低效并且是不必要的。 在ECANet的论文中,作者认为卷积具有良好的跨通道信息获取能力。
ECA模块的思想是非常简单的,它去除了原来SE模块中的全连接层,直接在全局平均池化之后的特征上通过一个1D卷积进行学习。
既然使用到了1D卷积,那么1D卷积的卷积核大小的选择就变得非常重要了,了解过卷积原理的同学很快就可以明白,1D卷积的卷积核大小会影响注意力机制每个权重的计算要考虑的通道数量。用更专业的名词就是跨通道交互的覆盖率。
如下图所示,左图是常规的SE模块,右图是ECA模块。ECA模块用1D卷积替换两次全连接。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 class eca_block (nn.Module): def __init__ (self, channel, b=1 , gamma=2 ): super (eca_block, self).__init__() kernel_size = int (abs ((math.log(channel, 2 ) + b) / gamma)) kernel_size = kernel_size if kernel_size % 2 else kernel_size + 1 self.avg_pool = nn.AdaptiveAvgPool2d(1 ) self.conv = nn.Conv1d(1 , 1 , kernel_size=kernel_size, padding=(kernel_size - 1 ) // 2 , bias=False ) self.sigmoid = nn.Sigmoid() def forward (self, x ): y = self.avg_pool(x) y = self.conv(y.squeeze(-1 ).transpose(-1 , -2 )).transpose(-1 , -2 ).unsqueeze(-1 ) y = self.sigmoid(y) return x * y.expand_as(x)
Mobile Network设计的最新研究成果表明,通道注意力(例如,SE注意力)对于提升模型性能具有显著效果,但它们通常会忽略位置信息,而位置信息对于生成空间选择性attention maps是非常重要。
coordinate注意力将通道注意力分解为两个1维特征编码过程,分别沿2个空间方向聚合特征。这样,可以沿一个空间方向捕获远程依赖关系,同时可以沿另一空间方向保留精确的位置信息。然后将生成的特征图分别编码为一对方向感知和位置敏感的attention map,可以将其互补地应用于输入特征图,以增强关注对象的表示。
如下图所示,Coordinate Attention通过精确的位置信息对通道关系和长期依赖性进行编码,具体操作分为Coordinate信息嵌入和Coordinate Attention生成2个步骤。
实现代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 import torchfrom torch import nnclass CA_Block (nn.Module): def __init__ (self, channel, h, w, reduction=16 ): super (CA_Block, self).__init__() self.h = h self.w = w self.avg_pool_x = nn.AdaptiveAvgPool2d((h, 1 )) self.avg_pool_y = nn.AdaptiveAvgPool2d((1 , w)) self.conv_1x1 = nn.Conv2d(in_channels=channel, out_channels=channel//reduction, kernel_size=1 , stride=1 , bias=False ) self.relu = nn.ReLU() self.bn = nn.BatchNorm2d(channel//reduction) self.F_h = nn.Conv2d(in_channels=channel//reduction, out_channels=channel, kernel_size=1 , stride=1 , bias=False ) self.F_w = nn.Conv2d(in_channels=channel//reduction, out_channels=channel, kernel_size=1 , stride=1 , bias=False ) self.sigmoid_h = nn.Sigmoid() self.sigmoid_w = nn.Sigmoid() def forward (self, x ): x_h = self.avg_pool_x(x).permute(0 , 1 , 3 , 2 ) x_w = self.avg_pool_y(x) x_cat_conv_relu = self.relu(self.conv_1x1(torch.cat((x_h, x_w), 3 ))) x_cat_conv_split_h, x_cat_conv_split_w = x_cat_conv_relu.split([self.h, self.w], 3 ) s_h = self.sigmoid_h(self.F_h(x_cat_conv_split_h.permute(0 , 1 , 3 , 2 ))) s_w = self.sigmoid_w(self.F_w(x_cat_conv_split_w)) out = x * s_h.expand_as(x) * s_w.expand_as(x) return out if __name__ == '__main__' : x = torch.randn(1 , 16 , 128 , 64 ) ca_model = CA_Block(channel=16 , h=128 , w=64 ) y = ca_model(x) print (y.shape)
注意力机制的应用 注意力机制是一个即插即用的模块,理论上可以放在任何一个特征层后面,可以放在主干网络,也可以放在加强特征提取网络。
由于放置在主干会导致网络的预训练权重无法使用,本文以YoloV4-tiny为例,将注意力机制应用加强特征提取网络上。
如下图所示,我们在主干网络提取出来的两个有效特征层上增加了注意力机制,同时对上采样后的结果增加了注意力机制。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 attention_block = [se_block, cbam_block, eca_block] class YoloBody (nn.Module): def __init__ (self, anchors_mask, num_classes, phi=0 ): super (YoloBody, self).__init__() self.phi = phi self.backbone = darknet53_tiny(None ) self.conv_for_P5 = BasicConv(512 ,256 ,1 ) self.yolo_headP5 = yolo_head([512 , len (anchors_mask[0 ]) * (5 + num_classes)],256 ) self.upsample = Upsample(256 ,128 ) self.yolo_headP4 = yolo_head([256 , len (anchors_mask[1 ]) * (5 + num_classes)],384 ) if 1 <= self.phi and self.phi <= 3 : self.feat1_att = attention_block[self.phi - 1 ](256 ) self.feat2_att = attention_block[self.phi - 1 ](512 ) self.upsample_att = attention_block[self.phi - 1 ](128 ) def forward (self, x ): feat1, feat2 = self.backbone(x) if 1 <= self.phi and self.phi <= 3 : feat1 = self.feat1_att(feat1) feat2 = self.feat2_att(feat2) P5 = self.conv_for_P5(feat2) out0 = self.yolo_headP5(P5) P5_Upsample = self.upsample(P5) if 1 <= self.phi and self.phi <= 3 : P5_Upsample = self.upsample_att(P5_Upsample) P4 = torch.cat([P5_Upsample,feat1],axis=1 ) out1 = self.yolo_headP4(P4) return out0, out1 ———————————————— 版权声明:本文为CSDN博主「Bubbliiiing」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/weixin_44791964/article/details/121371986