channel attention(深度学习attention map的中文意思是什么)
本文目录
- 深度学习attention map的中文意思是什么
- CVPR 2021 | 用于动作识别,即插即用、混合注意力机制的 ACTION 模块
- ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 笔记
深度学习attention map的中文意思是什么
深度学习attention map的中文意思是注意力地图,也就是注意力聚焦的信息范围。
CVPR 2021 | 用于动作识别,即插即用、混合注意力机制的 ACTION 模块
分享一篇来自 CVPR 2021 的文章,ACTION-Net: Multipath Excitation for Action Recognition。作者单位:都柏林圣三一大学,字节跳动 AI Lab。
论文中提出一个即插即用的混合注意力机制的 ACTION 模块用于时序动作识别 (比如手势)。该模块包含了时空注意力,信道注意力和运动注意力。
详细信息如下:
01
时空注意力 (Spatial-Temporal Excitation: STE) :通过对所有信道做一个global average pooling,能够用一个单信道的3x3x3的**卷积得到一个单信道的时空attention map,这使得能够用非常小的计算量来得到一个时空attention map。用这个attention map再点乘输入的feature得到相对应被时空信息激发的特征。
信道注意力 (Channel Excitation: CE): 这个block是基于SE-Net的SE block。但因为视频动作中含有时序信息,所以在信道的squeeze和unsqueeze之间插入了1D在时域上的卷积来增强信道在时域上的相互依赖程度。和SE一样,可以得到一个基于信道的attention map。和STE一样,用得到的 attention map 点乘输入的feature的信道激发特征。
运动注意力 (Motion Excitation: ME): ME在之前的工作如STM和TEA都有采用。主要是描述每相邻两帧之间动作的移动,这一点和optical flow很像。采用和之前工作中的ME结构并把它作为一个分支和之前提到两个block并联得到ACTION模块。
02
ACTION模块是由以上提到的三个注意力模块并联而成。这个模块和之前的工作TSM一样,即插即用。在和state-of-the-art的方法比较中,backbone采用了和之前工作相同的ResNet-50作为比较。同时,以TSN和TSM为baseline测试了ACTION在不同backbone (ResNet-50, MobileNet V2, BN-Inception) 上的性能。
03
实验分别用了三个侧重于时序动作的视频数据集: Something-Something V2, Jester, EgoGesture 来测试提出的 ACTION 模块。
3.1Comparison to State-of-the-Art
从下表中可以看出 ACTION 在 Jester 和 EgoGesture 上面的表现还是十分优越的,都取得了 state-of-the-art 的效果。在 Something V2 的数据集上面相比较 STM 和 TEA 也取得了很相近的效果。
但值得注意的是,STM 和 TEA 都是分别针对于 ResNet 和 Res2Net 设计的,而 ACTION 是一个即插即用的模块,不会受限于 backbone 种类。据悉作者会在之后展示在 MobileNet V2 和 BN-Inception 上的效果。
3.2Ablation Studies
定义了一个效率系数来量化 ACTION 模块相对于 TSM 每提高 1% 的 Top-1 准确率所需增加的额外计算量。越低代表效率越高。下图展示了 ACTION在三个不同数据集上对于三个 backbone 的效率。可以看到 ACTION 在MobileNet V2 上的效率最为明显。类似的,在 Something-Something V2 上的效率相较于另外两个数据集要高。
ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 笔记
这是发在 CVPR 2020 上的文章。
最近,通道注意力机制被证明在提高深度CNNs表现上具有很高的前景。但是,大多数现有方法都致力于开发 更复杂的注意力模块 以实现更好的性能,这不可避免地会 增加模型的复杂性。
为了平衡表现性和复杂性,这篇文章提出了一个有效的通道注意力模型(Efficient Channel Attention,ECA),它仅涉及少数几个参数,同时带来明显的性能提升。通过剖析SENet中的通道注意模块,我们从经验上表明 避免降维 对于学习通道注意很重要,并且 适当的跨通道交互 可以在保持性能的同时显着降低模型的复杂性。
因此,提出了一个 没有降维的局部的跨通道交互策略 ,其可以通过1D卷积有效的实施。此外,开发了一种方法来 自适应选择一维卷积的核大小 ,确定局部跨通道交互的覆盖范围。
近来,将通道注意力纳入卷积块引起了广泛的兴趣,显示出在性能改进方面的巨大潜力。其中代表性的方法之一是 squeeze-and-excitation 网络(SENet),它可以学习每个卷积块的通道注意力,从而为各种深层的CNN架构带来明显的性能提升。
在SENet设置挤压(即特征聚合)和激励(即特征重新校准)之后,一些研究者通过捕获更复杂的成对依赖的通道或者是联合空间注意力来增强SE块。尽管这些方法获得了更高的准确率, 但是他们往往带来了更复杂的模型,并且带来了更重的计算负担。
与前面提到的以更高的模型复杂度为代价来实现更好的性能的方法不同,本文重点关注的问题是: 是否可以以一种更有效的方式来学习有效的渠道注意力?
为了回答这个问题,首先重新访问SENet中的通道关注模块。具体来说,给定输入功能,SE块首先为每个通道依赖采用全局平均池,然后是两个具有非线性的全连接(FC)层,然后是Sigmoid函数用于生成通道权重。这两个FC层被设计捕获非线性跨通道交互,其中涉及降维以控制模型复杂性。尽管这个策略被广泛使用,作者的经验研究认为降维为通道注意力带来了负面影响,并且它对捕获所以通道的依赖性来说不是有效也不是必要的。
因此,这篇文章提出了ECA,旨在以一个有效的方式来捕获跨通道交互并且避免降维。
如图2所示,没有降维,在对通道对进行全局平均池化之后,文章的ECA通过考虑每一个通道和其 邻居来捕获一个局部跨通道交互。
其中GAP是全局平均池化,把一个特征图求平均值,从一个 变成
注意到ECA能够通过核为 的快速1D卷积有效实现,其中 表示这个局部交叉跨通道交互的范围,即,多少邻居参与一个通道的注意力预测。为了避免通过交叉验证手动调整 ,作者开发了一种自适应确定 的方法,其中 交互作用的覆盖范围(即内核大小 )与通道成比例。
如图1和表3所示,相对对于骨干模型,带有我们的ECA模块(称为ECA-Net)的深层CNN引入了很少的附加参数和可忽略的计算,同时带来了显着的性能提升。
例如,对于ResNet-50,24.37M参数和3.86 GFLOP,ECA-Net50的附加参数和计算分别为80和4.7e-4GFLOP;同时,在Top-1准确性方面,ECA-Net50优于ResNet-50 2.28%。
表1总结了现有的关注模块,包括渠道降维(DR),跨渠道互动和轻量级模型方面,可以看到,ECA模块通过避免渠道降维而捕获了有效的渠道关注,同时以极轻量的方式捕获了跨渠道互动方式。
这篇文章的贡献:
注意力机制被证明是提高深度CNNs的一个方法。SENet首次提出了一种有效的机制来学习通道注意力并获得有希望的性能。
注意力机制能够被分为两个方向:
是一个卷积块的输出。
在SE块中,通道的权重计算方式是:
其中, 是通道对的全局平均池化(GAP)并且 是 Sigmoid 函数。
让 来自于
为了避免高的模型复杂性, 的大小分别是 , 。我们能够看见 包含了所有参数。而等式(2)中的降维可以减少模型的复杂性,它破坏了通道与其权重之间的直接对应关系。
为了验证以上的分析,比较了原始SE具有三个变体(即SE-Var1,SE-Var2和SEVar3)的块,它们都不执行降维。
让这个增强的特征 没有降维,通道特征能够被学习为:
特别地,对于 以及 ,
这个主要不同在于,SE-Var3考虑道路跨通道交互,而SE-Var2没有,因此,SE-Var3的效果好。
这个结果说明了跨通道交互对于学习通道注意力有利。
然而SE-Var3要求的参数多,导致了高的复杂度。
SE-Var2和SE-Var3之间可能的折衷方案是将 扩展到块对角矩阵,即把通道数变成 个图,每一个图包含 个通道数。
包含了 个参数。
SE-Var2,SE-Var3,公式5分别属于深度可分离卷积,FC,块卷积(group convoluti***)。
然而,过多的快卷积会增加内存,访问成本,从而降低了计算效率。
在本文中,探索了另一种捕获本地跨渠道交互的方法,旨在保证效率和有效性。
具体来说,我们采用波段矩阵 来学习通道关注度,并且 为
至于式(6),仅通过考虑 与它的 个邻居之间的相互作用来计算 的权重,即
其中,Ωki表示yi的k个相邻通道的集合。
一个更有效的方法是让所有通道分享权重,
其中,C1D 指的是1D卷积。该方法只有 个参数。
需要确定1D卷积核的大小 。
通过交叉验证需要花费大量的计算资源。
块卷积已成功地用于改善CNN架构,在给定固定组数的情况下,高维(低维)通道涉及长距离(短程)卷积。
共享相似的原理,交互作用的覆盖范围(即一维卷积的内核大小k)与通道维C成正比是合理的。换句话说,存在一个在 和 之间的映射 :
最简单的映射是线性函数,也就是 。但是线性函数有很多限制。另一方面,众所周知,信道尺寸C(即滤波器的数量)通常被设置为2的幂。因此:
其中, 表示与 最近的奇数。
在这篇文章中, 为2, 为1。
参考资料:
ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks
更多文章:
struts iteretor radio(求问在js中要如何获取Struts2单选按钮标签s:radio的值 ,谢谢)
2026年4月12日 17:00
oracle中count的用法(Oracle 中count 和count 的区别)
2026年4月12日 16:20
unicode编码格式转换(utf8的3字节转unicode)
2026年4月12日 16:00
channel attention(深度学习attention map的中文意思是什么)
2026年4月12日 15:00
怎样把字符串转化成数组(vue.js怎么把字符串转化为数组)
2026年4月12日 14:00





