(CVPR-2019)选择性的内核网络

网友投稿 602 2022-10-12

(CVPR-2019)选择性的内核网络

(CVPR-2019)选择性的内核网络

选择性的内核网络

paper题目:Selective Kernel Networkspaper是南京理工大学发表在CVPR 2019的工作paper​​链接​​Code:​​链接​​

Abstract

在标准的卷积神经网络(CNN)中,每层的人工神经元的感受野被设计成具有相同的大小。在神经科学界众所周知,视觉皮层神经元的感受野大小受刺激的调节,这在构建CNN时很少被考虑。我们提出了一种CNN中的动态选择机制,允许每个神经元根据输入信息的多个尺度来适应性地调整其感受野的大小。我们设计了一个叫做选择性核(SK)单元的构件,其中具有不同核大小的多个分支在这些分支的信息指导下,使用softmax注意力进行融合。对这些分支的不同关注产生了融合层中神经元的有效感受野的不同大小。多个SK单元被堆叠成一个深度网络,称为选择性核网络(SKNets)。在ImageNet和CIFAR基准上,我们的经验表明,SKNet以较低的模型复杂度超越了现有的最先进的架构。详细的分析表明,SKNet中的神经元可以捕获不同尺度的目标物体,这验证了神经元根据输入自适应调整其感受野大小的能力。

1. Introduction

然而,在设计CNN时,皮层神经元的其他一些RF特性还没有被强调,其中一个特性就是RF大小的适应性变化。大量的实验证据表明,视觉皮层中神经元的RF大小不是固定的,而是受刺激的调节。V1区神经元的经典RF(CRF)是由Hubel和Wiesel[14]发现的,是由单个定向条确定的。后来,许多研究(如[30])发现,CRF之外的刺激也会影响神经元的反应。这些神经元被称为具有非经典RFs(nCRFs)。此外,nCRF的大小与刺激的对比度有关:对比度越小,有效的nCRF大小就越大[37]。令人惊讶的是,通过刺激nCRF一段时间,去除这些刺激后,神经元的CRF也会扩大[33]。所有这些实验表明,神经元的RF大小不是固定的,而是受刺激调制的[38]。遗憾的是,在构建深度学习模型时,这一特性并没有得到太多的关注。那些在同一层有多尺度信息的模型,如InceptionNets,有一个固有的机制,可以根据输入的内容调整下一个卷积层中神经元的RF大小,因为下一个卷积层会线性地聚合来自不同分支的多尺度信息。但这种线性聚合的方法可能不足以为神经元提供强大的适应能力。

在本文中,我们提出了一种非线性方法,从多个内核中聚合信息,实现神经元的自适应RF大小。我们引入了 “选择性内核”(SK)卷积,它由三组运算符组成。分裂、融合和选择。分裂运算符产生具有不同内核大小的多个路径,对应于神经元的不同RF大小。融合运算符结合并汇总来自多条路径的信息,以获得选择权重的全局和综合表示。选择运算符根据选择权重聚合不同大小的内核的特征图。

SK卷积在计算上可以是轻量级的,并且只在参数和计算成本上有轻微增加。我们表明,在ImageNet 2012数据集[35]上,SKNets优于之前最先进的模型,其模型复杂度相似。基于SKNet50,我们找到了SK卷积的最佳设置,并展示了每个组件的贡献。为了证明其普遍适用性,我们还在较小的数据集CIFAR-10和100[22]上提供了令人信服的结果,并成功地将SK嵌入小型模型(如ShuffleNetV2[27])中。

为了验证所提出的模型确实具有调整神经元RF大小的能力,我们通过放大自然图像中的目标物体和缩小背景以保持图像大小不变来模拟刺激。结果发现,当目标物体越来越大时,大多数神经元从较大的内核路径收集的信息越来越多。这些结果表明,所提出的SKNet中的神经元具有自适应的RF大小,这可能是该模型在物体识别方面的优异表现的基础。

2. Related Work

多分支卷积网络。Highway网络[39]引入了跳过路径和门控单元。双分支结构减轻了训练数百层网络的难度。这个想法也被用于ResNet[9, 10],但跳过路径是纯恒等映射。除了恒等映射,摇摆网络[7]和多残差网络[1]用更多的相同路径扩展了主要的转换。深度神经决策森林[21]形成了具有学习分裂函数的树状结构多分支原理。FractalNets[25]和Multilevel ResNets[52]的设计方式是可以将多条路径进行分形和递归式扩展。InceptionNets[42, 15, 43, 41]用定制的内核过滤器仔细配置每个分支,以便聚合更多的信息和多种特征。请注意,所提出的SKNets遵循InceptionNets的思想,对多个分支配置各种过滤器,但至少在两个重要方面有所不同。1)SKNets的方案要简单得多,不需要大量的定制设计;2)利用这些多分支的自适应选择机制来实现神经元的自适应RF大小。

分组/深度/扩张卷积。分组卷积由于计算成本低而变得流行。用 G 表示组大小,那么与普通卷积相比,参数个数和计算成本都将除以 G。它们首先在 AlexNet [23] 中采用,目的是将模型分布在更多的 GPU 资源上。令人惊讶的是,使用分组卷积,ResNeXts [47] 还可以提高准确性。这个 G 称为“基数”,它与深度和宽度一起表征模型。

基于交错分组卷积开发了许多紧凑模型,例如 IGCV1 [53]、IGCV2 [46] 和 IGCV3 [40]。分组卷积的一个特例是深度卷积,其中组数等于通道数。 Xception [3] 和 MobileNetV1 [11] 引入了depthwise separable convolution,将普通卷积分解为depthwise convolution 和pointwise convolution。在 MobileNetV2 [36] 和 ShuffleNet [54, 27] 等后续工作中验证了深度卷积的有效性。除了分组/深度卷积之外,空洞卷积 [50, 51] 支持 RF 的指数扩展而不会丢失覆盖范围。例如,具有扩张 2 的 3×3 卷积可以大约覆盖 5×5 滤波器的 RF,同时消耗不到一半的计算和内存。在 SK 卷积中,较大尺寸(例如,>1)的内核被设计为与分组/深度/扩张卷积集成,以避免大量开销。

注意力机制。最近,注意力机制的好处已经在一系列的任务中显示出来,从自然语言处理中的神经机器翻译[2]到图像理解中的图像说明[49]。它偏重于最有信息量的特征表达的分配[16, 17, 24, 28, 31],同时抑制不太有用的表达。注意力在最近的应用中被广泛使用,如行人重识别[4]、图像恢复[55]、文本抽象[34]和读唇[48]。为了提高图像分类的性能,Wang等人[44]提出了一个CNN中间阶段之间的基线和掩码注意力。一个沙漏模块被引入以实现跨空间和通道维度的全局强调。此外,SENet[12]带来了一个有效的、轻量级的门控机制,通过通道导向的导入来自我校准特征图。除了通道之外,BAM[32]和CBAM[45]也以类似的方式引入空间注意力。相比之下,我们提出的SKNets是第一个通过引入注意力机制而明确关注神经元的自适应RF大小。

动态卷积。空间变换网络 [18] 学习参数变换来扭曲特征图,这被认为难以训练。动态滤波器[20]只能自适应地修改滤波器的参数,而无需调整内核大小。主动卷积[19]用偏移量增加了卷积中的采样位置。这些偏移量是端到端学习的,但在训练后变成静态的,而在 SKNet 中,神经元的 RF 大小可以在推理过程中自适应地改变。可变形卷积网络 [6] 进一步使位置偏移动态化,但它不像 SKNet 那样聚合多尺度信息。

3. Methods

3.1. Selective Kernel Convolution

为了使神经元能够自适应地调整它们的 RF 大小,我们提出了一种自动选择操作,即“选择性内核”(SK)卷积,在具有不同内核大小的多个内核中。具体来说,我们通过三个运算符实现 SK 卷积——Split、Fuse 和 Select,如图 1 所示,其中显示了两个分支的情况。因此在这个例子中,只有两个内核大小不同的内核,但是很容易扩展到多个分支的情况。

图 1. 选择性内核卷积。

Fuse:如引言中所述,我们的目标是使神经元能够根据刺激内容自适应地调整其 RF 大小。其基本思想是使用门来控制来自多个分支的信息流,这些分支携带不同规模的信息进入下一层的神经元。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:1223. 掷骰子模拟 范围DP
下一篇:Gitter for GitHub - 可能是目前颜值最高的GitHub小程序客户端(glitter green)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~