这是卷积神经网络的终结吗?

网友投稿 1033 2022-11-23

这是卷积神经网络的终结吗?

这是卷积神经网络的终结吗?

文章目录

​​前言​​​​卷积神经网络的问题​​​​Transformers​​​​模型结构​​​​重点​​​​结果​​

前言

近十年来,卷积神经网络一直主导着全球的计算机视觉研究。然而,人们提出了一种新的方法,利用变压器的能量来理解图像。变压器最初是为自然语言处理任务设计的,主要关注神经机器翻译。来自谷歌Research的Alexey Dosovitskiy, Lucas Beyer等人的论文《An Image is Worth 16x16 Words: Transformer for Image Recognition at Scale》提出了一种名为Vision Transformer (ViT)的架构,利用变压器来处理图像数据。在本文中,我将尝试解释它是如何工作的。

卷积神经网络的问题

在我们深入研究视觉变压器的方法之前,有必要分析卷积神经网络的缺点和根本缺陷。首先,cnn无法对相对空间信息进行编码。我们的意思是,它关注于检测某些特征,而不考虑它们之间的相对位置。

CNN的另一个主要缺陷是池化层。池化层丢失了许多有价值的信息,比如最活跃的特征检测器的精确位置。换句话说,它不能传达被检测到的特征在图像中的确切位置。

Transformers

模型结构

现在,这些嵌入的小块经过多层交替的多头自我注意,多层感知器(简单的前馈神经网络)和层归一化,就像在一个普通的变压器。在变压器编码器的末端附加分类头,以预测最终的类。与任何其他卷积模型一样,我们可以使用预先训练的编码器库,并附加一个定制的MLP层来微调模型,以适应它们的分类任务。

重点

作者在各种标准数据集上训练了这个模型,如ImageNet、cifare10 /100和jpt - 300m, jpt - 300m是谷歌拥有的私有数据集,拥有3亿张高分辨率图像。与其他最先进的卷积模型相比,他们的模型具有大致相同的精度(在许多情况下甚至略高),但显著减少了训练时间(减少了大约75%),并且使用了更少的硬件资源。

ViT的另一个优势是,它可以很早就了解到更高层次的关系,因为它使用的是全局的注意力而不是局部的。甚至在最开始的时候,你就可以注意到与卷积神经网络不同的遥远事物。

除了在训练过程中非常高效,随着训练数据的增加,它也变得越来越好。

结果

这是否意味着cnn已经过时,ViT已经成为新常态?当然不!虽然CNN也有它的缺点,但对于目标检测和图像分类等任务来说,它仍然是非常有效的。最先进的卷积架构ResNet和EfficientNet模型仍然在此类任务中占据着至高无上的地位。然而,transformer已经在语言翻译等自然语言处理任务上取得了突破,并在计算机视觉领域显示了相当大的前景。只有时间才能告诉我们在这个不断发展的研究领域将会发生什么。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:基于遥感影像的语义分割论文简读
下一篇:TransUNet
相关文章

 发表评论

暂时没有评论,来抢沙发吧~