这是卷积神经网络的终结吗?-FinClip官网

这是卷积神经网络的终结吗?

网友投稿 1151 2022-11-23

这是卷积神经网络的终结吗?

文章目录

前言卷积神经网络的问题Transformers模型结构重点结果

前言

近十年来，卷积神经网络一直主导着全球的计算机视觉研究。然而，人们提出了一种新的方法，利用变压器的能量来理解图像。变压器最初是为自然语言处理任务设计的，主要关注神经机器翻译。来自谷歌Research的Alexey Dosovitskiy, Lucas Beyer等人的论文《An Image is Worth 16x16 Words: Transformer for Image Recognition at Scale》提出了一种名为Vision Transformer (ViT)的架构，利用变压器来处理图像数据。在本文中，我将尝试解释它是如何工作的。

卷积神经网络的问题

在我们深入研究视觉变压器的方法之前，有必要分析卷积神经网络的缺点和根本缺陷。首先，cnn无法对相对空间信息进行编码。我们的意思是，它关注于检测某些特征，而不考虑它们之间的相对位置。

CNN的另一个主要缺陷是池化层。池化层丢失了许多有价值的信息，比如最活跃的特征检测器的精确位置。换句话说，它不能传达被检测到的特征在图像中的确切位置。

Transformers

模型结构

现在，这些嵌入的小块经过多层交替的多头自我注意，多层感知器(简单的前馈神经网络)和层归一化，就像在一个普通的变压器。在变压器编码器的末端附加分类头，以预测最终的类。与任何其他卷积模型一样，我们可以使用预先训练的编码器库，并附加一个定制的MLP层来微调模型，以适应它们的分类任务。

重点

作者在各种标准数据集上训练了这个模型，如ImageNet、cifare10 /100和jpt - 300m, jpt - 300m是谷歌拥有的私有数据集，拥有3亿张高分辨率图像。与其他最先进的卷积模型相比，他们的模型具有大致相同的精度(在许多情况下甚至略高)，但显著减少了训练时间(减少了大约75%)，并且使用了更少的硬件资源。

ViT的另一个优势是，它可以很早就了解到更高层次的关系，因为它使用的是全局的注意力而不是局部的。甚至在最开始的时候，你就可以注意到与卷积神经网络不同的遥远事物。

除了在训练过程中非常高效，随着训练数据的增加，它也变得越来越好。

结果

这是否意味着cnn已经过时，ViT已经成为新常态?当然不!虽然CNN也有它的缺点，但对于目标检测和图像分类等任务来说，它仍然是非常有效的。最先进的卷积架构ResNet和EfficientNet模型仍然在此类任务中占据着至高无上的地位。然而，transformer已经在语言翻译等自然语言处理任务上取得了突破，并在计算机视觉领域显示了相当大的前景。只有时间才能告诉我们在这个不断发展的研究领域将会发生什么。

Flutter开发App的未来及其在各行业的应用潜力分析

1151 2022-11-23

这是卷积神经网络的终结吗?

app开发者平台在数字化时代的重要性与发展趋势解析

Flutter开发App的未来及其在各行业的应用潜力分析

探索flutter框架开发的app在移动应用市场的潜力与挑战

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计