首个小程序第三方插件平台开放!免费制作小程序功能再次升级!
623
2022-10-29
通过理解全连接神经网络 理解了attention
以往理解的全连接神经网络的作用,是个memory,是用来分类,
而近期发现,全连接神经网络其实是学到了 L层每个输入节点 对 L+1层每个输出节点 的加权求和贡献比,每个边是一个权重也就是一个输入节点到一个输出节点的贡献
其实就是attention
回想transformer里的K、V、Q,是可以把attention matrix看成全连接层的,[batch,seq_len1,seq_len2] 矩阵乘 [batch,seq_len2,hidden_size] = [batch,seq_len1,hidden_size] 即attention matrix [batch, seq_len1, seq_len2]是在学输入的seq_len2个节点对输出的seq_len1个节点的加权求和贡献比
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~