首个小程序第三方插件平台开放!免费制作小程序功能再次升级!
1110
2022-11-15
transformer里的attention mask产生的 单向双向效果和xlnet里的效果
1,2,3,4是一句话的四个词,并打乱了顺序,
以xlnet为例,
图中,
上图和下图的区别是下图扣去邪线,
上图表示,1可以看到1,2可以看到2,3可以看到3,4可以看到4,
下图表示,1不能看到1,2不能看到2,3不能看到3,4不能看到4,
把这个mask矩阵左下(右上?)角全部置0,则是单向transformer, 把整个mask矩阵全部置1,则是双向transformer,
回到上图, 矩阵第一行,表示预测1的时候可以看到3->2->4, 矩阵第二行,表示预测2的时候可以看到3, 矩阵第三行,表示预测3的时候都看不到, 矩阵第四行,表示预测4的时候可以看到3->2
为什么如此将矩阵mask能实现看到看不到的效果? 因为这个attention矩阵是句子A和句子B造的attention矩阵,用 attetion矩阵 再去 矩阵乘 句子A,则是个完整的attention效果, 也就是attention矩阵一行里如果mask掉一部分词,就等于缺少那部分词的信息。(目前理解)
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~