transform模型

简介

截屏2025-10-21 21.33.27

截屏2025-10-21 21.35.19

截屏2025-10-21 21.36.03

截屏2025-10-21 21.38.25

截屏2025-10-21 21.40.27

截屏2025-10-21 21.41.32

自注意力机制

截屏2025-10-21 21.45.37

截屏2025-10-22 15.02.22

截屏2025-10-22 15.23.36

  • 需要提一下,QKV三者的维度是一样的。dk 是key 的维度也是其他三者的维度,比如512维。

  • 计算相似度的方法有很多,不一定都是用点积,有高斯距离等等其他的计算相似度的方法都是可以选择的。点积的话结果越大,相似度越高。

  • softmax 算出来的 都是 0-1 之间的值,来把前面的结果变成概率。

  • 如果直接用点积结果进入softmax 可能导致概率极大和概率极小,导致梯度爆炸或者消失,所以点积结果除一下根号的维度,来让最后softmax输出的数据变柔和一些。

截屏2025-10-21 21.46.55

截屏2025-10-21 21.48.07

截屏2025-10-21 21.49.33

截屏2025-10-21 21.50.09

截屏2025-10-21 21.50.34

截屏2025-10-22 09.15.42

截屏2025-10-22 09.16.07

截屏2025-10-22 09.16.23

截屏2025-10-22 09.16.40

截屏2025-10-22 09.16.59

截屏2025-10-22 09.17.14

截屏2025-10-22 09.18.02

截屏2025-10-22 09.18.16

截屏2025-10-22 09.18.32

总结

Q、K、V 来自同一组输入的时候,就是自注意力。它相当于注意力机制中的一个特例。

小明看小红长相就是注意力机制,小红自己看自己就是自注意力机制。截屏2025-10-22 17.26.55

注意上面的Attention部分,只有左边的是自注意力机制,右边上面是交叉注意力机制,右边下面是掩码注意力机制,

  • 所谓 “掩码注意力机制” 用一个例子说明:【我吃零食】是预测目标,在预测时不能把目标全部公开,相当于需要闭卷答题,【我 X X X】掩住后面要预测的部分。
  • “交叉注意力机制”中,Q 来自于 Decoder 的输入,K、V 来自 Encoder 的输出。【它就不是自注意力机制,因为它有别的地方的输入。】

多头注意力机制

截屏2025-10-22 17.45.55

截屏2025-10-22 17.47.04

截屏2025-10-22 17.48.22

截屏2025-10-22 18.26.09

截屏2025-10-22 18.31.26

截屏2025-10-22 09.18.48

截屏2025-10-22 09.19.02

基础演示

截屏2025-10-22 10.12.34

截屏2025-10-22 10.18.25

截屏2025-10-22 10.19.05

截屏2025-10-22 10.19.40

截屏2025-10-22 10.19.53

截屏2025-10-22 10.20.42

截屏2025-10-22 10.21.17

截屏2025-10-22 10.21.33

截屏2025-10-22 10.22.03

并行计算

截屏2025-10-22 10.22.36

截屏2025-10-22 10.22.48