Transformer的学习笔记

科技2024-04-02 112

1 前言

Transformer是一个很厉害的模型呀~

2 Transformer的两大特点

2.1 第一特点——全局感受野

2.2 第二特点——G

2 Self-Attention

Note：这里的 $W^q$ 、 $W^k$ 和 $W^v$ 的权值是不共享的，也就是独立的；我感觉原因可能是因为，不同时刻的序列 $a^i$ 的特征可能不太一样，所以这里没有用相同的kernel来提取特征；（CNN中，所有loc的region都是使用的相同的卷积kernel，这样的特点给CNN带来了平移不变性的优点；于是特征的数量主要由channel的维度来确定，也就是，channel数决定了特征的丰富程度）

Processed: 0.041, SQL: 9