Transformer的学习笔记

    科技2024-04-02  99

    1 前言

    Transformer是一个很厉害的模型呀~

    2 Transformer的两大特点

    2.1 第一特点——全局感受野

    2.2 第二特点——G

    2 Self-Attention

    ​​ Note:这里的 W q W^q Wq W k W^k Wk W v W^v Wv的权值是不共享的,也就是独立的; 我感觉原因可能是因为,不同时刻的序列 a i a^i ai的特征可能不太一样,所以这里没有用相同的kernel来提取特征; (CNN中,所有loc的region都是使用的相同的卷积kernel,这样的特点给CNN带来了平移不变性的优点; 于是特征的数量主要由channel的维度来确定,也就是,channel数决定了特征的丰富程度)

    Processed: 0.010, SQL: 9