包含标签 transformer articles

Transformer的细节

Transformer中的几个细节讨论 1. 为什么self-attention中需要$/\sqrt{d}$ 在自注意力(self-attention)机制中,将查询(Query, Q)与键(Key, K)相乘之后除以($\sqrt{d}$),其中d是键向量的维度,这是为了稳定梯度和防止数值不稳定。 具体原因如下: 避免数值过大:在没有缩放的情况下,Q和K的点积结果会随着维度$d$的增加而变得很大。点积的结果会随……

阅读全文

Transformer模型理解

Transformer模型在2017年被google提出,直接基于Self-Attention结构,并且迅速取代了之前NLP任务中常用的RNN神经网络结构,成为主流。本文将探讨关于transformer模型的实现细节 Transformer Encoder Self-attention $$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$ Transformer 中token的输入表示$a$由$Word\ Embedding$ 和位置 $Positional\ Encoding$ 相加得到。 Add & Norm Add & Norm 层由 Add 和 Norm 两部分组成,其计算公式如下: $$\textit{LayerNorm}\big(X+\text{MultiHeadAttention}(X)\big)$$ Feed Forward Feed Forward 层比较简单,是一个两层的全连接层,第一……

阅读全文