分类 deep learning articles

Transformer的细节

Transformer中的几个细节讨论 1. 为什么self-attention中需要$/\sqrt{d}$ 在自注意力(self-attention)机制中,将查询(Query, Q)与键(Key, K)相乘之后除以($\sqrt{d}$),其中d是键向量的维度,这是为了稳定梯度和防止数值不稳定。 具体原因如下: 避免数值过大:在没有缩放的情况下,Q和K的点积结果会随着维度$d$的增加而变得很大。点积的结果会随……

阅读全文

Transformer模型理解

Transformer模型在2017年被google提出,直接基于Self-Attention结构,并且迅速取代了之前NLP任务中常用的RNN神经网络结构,成为主流。本文将探讨关于transformer模型的实现细节 Transformer Encoder Self-attention $$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$ Transformer 中token的输入表示$a$由$Word\ Embedding$ 和位置 $Positional\ Encoding$ 相加得到。 Add & Norm Add & Norm 层由 Add 和 Norm 两部分组成,其计算公式如下: $$\textit{LayerNorm}\big(X+\text{MultiHeadAttention}(X)\big)$$ Feed Forward Feed Forward 层比较简单,是一个两层的全连接层,第一……

阅读全文

对比损失中温度系数的作用

温度系数 对比损失(Contrastive Loss)中的参数$\tau$是一个神秘的参数,大部分论文都默认采用较小的值来进行自监督对比学习(例如 $\tau = 0.05$),但是很少有文章详细讲解参数$\tau$的作用,本文将详解对比损失中的超参数 ,并借此分析对比学习的核心机制。 首先总结下本文的发现: 对比损失是一个具备困难负样本自发现性质的损失函数,这一性质对于学习高质量的自监督表示是至关重要的。关注困难样本的……

阅读全文