大模型基础知识-浅析Transformer

Transformer基础知识问答

1. 什么是自注意力机制(Self-Attention)?

自注意力机制是一种能够在序列的每个位置上,根据序列中所有其他位置的信息动态计算表示的方法。它通过计算查询(Query)、键(Key)、值(Value)三组向量之间的相关性分数,实现信息的全局交互。

2. Transformer相比LSTM有哪些优势?

  • 并行计算:Transformer不依赖序列顺序,所有位置可同时计算,LSTM需逐步递归。
  • 长距离依赖建模能力强:自注意力可直接捕捉任意距离的依赖,LSTM长距离依赖易梯度消失。
  • 表达能力更强:多头注意力和层叠结构提升了模型的表达能力。
  • 训练效率高:更易于大规模数据和模型的训练。

3. 自注意力为什么要用缩放(Scaling)?

为什么需要scaling
当$$QK^{T}$$值较大时,softmax会导致,注意力机制只关注到$$QK^{T}$较大的位置,而忽略了全局位置信息。另外,Query和Key的点积随维度增加而增大,导致softmax梯度消失。通过除以( \sqrt{d_k} )(d_k为Key的维度),可以让softmax输出更平滑,训练更稳定。

缩放为什么是 $$\sqrt{d_k}$$
假设Query Key服从(0,1)正太分布,$QK^{T}$则为均值为0,标准方差为:$\sqrt{d_k}$的正太分布,除以( \sqrt{d_k} )(d_k为Key的维度)归一化。

4. 位置编码(Positional Encoding)有什么作用?

Transformer本身不感知序列顺序,位置编码为每个输入位置引入唯一的向量,使模型能够区分不同位置的信息,实现序列建模。
Transformer的位置编码采用了三角函数编码,是一种绝对位置编码。

5. 位置编码有哪些优化工作?

  • 可学习位置编码:将位置向量作为参数训练,提升灵活性。
  • 相对位置编码:建模位置之间的相对关系(如Transformer-XL、T5、DeBERTa)。
  • 旋转位置编码(RoPE):通过旋转操作编码相对位置信息,提升泛化能力(如Llama、Qwen等)。
  • 混合位置编码:结合绝对和相对位置编码优势。

6. 多头注意力(Multi-Head Attention)有什么优势?

多头注意力将输入分成多个子空间,分别进行自注意力计算,最后拼接融合。模型可以关注不同的子空间特征,提升表达能力和鲁棒性。

7. 残差网络(Residual Connection)的作用?

残差连接缓解了深层网络的梯度消失问题,使信息和梯度能够直接跨层传递,提升模型的可训练性和收敛速度。这是能够训练更深更大的网络的关键。

8. 为什么基于解码器的大模型(如GPT系列)比基于编码器的大模型(如BERT)在现阶段取得了更好效果?

  • 自回归生成能力:解码器结构天然适合生成任务,能处理更复杂的上下文。
  • 大规模预训练语料:解码器模型通常用更大规模的无监督文本进行预训练,泛化能力更强。
  • 任务适应性强:解码器模型可直接用于对话、写作、代码生成等多种任务。
  • 推理与多轮对话优势:自回归结构更适合多轮推理和交互。

训练优化相关

LLM训练为什么通常不使用dropout?

dropout是深度学习训练常用的一种提升模型泛化能力的方式。
但训练LLM通常不使用dropout,主要基于以下几个点的考量:

  1. LLM参数量巨大,通常容易欠拟合而不是过拟合。
  2. dropout相当于引入了噪声,会破坏训练稳定性
  3. Dropout训练和推理不一致

Transformer的缺点

推理时间复杂度是序列长度n的平方

Google MoR


Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation


大模型基础知识-浅析Transformer
https://summerchengh.github.io/tech-blog/2025/07/04/大模型-基础知识-浅析Transformer/
Author
Your Name
Posted on
July 4, 2025
Licensed under