大模型基础知识-浅析Transformer

Transformer基础知识问答

1. 什么是自注意力机制（Self-Attention）？

自注意力机制是一种能够在序列的每个位置上，根据序列中所有其他位置的信息动态计算表示的方法。它通过计算查询（Query）、键（Key）、值（Value）三组向量之间的相关性分数，实现信息的全局交互。

2. Transformer相比LSTM有哪些优势？

并行计算：Transformer不依赖序列顺序，所有位置可同时计算，LSTM需逐步递归。
长距离依赖建模能力强：自注意力可直接捕捉任意距离的依赖，LSTM长距离依赖易梯度消失。
表达能力更强：多头注意力和层叠结构提升了模型的表达能力。
训练效率高：更易于大规模数据和模型的训练。

3. 自注意力为什么要用缩放（Scaling）？

为什么需要scaling
当$$QK^{T}$$值较大时，softmax会导致，注意力机制只关注到$$QK^{T}$较大的位置，而忽略了全局位置信息。另外，Query和Key的点积随维度增加而增大，导致softmax梯度消失。通过除以( \sqrt{d_k} )（d_k为Key的维度），可以让softmax输出更平滑，训练更稳定。

缩放为什么是 $$\sqrt{d_k}$$
假设Query Key服从(0,1)正太分布，$QK^{T}$则为均值为0，标准方差为：$\sqrt{d_k}$的正太分布，除以( \sqrt{d_k} )（d_k为Key的维度）归一化。

4. 位置编码（Positional Encoding）有什么作用？

Transformer本身不感知序列顺序，位置编码为每个输入位置引入唯一的向量，使模型能够区分不同位置的信息，实现序列建模。
Transformer的位置编码采用了三角函数编码，是一种绝对位置编码。

5. 位置编码有哪些优化工作？

可学习位置编码：将位置向量作为参数训练，提升灵活性。
相对位置编码：建模位置之间的相对关系（如Transformer-XL、T5、DeBERTa）。
旋转位置编码（RoPE）：通过旋转操作编码相对位置信息，提升泛化能力（如Llama、Qwen等）。
混合位置编码：结合绝对和相对位置编码优势。

6. 多头注意力（Multi-Head Attention）有什么优势？

多头注意力将输入分成多个子空间，分别进行自注意力计算，最后拼接融合。模型可以关注不同的子空间特征，提升表达能力和鲁棒性。

7. 残差网络（Residual Connection）的作用？

残差连接缓解了深层网络的梯度消失问题，使信息和梯度能够直接跨层传递，提升模型的可训练性和收敛速度。这是能够训练更深更大的网络的关键。

8. 为什么基于解码器的大模型（如GPT系列）比基于编码器的大模型（如BERT）在现阶段取得了更好效果？

自回归生成能力：解码器结构天然适合生成任务，能处理更复杂的上下文。
大规模预训练语料：解码器模型通常用更大规模的无监督文本进行预训练，泛化能力更强。
任务适应性强：解码器模型可直接用于对话、写作、代码生成等多种任务。
推理与多轮对话优势：自回归结构更适合多轮推理和交互。

训练优化相关

LLM训练为什么通常不使用dropout？

dropout是深度学习训练常用的一种提升模型泛化能力的方式。
但训练LLM通常不使用dropout，主要基于以下几个点的考量：

LLM参数量巨大，通常容易欠拟合而不是过拟合。
dropout相当于引入了噪声，会破坏训练稳定性
Dropout训练和推理不一致

Transformer的缺点

推理时间复杂度是序列长度n的平方

Google MoR

Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation

大模型 > 基础知识

#深度学习 #Transformer #自注意力 #位置编码 #多头注意力

大模型基础知识-浅析Transformer

https://summerchengh.github.io/tech-blog/2025/07/04/大模型-基础知识-浅析Transformer/

Author

Your Name

Posted on

July 4, 2025

Licensed under

大模型搜索与传统信息检索的优势对比 Previous

机器人行走策略训练流程 Next