大模型原理

大模型简介

NLP任务的发展阶段:(1)基于规则+传统机器学习;(2)预训练语言模型+下游任务微调;(3)提示微调+指令微调;(4)多模态大模型+端到端智能体

自回归语言模型

Scaling Law

灾难性遗忘问题

弹性权重巩固(EWC)

通过引入正则化项,限制对旧任务重要权重的更新。实现方式:
(1)计算Fisher信息矩阵,确定权重对就任务的重要性。
(2)在新任务的训练中,添加一个正则化项,限制权重更新幅度。

经验回放

保留一部分旧任务的数据,在学习新任务时进行回放,帮助模型在新、旧任务之间保持平衡。

模型结构

Transformer Encoder

Prefix Decoder

代表性模型有ChatGLM、U-PaLM
特点:Prefix部分的token互相可看到。

Casual Decoder

从左到右的单向注意力
代表性模型:LLaMa7B、LLaMa衍生物。

Encoder-Decoder

输入双向注意力、输出单项注意力
代表性模型:T5、Flan-T5、BART

Transformer Decoder

生成式大语言模型采用的是Transformer Decoder结构。

LLaMa采用了前置层归一和RMSNorm均方根标准化替代曾标准化。

训练数据

代码

推理能力的大幅增加一部分源于使用代码数据进行训练。

优化目标

训练策略

GPT

指令微调

RLHF

强化学习之PPO

奖励
状态
行为
优化目标

提示技术

上下文学习(In-Context Learning)

LLM具有很强的ICL能力,即不需要微调就可以适配多个下游任务达到不错的效果(Large language models (LLMs) possess a remarkable ability to perform in-context learning (ICL),
which enables them to handle multiple downstream tasks simultaneously without requiring taskspecific fine-tuning. ),对于中等规模的模型(7 B~8B)可以通过小样本上下文微调获得ICL的能力,但是其ICL的效果相比单独为一个下游任务精细微调的效果要差。
ManyICL使用一个新的训练目标,使中等规模模型(Mistral-v0.3)具备达到与下游任务精细微调效果接近的ICL能力。

代表性模型

GPT系列

LLaMA

LLaMA3

模型结构

Tokenizer

位置编码

RoPE

ChatGLM

模型结构采用Prefix Decoder

Qwen

DeepSeek

DeepSeek的影响

改变了AI大模型商业化的叙事方式,促使OpenAI等大模型的商业模式进行调整。在训练策略方面做出的创新使得训练效果良好的大模型不依赖英伟达的高端显卡成为可能,降低了大模型在训练阶段对高端显卡的依赖,增大了大模型应用的想象空间。应用的爆发会带来大模型推理阶段对显卡的需求。

模型结构

采用了多头潜在注意力(MLA)和DeepSeekMoE架构。

预训练

负载平衡策略
采用了多token预测训练目标,验证对模型性能有益且,并且可用于推理加速。

语料

14.8万亿token

微调

蒸馏

后训练

参考

llama3 implemented from scratch
llama1模型结构详解
DeepSeek Innovative Techniques
ManyICL


大模型原理
https://summerchengh.github.io/tech-blog/2025/03/26/大模型-代表性模型技术解析/
Author
Your Name
Posted on
March 26, 2025
Licensed under