大模型原理
大模型简介
NLP任务的发展阶段:(1)基于规则+传统机器学习;(2)预训练语言模型+下游任务微调;(3)提示微调+指令微调;(4)多模态大模型+端到端智能体
自回归语言模型
Scaling Law
灾难性遗忘问题
弹性权重巩固(EWC)
通过引入正则化项,限制对旧任务重要权重的更新。实现方式:
(1)计算Fisher信息矩阵,确定权重对就任务的重要性。
(2)在新任务的训练中,添加一个正则化项,限制权重更新幅度。
经验回放
保留一部分旧任务的数据,在学习新任务时进行回放,帮助模型在新、旧任务之间保持平衡。
模型结构
Transformer Encoder
Prefix Decoder
代表性模型有ChatGLM、U-PaLM
特点:Prefix部分的token互相可看到。
Casual Decoder
从左到右的单向注意力
代表性模型:LLaMa7B、LLaMa衍生物。
Encoder-Decoder
输入双向注意力、输出单项注意力
代表性模型:T5、Flan-T5、BART
Transformer Decoder
生成式大语言模型采用的是Transformer Decoder结构。
LLaMa采用了前置层归一和RMSNorm均方根标准化替代曾标准化。
训练数据
代码
推理能力的大幅增加一部分源于使用代码数据进行训练。
优化目标
训练策略
GPT
指令微调
RLHF
强化学习之PPO
奖励
状态
行为
优化目标
提示技术
上下文学习(In-Context Learning)
LLM具有很强的ICL能力,即不需要微调就可以适配多个下游任务达到不错的效果(Large language models (LLMs) possess a remarkable ability to perform in-context learning (ICL),
which enables them to handle multiple downstream tasks simultaneously without requiring taskspecific fine-tuning. ),对于中等规模的模型(7 B~8B)可以通过小样本上下文微调获得ICL的能力,但是其ICL的效果相比单独为一个下游任务精细微调的效果要差。
ManyICL使用一个新的训练目标,使中等规模模型(Mistral-v0.3)具备达到与下游任务精细微调效果接近的ICL能力。
代表性模型
GPT系列
LLaMA
LLaMA3
模型结构
Tokenizer
位置编码
RoPE
ChatGLM
模型结构采用Prefix Decoder
Qwen
DeepSeek
DeepSeek的影响
改变了AI大模型商业化的叙事方式,促使OpenAI等大模型的商业模式进行调整。在训练策略方面做出的创新使得训练效果良好的大模型不依赖英伟达的高端显卡成为可能,降低了大模型在训练阶段对高端显卡的依赖,增大了大模型应用的想象空间。应用的爆发会带来大模型推理阶段对显卡的需求。
模型结构
采用了多头潜在注意力(MLA)和DeepSeekMoE架构。
预训练
负载平衡策略
采用了多token预测训练目标,验证对模型性能有益且,并且可用于推理加速。
语料
14.8万亿token
微调
蒸馏
后训练
参考
llama3 implemented from scratch
llama1模型结构详解
DeepSeek Innovative Techniques
ManyICL