大模型训练

Scaling Law

模型结构

GPT

LLaMA

DeepSeek

ChatGLM

问题

实效性低

通过RAG等技术解决。

大模型幻觉

生成式模型生成了与模型输入不相关或不准确的内容。
缓解大模型幻觉的常用策略

提示学习

提示(Prompt)是伴随着输入一起给模型的上下文。
cloze prompt:填充答案的位置在句中。
prefix prompt:填充答案的位置在句末。

提示技术

In-Context Learning

思维链

链式思维(Chain of Thoughts)

思维树(Tree of Thoughts)

思维图(Graph of Thoughts)

选择以推理为中心的训练集

代码本身是Step-by-Step的指令数据。

强化学习

指令微调

RLHF

参考

Fine-Tuning Language Models from Human Preferences
ChatGPT 背后的“功臣”——RLHF 技术详解
ChatGPT发展历程、原理、技术架构详解和产业未来
https://github.com/chenweiphd/ChatGPT-Hub
大语言模型的推理能力
Instruction-Tuning-Papers
LLMs-from-scratch)


大模型训练
https://summerchengh.github.io/tech-blog/2025/04/01/大模型-预训练/
Author
Your Name
Posted on
April 1, 2025
Licensed under