大模型训练
Scaling Law
模型结构
GPT
LLaMA
DeepSeek
ChatGLM
问题
实效性低
通过RAG等技术解决。
大模型幻觉
生成式模型生成了与模型输入不相关或不准确的内容。
缓解大模型幻觉的常用策略
提示学习
提示(Prompt)是伴随着输入一起给模型的上下文。
cloze prompt:填充答案的位置在句中。
prefix prompt:填充答案的位置在句末。
提示技术
In-Context Learning
思维链
链式思维(Chain of Thoughts)
思维树(Tree of Thoughts)
思维图(Graph of Thoughts)
选择以推理为中心的训练集
代码本身是Step-by-Step的指令数据。
强化学习
指令微调
RLHF
参考
Fine-Tuning Language Models from Human Preferences
ChatGPT 背后的“功臣”——RLHF 技术详解
ChatGPT发展历程、原理、技术架构详解和产业未来
https://github.com/chenweiphd/ChatGPT-Hub
大语言模型的推理能力
Instruction-Tuning-Papers
LLMs-from-scratch)
大模型训练
https://summerchengh.github.io/tech-blog/2025/04/01/大模型-预训练/