大模型训练-强化学习篇
强化学习基本概念
强化学习涉及以下几个概念:智能体(Agent)、环境(Environment)、状态(State)、行为(Action)、奖励(Reward)。
环境由智能体所有时刻的状态组成。智能体在执行行为后,感知环境的状态,根据状态和目标计算奖励函数,并根据策略选择下一个行动。
强化学习在大模型中的核心作用
显著提升大模型的推理能力。
强化学习训练框架对比
| 框架 | 开发机构 | 支持算法 | 主要特性 | 优势 | 适用场景 |
|---|---|---|---|---|---|
| TRL | HuggingFace | PPO/DPO RLHF Reward Modeling |
Transformers集成 易于使用 丰富示例 |
生态完整 文档齐全 社区活跃 |
研究实验 快速原型 |
| DeepSpeed-Chat | Microsoft | PPO Actor-Critic 分布式RLHF |
ZeRO优化 大规模训练 内存高效 |
企业级 可扩展性强 性能优化 |
大规模训练 企业部署 |
| OpenRLHF | OpenLLMAI | PPO/DPO ReAct 多种RL算法 |
模块化设计 算法丰富 易扩展 |
算法全面 研究友好 开源透明 |
算法研究 学术实验 |
| ColossalAI-Chat | HPC-AI Tech | PPO RLHF 低资源训练 |
自动并行 异构训练 成本优化 |
资源友好 自动化高 成本低 |
资源受限 成本敏感 |
| TRLX | CarperAI | PPO/ILQL 分布式训练 Reward学习 |
分布式优化 多GPU支持 灵活配置 |
性能稳定 配置灵活 扩展性好 |
中大规模训练 性能要求高 |
| ChatGLM-RLHF | 北京大学 | PPO DPO 中文优化 |
中文数据集 ChatGLM优化 安全对齐 |
中文效果好 安全性强 本土化 |
中文应用 安全要求高 |
| RewardBench | Allen AI | 奖励模型评估 基准测试 多任务评估 |
评估标准化 基准全面 可复现 |
评估权威 标准统一 研究导向 |
模型评估 学术研究 |
常用算法
PPO (Proximal Policy Optimization)
- 原理: 通过限制策略更新幅度,保证训练稳定性
- 优势: 稳定性好、易于实现、效果可靠
- 应用: ChatGPT、GPT-4等主流模型的RLHF训练
DPO (Direct Preference Optimization)
- 原理: 直接优化偏好数据,无需显式奖励模型
- 优势: 训练简单、计算效率高、避免奖励模型偏差
- 应用: Llama 2、Claude等模型的偏好学习
ILQL (Implicit Language Q-Learning)
- 原理: 结合Q-Learning和语言模型,隐式学习价值函数
- 优势: 不需要显式价值函数、适合长序列
- 应用: 长文本生成、对话系统优化
ChatGPT
DeepSeek
研究点
提升模型推理能力
工具使用
现状:预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。
Tool-Integrated Reinforcement Learning框架允许模型直接从基座模型开始,通过强化学习自主探索最优工具使用策略,而非受限于与定义的工具使用模式。
参考
Fine-Tuning Language Models from Human Preferences
ChatGPT 背后的“功臣”——RLHF 技术详解
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
TORL: Scaling Tool-Integrated RL
大模型训练-强化学习篇
https://summerchengh.github.io/tech-blog/2025/04/01/大模型-强化学习/