Speculative Decoding
Speculative Decoding简介
Speculative Decoding(投机解码)是一种用于加速大语言模型(LLM)推理生成速度的技术。其核心思想是利用一个轻量级的”草稿模型”先行生成多个候选token,然后用主模型(大模型)并行验证这些候选token,从而减少主模型的推理轮数,大幅提升生成效率。
原理与流程
- 草稿模型生成:使用一个小模型(如蒸馏模型、低精度模型)基于当前上下文一次性生成N个候选token序列。
- 主模型验证:主模型对草稿模型生成的token序列进行并行验证,判断哪些token是主模型也会生成的。
- 采纳与回退:
- 若主模型验证通过,则直接采纳草稿模型的token,跳过多轮推理。
- 若有不一致,则回退到分歧点,从该点重新用主模型生成。
优势
- 大幅提升推理速度:主模型每次可验证多个token,减少推理步数。
- 兼容性强:无需修改主模型结构,只需额外训练或选用一个草稿模型。
- 灵活性高:可与多种推理加速技术结合使用。
应用场景
- 在线对话、智能助手等对响应速度要求高的场景
- 长文本生成、代码自动补全等需要高吞吐量的任务
- 多模态大模型(VLM)推理加速
参考
10+ 种 LLM 投机采样推理加速方案
手撕LLM-Speculative Decoding
Speculative Decoding Reimagined for Multimodal Large Language Models
Speculative Decoding
https://summerchengh.github.io/tech-blog/2025/06/11/大模型-推理加速-Speculative Decoding/