Speculative Decoding

Speculative Decoding简介

Speculative Decoding（投机解码）是一种用于加速大语言模型（LLM）推理生成速度的技术。其核心思想是利用一个轻量级的”草稿模型”先行生成多个候选token，然后用主模型（大模型）并行验证这些候选token，从而减少主模型的推理轮数，大幅提升生成效率。

原理与流程

草稿模型生成：使用一个小模型（如蒸馏模型、低精度模型）基于当前上下文一次性生成N个候选token序列。
主模型验证：主模型对草稿模型生成的token序列进行并行验证，判断哪些token是主模型也会生成的。
采纳与回退：
- 若主模型验证通过，则直接采纳草稿模型的token，跳过多轮推理。
- 若有不一致，则回退到分歧点，从该点重新用主模型生成。

优势

大幅提升推理速度：主模型每次可验证多个token，减少推理步数。
兼容性强：无需修改主模型结构，只需额外训练或选用一个草稿模型。
灵活性高：可与多种推理加速技术结合使用。

应用场景

在线对话、智能助手等对响应速度要求高的场景
长文本生成、代码自动补全等需要高吞吐量的任务
多模态大模型（VLM）推理加速

参考

10+ 种 LLM 投机采样推理加速方案
 手撕LLM-Speculative Decoding
Speculative Decoding Reimagined for Multimodal Large Language Models

Research > AI

#AI #LLM #Research

Speculative Decoding

https://summerchengh.github.io/tech-blog/2025/06/11/大模型-推理加速-Speculative Decoding/

Author

Your Name

Posted on

June 11, 2025

Licensed under

ASR大模型与API报价 Previous

基于本地知识库的智能问答 Next